Discussion:
[i18n-no] Ispell-ordlister med Affix-filer i Hunspell-format
Leif Halvard Silli
2016-09-29 01:15:25 UTC
Permalink
* -0.7 RCVD_IN_DNSWL_LOW RBL: Sender listed at http://www.dnswl.org/, low
* trust
* [194.63.252.55 listed in list.dnswl.org]

Hei. Spell-norwegian-heimsida[1] seier at prosjektet inneheld:

* Affix rules (in ispell format, automatically transformed to aspell and
myspell format).

Så då eg lasta ned ordbokpakka (no_NO-pack2-2.2.zip[2]), venta eg at
dei affiksfilene som fylgde med, var ispell-kompatible. Og òg
Readme-fila i denne pakka opplyser at det er ei Ispell-pakke:
«README-file for the distribution of the Norwegian dictionaries for
ISPELL.»

Men då eg køyrde Ispell sin hash-produksjonskommando[3], fekk eg
melding om feil på fyrste line i affiks-fila. (Eg fek òg melding om
feil i ordboka - men dette retta seg når eg sette lineskiftformat til
MacOS format - spør meg ikkje kvifor.)

Grunnen til feilmeldinga for affiksfilene syner seg vera at dei
affiks-filene som vert distribuerte i denne paka, er i Hunspell-format -
og ikkje i Ispell-format.

Dei opphavlege - og Ispell-kompatible - affiks-filene, ligg i staden i
spell-norwegian-pakka[4] og heiter "nn.aff.in" og "nb.aff.in". Då eg
køyrde buildhash mot desse filene (iallfall galdt det
bokmålsversjonen), gjekk det stort sett bra - men det kom nokre
feilmeldingar (for orddboksord som hadde punktum i seg mm). Eg veit
ikkje om dette kom av avgrensingar i Ispell eller om det kom av at
ispell-affiksfilene ikkje har vore oppdaterte på ei stund eller om
ordbøkene ikkje lenger er ispell-kompatible.

At sjølve ordbokpakka manglar affiksfiler i Ispell-format, ser ut til
å ha vore tilfelle i mange år.

Framlegg (under føresetnad av at ispell og hunspell har same
ordbokformat): Affiksfilene for både ispell og hunspell (og aspell?)
bør distribuerast saman med ordboksfilene (og det bør gå fram av
namnet på affiksfilene kva for eit affiksfilformat det er snakk om).

[1] http://no.speling.org/
[2]
https://alioth.debian.org/frs/download.php/file/4168/no_NO-pack2-2.2.zip
[3] buildhash nn_NO.dic nn_NO.aff nn_NO.hash
[4]
https://alioth.debian.org/frs/download.php/file/4167/spell-norwegian-2.2.tar.gz

Med venleg helsing
Leif Halvard Silli
Petter Reinholdtsen
2016-09-29 05:54:17 UTC
Permalink
* -1.0 ALL_TRUSTED Passed through trusted hosts only via SMTP
* -5.0 PING_UIO_MAIL_IS_INTERNAL Message has never been outside
* 129.240.0.0/16 or 193.157.115.0/24

[Leif Halvard Silli]
Post by Leif Halvard Silli
Hei.
Hei og takk for at du tar kontakt med oss som bryr oss om den frie
norske stavekontrollen. Den trenger flere som bryr seg og helst også
folk med tid til å drive videreutvikling. :)
Post by Leif Halvard Silli
* Affix rules (in ispell format, automatically transformed to aspell and
myspell format).
Så då eg lasta ned ordbokpakka (no_NO-pack2-2.2.zip[2]), venta eg at
dei affiksfilene som fylgde med, var ispell-kompatible. Og òg
«README-file for the distribution of the Norwegian dictionaries for
ISPELL.»
Her er nok egentlig feilen. 'for ISPELL' var nok riktig da README-fila
ble skrevet for lenge siden, men nå er det for ispell, aspell, myspell
og hunspell, og pack2-fila du lastet ned er så vidt jeg husker laget for
å være OOo-kompatibel og ikke en ispell-fil. 'for ISPELL' bør nok
fjernes fra overskriften for å minske sjansen for misforståelser. Vi
lager ikke separat ispell-pakke for nedlasting. I hovedsak på grunn av
at ispell er mest brukt på Linux og alle linux-distribusjoner jeg
kjenner til inkluderer norsk stavekontroll for ispell selv og det dermed
ikke er behov for en separat distribusjon fra stavekontrollprosjektet.
Distribusjonene tar kildekodepakken og lager ispell-, aspell-, myspell-
og hunspell-pakker til brukerne side.

Når det er sagt, Tør jeg spørre hvorfor du forsøker å bruke ispell? Det
er jo det minst funksjonelle stavekontrollsystemet på Linux. Jeg
innbiller meg at hunspell er det mest funksjonelle, slik at det kanskje
er bedre å legge innsatsen der hvis du har et valg.
Post by Leif Halvard Silli
Dei opphavlege - og Ispell-kompatible - affiks-filene, ligg i staden i
spell-norwegian-pakka[4] og heiter "nn.aff.in" og "nb.aff.in". Då eg
køyrde buildhash mot desse filene (iallfall galdt det
bokmålsversjonen), gjekk det stort sett bra - men det kom nokre
feilmeldingar (for orddboksord som hadde punktum i seg mm). Eg veit
ikkje om dette kom av avgrensingar i Ispell eller om det kom av at
ispell-affiksfilene ikkje har vore oppdaterte på ei stund eller om
ordbøkene ikkje lenger er ispell-kompatible.
Det kommer nok av at du har brukt råfiler som skal brukes under bygging
av stavekontrollpakker, ikke selve aff-filene.
Post by Leif Halvard Silli
At sjølve ordbokpakka manglar affiksfiler i Ispell-format, ser ut til
å ha vore tilfelle i mange år.
pack2-fila skal ikke ha, og har aldri hatt ispell-relevante filer.
Post by Leif Halvard Silli
Framlegg (under føresetnad av at ispell og hunspell har same
ordbokformat): Affiksfilene for både ispell og hunspell (og aspell?)
bør distribuerast saman med ordboksfilene (og det bør gå fram av
namnet på affiksfilene kva for eit affiksfilformat det er snakk om).
Kan du forklare litt mer hva slags brukeropplevelse du tenker på? Når
holder det ikke med Linux-distribusjonens egne pakker for norsk
stavekontroll?

For å oppsummere:

no_NO-pack2-2.2.zip er en fil vi startet å lage da OpenOffice.org
manglet norsk stavekontroll inkludert på Windows og Mac.

spell-norwegian-2.2.tar.gz er kildekoden til stavekontrollen og
inneholder det som trengs for å bygge stavekontrollfiler til ulike
konsumenter som ispell, aspell, myspell og hunspell. En må kjøre
'make' for å lage filene som konsumentene trenger, de finnes ikke i
tarballen i ferdigbygget form.
--
Vennlig hilsen
Petter Reinholdtsen
Leif Halvard Silli
2016-09-29 12:30:57 UTC
Permalink
* -0.7 RCVD_IN_DNSWL_LOW RBL: Sender listed at http://www.dnswl.org/, low
* trust
* [194.63.252.55 listed in list.dnswl.org]
* 0.0 MIME_QP_LONG_LINE RAW: Quoted-printable line longer than 76 chars
Post by Petter Reinholdtsen
[Leif Halvard Silli]
Post by Leif Halvard Silli
Hei.
Hei og takk for at du tar kontakt med oss som bryr oss om den frie
norske stavekontrollen. Den trenger flere som bryr seg og helst også
folk med tid til å drive videreutvikling. :)
Eg vil gjerne yta min skjerv - over tid ...
Post by Petter Reinholdtsen
Post by Leif Halvard Silli
* Affix rules (in ispell format, automatically transformed to aspell and
myspell format).
Så då eg lasta ned ordbokpakka (no_NO-pack2-2.2.zip[2]), venta eg at
dei affiksfilene som fylgde med, var ispell-kompatible. Og òg
«README-file for the distribution of the Norwegian dictionaries for
ISPELL.»
Her er nok egentlig feilen. 'for ISPELL' var nok riktig da
README-fila
ble skrevet for lenge siden, men nå er det for ispell, aspell, myspell
og hunspell, og pack2-fila du lastet ned er så vidt jeg husker laget for
å være OOo-kompatibel og ikke en ispell-fil. 'for ISPELL' bør nok
fjernes fra overskriften for å minske sjansen for misforståelser.
Dersom pack2 berre er meint å vera kompatible med Hunspell, burde
innhald og innpakking vore reindyrka so dette var lett å forstå. Men
då er det ikkje nok å berre byta ut overskrifta - også resten av
innhaldet i den fila handlar om ISPELL. Endå tydlegare hadde det vore
dersom ein gjekk over til UTF-8-format, som hunspell støttar, men ikkje
ispell.

Er ordboksformatet ulikt for ispell og hunspell? Eg var under inntrykk
av ordboksfilene var like, so lenge ein held seg til ISO-8859-1 og at
det berre var affiksformata som var ulike. Dersom dei er like, so kunne
ferdiglaga affiksfiler for ispell med føremun fylgd med i pack2.

(For meg ser ser ordboksfilene for ispell og hunspell ut til å vera
like - eg køyrde iallfall denne kommandoen:

ispell -e -d ./mydict.hash < mydict.txt > mydict.wl

både mot nb_NO.dic frå pack2 med hjelp av nb.aff.in og mot den ordboka
som make genererte, inkludert nb.aff som make generete, og fekk heilt
like filer.)
Post by Petter Reinholdtsen
Vi lager ikke separat ispell-pakke for nedlasting.
Ikkje dess mindre står det på heimsida at «Aspell and ispell packages
are coming soon», sjå http://no.speling.org/#Download
Post by Petter Reinholdtsen
I hovedsak på grunn av
at ispell er mest brukt på Linux og alle linux-distribusjoner jeg
kjenner til inkluderer norsk stavekontroll for ispell selv og det dermed
ikke er behov for en separat distribusjon fra stavekontrollprosjektet.
Distribusjonene tar kildekodepakken og lager ispell-, aspell-,
myspell-
og hunspell-pakker til brukerne side.
Kildekodepakken = 'spell-norwegian-2.2', forstår eg no.
Post by Petter Reinholdtsen
Når det er sagt, Tør jeg spørre hvorfor du forsøker å bruke ispell? Det
er jo det minst funksjonelle stavekontrollsystemet på Linux. Jeg
innbiller meg at hunspell er det mest funksjonelle, slik at det kanskje
er bedre å legge innsatsen der hvis du har et valg.
Eg la inn ispell fordi eg hadde bruk for å generera ei ordliste med
alle bøygde av orda for bruk i eit anna ordlisteformat som generer
ordlistene med hjelp av ordlister som innehald alle bøygde former. Eg
freista å fylgja denne oppskrifta:
http://www.xmlmind.com/xmleditor/_dictbuilder/doc/from_ispell.html

Eg har òg lagt inn Hunspell og har prøvd å skapa ei slik ordliste med
hjelp av unmunch-verktyet.

Kommandoline: unmunch nb_NO.dic nb_NO.aff >bokmaal.txt

Eg burde kanskje dobbeltsjekka, men utfallet av denne kommanodoen ser ut
til å vera ei mykje stuttare fil en den fila eg til slutt greidde å
laga med hjelp av ISPELL og ISPELL sitt buildhash-verkty. Eg er difor
ikkje uviss på om Hunspell sitt unmunch-verkty skapar ei ordliste som
er so komplett som den ispell lagar.
Post by Petter Reinholdtsen
Post by Leif Halvard Silli
Dei opphavlege - og Ispell-kompatible - affiks-filene, ligg i staden i
spell-norwegian-pakka[4] og heiter "nn.aff.in" og "nb.aff.in". Då eg
køyrde buildhash mot desse filene (iallfall galdt det
bokmålsversjonen), gjekk det stort sett bra - men det kom nokre
feilmeldingar (for orddboksord som hadde punktum i seg mm). Eg veit
ikkje om dette kom av avgrensingar i Ispell eller om det kom av at
ispell-affiksfilene ikkje har vore oppdaterte på ei stund eller om
ordbøkene ikkje lenger er ispell-kompatible.
Det kommer nok av at du har brukt råfiler som skal brukes under bygging
av stavekontrollpakker, ikke selve aff-filene.
Fila 'nb.aff.in' ser heilt ut som ei affiks fil. Eg køyrde make på
kjeldekodepakka, og den einaste skilnaden på 'nb.aff.in' og 'nb.aff'
syner seg å vera visse ting relatert til bokstavane îÎ (LATIN SMALL
LETTER I WITH CIRCUMFLEX og LATIN CAPITAL LETTER I WITH CIRCUMFLEX). Det
med iI med sirkumfleks virkar litt som ein feil - men det er jo berre ei
gissing frå mi side.

Kvar er forresten det norske ispell-prosjektet? Ligg det norske
ispell-prosjektet eigentleg ligg her?: http://spell-no.sourceforge.net/
Post by Petter Reinholdtsen
Post by Leif Halvard Silli
At sjølve ordbokpakka manglar affiksfiler i Ispell-format, ser ut til
å ha vore tilfelle i mange år.
pack2-fila skal ikke ha, og har aldri hatt ispell-relevante filer.
(Sjå eventuelt det eg har sagt/spurd om ovanfor.)
Post by Petter Reinholdtsen
Post by Leif Halvard Silli
Framlegg (under føresetnad av at ispell og hunspell har same
ordbokformat): Affiksfilene for både ispell og hunspell (og aspell?)
bør distribuerast saman med ordboksfilene (og det bør gå fram av
namnet på affiksfilene kva for eit affiksfilformat det er snakk om).
Kan du forklare litt mer hva slags brukeropplevelse du tenker på?
Eg tenkjer på den brukaropplevinga ein får når ein kjem til
http://no.speling.org og les det som står der og deretter lastar ned
filene ifrå https://alioth.debian.org/frs/?group_id=30577. Kanskje er
http://no.speling.org noko av det viktigaste å oppdatere ...
Post by Petter Reinholdtsen
Når
holder det ikke med Linux-distribusjonens egne pakker for norsk
stavekontroll?
Tja. På Mac har ein t.d. homebrew (http://brew.sh) og på Windows har
ein Scoop (http://scoop.sh) som let deg installera all slag
unix/linux-program. Til dømes kan ein slik installera ispell og
hunspell etc. Iallfall på Mac er brew svært populært, slik eg
oppfattar det.
Post by Petter Reinholdtsen
no_NO-pack2-2.2.zip er en fil vi startet å lage da OpenOffice.org
manglet norsk stavekontroll inkludert på Windows og Mac.
OK.
Post by Petter Reinholdtsen
spell-norwegian-2.2.tar.gz er kildekoden til stavekontrollen og
inneholder det som trengs for å bygge stavekontrollfiler til ulike
konsumenter som ispell, aspell, myspell og hunspell. En må kjøre
'make' for å lage filene som konsumentene trenger, de finnes ikke i
tarballen i ferdigbygget form.
Hjå meg gjekk det OK å køyra make fram til eg fekk denne meldinga:

make: *** [nb.mch] Error 1

Leif Halvard Silli
Petter Reinholdtsen
2016-09-29 12:51:42 UTC
Permalink
* -1.0 ALL_TRUSTED Passed through trusted hosts only via SMTP
* -5.0 PING_UIO_MAIL_IS_INTERNAL Message has never been outside
* 129.240.0.0/16 or 193.157.115.0/24

[Leif Halvard Silli]
Post by Leif Halvard Silli
Eg vil gjerne yta min skjerv - over tid ...
Hurra!
Post by Leif Halvard Silli
Er ordboksformatet ulikt for ispell og hunspell?
Jeg husker ikke. :)
Post by Leif Halvard Silli
Ikkje dess mindre står det på heimsida at «Aspell and ispell packages
are coming soon», sjå http://no.speling.org/#Download
Heh, lurer på hvem som har lagt inn det. :)
Post by Leif Halvard Silli
Eg la inn ispell fordi eg hadde bruk for å generera ei ordliste med
alle bøygde av orda for bruk i eit anna ordlisteformat som generer
ordlistene med hjelp av ordlister som innehald alle bøygde former.
Det høres ut som om du ville være bedre tjent med å starte med
norsk.words og hente ut fullformlista fra den.
Post by Leif Halvard Silli
Kvar er forresten det norske ispell-prosjektet? Ligg det norske
http://spell-no.sourceforge.net/
Nei, <URL: https://alioth.debian.org/projects/spell-norwegian/ > er
stedet. Det finnes så vidt jeg vet bare et prosjekt for fritt
tilgjengelig stavekontroll på bokmål og nynorsk, som blant annet tilbyr
ispell-støtte.

Jeg har vage minner om at <URL: http://spell-no.sourceforge.net/ > og
<URL: https://sourceforge.net/projects/spell-no/ > var et forsøk av en
som ville lage synonymordbok, men jeg husker ikke noe spesielt rundt
dette.
Post by Leif Halvard Silli
make: *** [nb.mch] Error 1
Kanskje du mangler noen avhengigheter. Se f.eks. hva Debian-pakken
trenger for å bygge, <URL: https://packages.qa.debian.org/n/norwegian.html >

Mitt problem er at jeg har for mange prosjekter jeg er involvert i, og
stavekontrollen er et godt stykke ned på prioriteringslisten for tiden.
--
Vennlig hilsen
Petter Reinholdtsen
Kevin Brubeck Unhammer
2016-09-29 13:11:34 UTC
Permalink
Eg la inn ispell fordi eg hadde bruk for å generera ei ordliste med
alle bÞygde av orda for bruk i eit anna ordlisteformat som generer
ordlistene med hjelp av ordlister som innehald alle bÞygde former.
Då trur eg det blir lettare å gå rett til kjelda:
https://savannah.nongnu.org/projects/ordbanken/
Leif Halvard Silli
2016-09-29 13:20:31 UTC
Permalink
Post by Kevin Brubeck Unhammer
Post by Leif Halvard Silli
Eg la inn ispell fordi eg hadde bruk for å generera ei ordliste med
alle bøygde av orda for bruk i eit anna ordlisteformat som generer
ordlistene med hjelp av ordlister som innehald alle bøygde former.
https://savannah.nongnu.org/projects/ordbanken/
Sjå det! Hjarteleg takk for tipset - det skal eg verkeleg sjå på. Det
er løye kor god hjelp det er i å snakka saman!
--
leif halvard silli
Petter Reinholdtsen
2016-09-29 13:54:42 UTC
Permalink
* -1.0 ALL_TRUSTED Passed through trusted hosts only via SMTP
* -5.0 PING_UIO_MAIL_IS_INTERNAL Message has never been outside
* 129.240.0.0/16 or 193.157.115.0/24

[Kevin Brubeck Unhammer]
Post by Kevin Brubeck Unhammer
https://savannah.nongnu.org/projects/ordbanken/
Ja, hvis han ikke trenger sammensatte ord. I så fall er ordbanken en
dårlig kilde. Eller har de begynt å ta inn mye brukte sammensetninger
nå?

Og for å ikke forvirre noen, ordbanken fra UiO er en av flere kilder til
ord i den norske stavekontrollen. "rett til kilden" kan gi inntrykk av
at det er kilden til den norske stavekontrollen, og det er langt fra
tilfellet.
--
Vennlig hilsen
Petter Reinholdtsen
Leif Halvard Silli
2016-09-29 21:08:13 UTC
Permalink
* -0.7 RCVD_IN_DNSWL_LOW RBL: Sender listed at http://www.dnswl.org/, low
* trust
* [194.63.252.55 listed in list.dnswl.org]
* 0.0 FRT_SOMA2 BODY: ReplaceTags: Soma (2)
Post by Petter Reinholdtsen
[Kevin Brubeck Unhammer]
Post by Kevin Brubeck Unhammer
https://savannah.nongnu.org/projects/ordbanken/
Ja, hvis han ikke trenger sammensatte ord. I så fall er ordbanken en
dårlig kilde. Eller har de begynt å ta inn mye brukte
sammensetninger
nå?
Dette er eg usikker på. Det ordboksprogrammet det er snakk om har ein
funksjon for samansette ord som går ut på at ein kan setja ei grense
for kor få bokstavar det kan vera i ord som kan hektast på andre ord.
Det er jo ein helt generell funksjon der du t.d. set grensa til 3 teikn.
Då burde programmet, til dømes, godta 'tilsvininga' men ikkje
'utsvinginga'. Som generell funksjon har det ikkje noko metainformasjon
om det einskilde ordet å gjera.

Kva med t.d. Hunspell og Ispell? Kan dei lagra info om kva slag ord som
er lov å setja saman?
Post by Petter Reinholdtsen
Og for å ikke forvirre noen, ordbanken fra UiO er en av flere kilder til
ord i den norske stavekontrollen. "rett til kilden" kan gi inntrykk av
at det er kilden til den norske stavekontrollen, og det er langt fra
tilfellet.
Greitt å ha med seg!
--
leif halvard silli
Loading...