Discussion:
[i18n-no] myspell-filer (bm): Mangler "noe" og "noen" i den vanlige ordlisten?
d***@mailbox.org
2016-06-12 14:55:39 UTC
Permalink
Hei,

jeg har lastet ned nyeste versjon av pakken med myspell-filer fra og
importert dem til vim. Noen nye ord er der, men "noe" og "noen" finnes
fortsatt ikke i ordlisten (bokmål). Jeg har ikke mye greie på myspell,
men det virker som om disse ordene bare finnes i tesaurus-delen – som
ikke kan importeres til vim, i hvert fall ikke på noe enkelt vis.
Stemmer det jeg sier? I så fall: Hvorfor er disse ordene ikke tatt med i
den vanlige ordlisten?
--
dfisk
Karl Ove Hufthammer
2016-06-12 15:51:08 UTC
Permalink
Post by d***@mailbox.org
jeg har lastet ned nyeste versjon av pakken med myspell-filer fra og
importert dem til vim. Noen nye ord er der, men "noe" og "noen" finnes
fortsatt ikke i ordlisten (bokmål). […]
I så fall: Hvorfor er disse ordene ikke tatt med i den vanlige ordlisten?
Hei, og velkommen til e-postlista i18n-no. Dette har nettopp blitt
diskutert her på lista, og du finn heile diskusjonen arkivert på
http://thread.gmane.org/gmane.comp.internationalization.norwegian/7330/
--
Karl Ove Hufthammer
d***@mailbox.org
2016-06-12 16:23:52 UTC
Permalink
Post by d***@mailbox.org
jeg har lastet ned nyeste versjon av pakken med myspell-filer fra og
importert dem til vim. Noen nye ord er der, men "noe" og "noen" finnes
fortsatt ikke i ordlisten (bokmål). […]
I så fall: Hvorfor er disse ordene ikke tatt med i den vanlige ordlisten?
Hei, og velkommen til e-postlista i18n-no. Dette har nettopp blitt diskutert
her på lista, og du finn heile diskusjonen arkivert på
http://thread.gmane.org/gmane.comp.internationalization.norwegian/7330/
--
Karl Ove Hufthammer
Jeg har lest igjennom den tråden en gang før, men heller ikke nå forstår
jeg helt hva som er konklusjonen.

"noen" og "noe mangler i myspell, men ikke i aspell (eller hunspell)? Og
dette er en glipp ingen vet årsaken til?
--
dfisk
Petter Reinholdtsen
2016-06-13 07:12:58 UTC
Permalink
* -1.0 ALL_TRUSTED Passed through trusted hosts only via SMTP
* -5.0 PING_UIO_MAIL_IS_INTERNAL Message has never been outside
* 129.240.0.0/16 or 193.157.115.0/24

[dfisk]
Post by d***@mailbox.org
Jeg har lest igjennom den tråden en gang før, men heller ikke nå forstår
jeg helt hva som er konklusjonen.
"noen" og "noe mangler i myspell, men ikke i aspell (eller hunspell)? Og
dette er en glipp ingen vet årsaken til?
Det er nok del av et mer generelt problem med stavekontrollen, hvilket
er at ingen med tid og interesse vedlikeholder pakken, og dermed har
ingen forsøkt å finne årsaken til hvorfor noen og noe mangler.

Jeg er vel den som har brukt mest tid på pakken de siste årene (og det
er ikke mye), og jeg har reelt sett ikke tid med interessen er på plass,
hvilket fører til at det lille jeg rekker ikke når så langt. Det trengs
altså en ny frivillig med tid og interesse til å bringe stavekontrollen
videre. :)

Inntil det skjer får vi bare vente til jeg rekker sette av noen minutter
på stavekontrollen neste gang. Det skjer sikkert i løpet av året, håper
jeg.
--
Vennlig hilsen
Petter Reinholdtsen
d***@mailbox.org
2016-06-13 10:36:06 UTC
Permalink
* -0.0 RCVD_IN_DNSWL_NONE RBL: Sender listed at http://www.dnswl.org/, low
* trust
* [80.241.60.215 listed in list.dnswl.org]
Post by Petter Reinholdtsen
[dfisk]
Post by d***@mailbox.org
Jeg har lest igjennom den tråden en gang før, men heller ikke nå forstår
jeg helt hva som er konklusjonen.
"noen" og "noe mangler i myspell, men ikke i aspell (eller hunspell)? Og
dette er en glipp ingen vet årsaken til?
Det er nok del av et mer generelt problem med stavekontrollen, hvilket
er at ingen med tid og interesse vedlikeholder pakken, og dermed har
ingen forsøkt å finne årsaken til hvorfor noen og noe mangler.
Jeg er vel den som har brukt mest tid på pakken de siste årene (og det
er ikke mye), og jeg har reelt sett ikke tid med interessen er på plass,
hvilket fører til at det lille jeg rekker ikke når så langt. Det trengs
altså en ny frivillig med tid og interesse til å bringe stavekontrollen
videre. :)
Inntil det skjer får vi bare vente til jeg rekker sette av noen minutter
på stavekontrollen neste gang. Det skjer sikkert i løpet av året, håper
jeg.
--
Vennlig hilsen
Petter Reinholdtsen
Jeg har ikke så mye tid og heller ikke den nødvendige kunnskapen, men
interessen har jeg! Hvis du gir meg en pekepinn på hvor problemet ligger
og hva skal til for å løse det eller i hvert fall komme mærmere en
løsning, så skal jeg se hva interessen min kan utrette. Jeg prøver
gjerne!
--
dfisk
Petter Reinholdtsen
2016-06-13 11:12:33 UTC
Permalink
* -1.0 ALL_TRUSTED Passed through trusted hosts only via SMTP
* -5.0 PING_UIO_MAIL_IS_INTERNAL Message has never been outside
* 129.240.0.0/16 or 193.157.115.0/24

[dfisk]
Post by d***@mailbox.org
Jeg har ikke så mye tid og heller ikke den nødvendige kunnskapen, men
interessen har jeg! Hvis du gir meg en pekepinn på hvor problemet
ligger og hva skal til for å løse det eller i hvert fall komme mærmere
en løsning, så skal jeg se hva interessen min kan utrette. Jeg prøver
gjerne!
Problemet ligger nok i byggingen av datafilene ut fra ordlisten som alt
tar utgangspunkt i. Anbefaler at du henter ut kildekoden fra git og
forsøker å bygge, og får en ide om hvordan det hele fungerer før du
forsøker å finne ut hvor i byggingen 'noen' forsvinner. Ordet ligger i
norsk.words, så vidt jeg husker.

Stikk gjerne innom IRC, #nuug på irc.freenode.net hvis du vil ha direkte
kontakt med meg. :)
--
Vennlig hilsen
Petter Reinholdtsen
d***@mailbox.org
2016-06-14 13:13:19 UTC
Permalink
* -0.0 RCVD_IN_DNSWL_NONE RBL: Sender listed at http://www.dnswl.org/, low
* trust
* [80.241.60.215 listed in list.dnswl.org]
Post by Petter Reinholdtsen
[dfisk]
Post by d***@mailbox.org
Jeg har ikke så mye tid og heller ikke den nødvendige kunnskapen, men
interessen har jeg! Hvis du gir meg en pekepinn på hvor problemet
ligger og hva skal til for å løse det eller i hvert fall komme mærmere
en løsning, så skal jeg se hva interessen min kan utrette. Jeg prøver
gjerne!
Problemet ligger nok i byggingen av datafilene ut fra ordlisten som alt
tar utgangspunkt i. Anbefaler at du henter ut kildekoden fra git og
forsøker å bygge, og får en ide om hvordan det hele fungerer før du
forsøker å finne ut hvor i byggingen 'noen' forsvinner. Ordet ligger i
norsk.words, så vidt jeg husker.
Stikk gjerne innom IRC, #nuug på irc.freenode.net hvis du vil ha direkte
kontakt med meg. :)
--
Vennlig hilsen
Petter Reinholdtsen
Er det slik at arbeidet med selve orddatabasen på no.speling.org ligger
brakk. ***@skolelinux.no er i hvert fall ikke å få tak i? Det
arbeides mer eller mindre utelukkende med byggingen at datafilene ut fra
ordlisten?

Jeg vet dette ikke har mye å gjøre med det jeg spurte om i
utgangspunktet, men jeg prøver å få en viss oversikt over prosjektet.

Jeg vurderer å prøve å generere .dic- og -.aff-filer ut fra ordlistene
fra Norsk ordbank (som etter det jeg kan se, ble oppdatert i april i
år). Så vil jeg prøve å få hunspell til å godta sammensatte ord i
henhold til regler som forhåpentligvis ikke vil være for kompliserte.
(Jeg tenker på morfologisk riktig dannede sammensatte ord uten hensyn
til hvor merkelige de måtte være.) Hvordan alt dette gjøres, må jeg
først lære, og det blir nok mer omfattende en jeg tror. Men skulle det
ikke være en grei plan for å lage en ny, enkel ordliste? Hva er det jeg
overser?
--
dfisk
Petter Reinholdtsen
2016-06-14 13:50:19 UTC
Permalink
* -1.0 ALL_TRUSTED Passed through trusted hosts only via SMTP
* -5.0 PING_UIO_MAIL_IS_INTERNAL Message has never been outside
* 129.240.0.0/16 or 193.157.115.0/24

[dfisk]
Post by d***@mailbox.org
Er det slik at arbeidet med selve orddatabasen på no.speling.org ligger
brakk.
Ja, det døde da den gamle tjeneren falt sammen. Den nye tjeneren er
satt opp av Keld og mangler automatikken for korrekturlesning som vi
hadde gående. Vi kan høre med ham om han vil sette opp det gamle
opplegget, men jeg mistenker det gir mer mening å ha et webbasert system
for korrekturlesing i stedet for det gamle epostdrevne. :)
Stemmer nok. Tror uansett det må lages nytt opplegg for
korrekturlesing.
Post by d***@mailbox.org
Det arbeides mer eller mindre utelukkende med byggingen at datafilene
ut fra ordlisten?
Jeg tror ikke det arbeides. :)
Post by d***@mailbox.org
Jeg vet dette ikke har mye å gjøre med det jeg spurte om i
utgangspunktet, men jeg prøver å få en viss oversikt over prosjektet.
Bra utgangspunkt. :)
Post by d***@mailbox.org
Jeg vurderer å prøve å generere .dic- og -.aff-filer ut fra ordlistene
fra Norsk ordbank (som etter det jeg kan se, ble oppdatert i april i
år). Så vil jeg prøve å få hunspell til å godta sammensatte ord i
henhold til regler som forhåpentligvis ikke vil være for kompliserte.
(Jeg tenker på morfologisk riktig dannede sammensatte ord uten hensyn
til hvor merkelige de måtte være.) Hvordan alt dette gjøres, må jeg
først lære, og det blir nok mer omfattende en jeg tror. Men skulle det
ikke være en grei plan for å lage en ny, enkel ordliste? Hva er det
jeg overser?
Så vidt jeg husker var det noen som sammenlignet den norske
stavekontrollen med datafilene fra Norsk ordbank, og oppdaget at svært
mange sammensatte ord mangler i ordbanken. Det vil antagelig føre til
space-syken for alle som har tiltro til en stavekontroll basert på
ordbanken.

Jeg husker ikke detaljene, men erindrer at noen spurte folk i ordbanken
hvorfor sammensatte ord ikke var med der, og fikk forklart at på grunn
av at det på norsk kan settes sammen hvilke som helst ord, ville det
ikke gi mening å ta med sammensatte ord i ordbanken.

Men i en stavekontroll bør en ha med de mest brukte sammensatte ordene,
for å unngå at stavekontrollen foreslår særskriving av ord som skal
settes sammen.

Uansett antar jeg du oppdager disse og andre egenskaper når du tester
litt, så det er bare å sette igang.

Jeg tror vi har importert alle ord fra ordbanken en gang for lenge siden
i datasettet som lå på no.speling.org. Det burde antagelig gjøres på
nytt, med nytt opplegg for vedlikehold av ordene i stavekontrollen.
--
Vennlig hilsen
Petter Reinholdtsen
Karl Ove Hufthammer
2016-06-14 19:20:14 UTC
Permalink
* -0.0 RCVD_IN_DNSWL_NONE RBL: Sender listed at http://www.dnswl.org/, low
* trust
* [208.97.132.208 listed in list.dnswl.org]
* 0.0 MIME_QP_LONG_LINE RAW: Quoted-printable line longer than 76 chars
Post by Petter Reinholdtsen
Jeg tror vi har importert alle ord fra ordbanken en gang for lenge siden
i datasettet som lå på no.speling.org. Det burde antagelig gjøres på
nytt, med nytt opplegg for vedlikehold av ordene i stavekontrollen.
Ja, det trur eg stemmer. Problemet var at denne importen vart gjort på
eit tidspunkt då fullformsordlistene hadde *mange* feil, som seinare
vart retta. Det var blant anna mange ord som feilaktig var markerte som
«normert» sjølv om dei ikkje var det (dvs. dei var stavefeil). Dette
vart seinare retta opp, men berre i fullformsordlistene, ikkje
stavekontrollen.

Eg trur òg det *framleis* er ein feil i fullformsordlistene der enkelte
ord (men langt frå så mange som før) feilaktig vert markerte som
«normert». Om eg ikkje hugsar feil, er det slik at ord kan verta markert
som «normert» om grunnordet dei er baserte på er «normert» men bøyinga
er «unormert». Det var ein feil som ordbankfolka var klar over, og
skulle retta, men det vart visst aldri gjort. (Eg melde det inn for
mange år sidan.)

I tillegg kjem sjølvsagt endringar i ordlistene på grunn av endringar i
sjølve norma (spesielt 2012-reforma for nynorsk, der mange ord og
bøyingar forsvann ut – og ein del nye kom inn).
--
Karl Ove Hufthammer
Karl Ove Hufthammer
2016-06-14 19:11:05 UTC
Permalink
* -0.0 RCVD_IN_DNSWL_NONE RBL: Sender listed at http://www.dnswl.org/, low
* trust
* [208.97.132.208 listed in list.dnswl.org]
* 0.0 MIME_QP_LONG_LINE RAW: Quoted-printable line longer than 76 chars
Post by d***@mailbox.org
Jeg vurderer å prøve å generere .dic- og -.aff-filer ut fra ordlistene
fra Norsk ordbank (som etter det jeg kan se, ble oppdatert i april i
år).
Her hadde eg tenkte å kommentera at dette måtte vera feil, men det
stemmer faktisk! Før apriloppdateringa var ikkje fullformsordlistene
blitt oppdatert sidan 2014, men dei vart faktisk oppdatert i april i år.
Eg hadde gitt opp, og rekna ikkje med det kom nokon oppdateringar. (Eg
har prøvd å senda e-post til kontaktadressa for fullformsordlistene, men
har ikkje fått svar sidan 2014.)
Post by d***@mailbox.org
Så vil jeg prøve å få hunspell til å godta sammensatte ord i
henhold til regler som forhåpentligvis ikke vil være for kompliserte.
(Jeg tenker på morfologisk riktig dannede sammensatte ord uten hensyn
til hvor merkelige de måtte være.) Hvordan alt dette gjøres, må jeg
først lære, og det blir nok mer omfattende en jeg tror. Men skulle det
ikke være en grei plan for å lage en ny, enkel ordliste? Hva er det jeg
overser?
At det er svært komplisert. :)

Problemet er ikkje å få aspell/myspell til å godta samansette ord; det
er å få dei til å *ikkje* godta for mange «falske» samansette ord (og
samtidig godta *ekte* samansette ord). Som ei kort og lettlest innføring
vil eg anbefala artikkelen «An automatic analysis of Norwegian
compounds»: https://www.duo.uio.no/handle/10852/43896
Sjå spesielt avsnitt 5.3.2 for eksempel på «overivrig» tolking av
samansette ord.

Men eg er i utgangspunktet einig i at å ta utgangspunktet i
fullformsordlistene til Norsk ordbank er ei mykje betre løysing. Eg
starta på eit prosjekt for dette for nynorsk. Tanken var nøye og streng
kontroll med kjeldene for orda og bøyingane som skulle inngå i
stavekontrollen (i motsetning til dei eksisterande ordlistene, der det
er heller tilfeldig om for eksempel ei bøying av eit ord er med sjølv om
ordet i ei anna bøying er det, eller om eit samansett ord er med).
Meininga var òg å supplera ordlista med andre relevante (fri kjelder),
for eksempel viktige stadnamn frå Kartverket eller lister over frå
Språkrådet (nyord og namn på språk og land), liste over moglege prefiks
og suffiks osv. Men alt skulle gjerast systematisk, slik at ein alltid
visste kjeldene til ord og ordsamsettingar som fanst i den ferdige
stavekontrollen. Dette skulle òg gjelda unntak, som kom i eigne
unntaksordlister (slik at for eksempel kunne innehalda ord som
«sjefsredaktør», som språkleg sett er eit greitt samansett ord, men som
i ~100 % av tilfella er ei feilskiring av «sjefredaktør»).

Første steg var å markera alle substantiv som kunne inngå i samansette
ord og korleis dei kunne inngå (om dei hadde s-fuge, eks. informasjon +
teknologi = informasjonsteknologi, e-fuge, eks. mus + felle = musefelle
eller andre kombinasjonar). Starten på dette arbeidet ligg på:
https://github.com/unhammer/fugeord
Lista over moglege ord måtte naturlegvis til slutt kuttast ned, for
eksempel ved å fjerna svært korte ord og markera ord som berre passar i
starten, slutten eller (ev.) i midten av ord. Delar av arbeidet kunne
vera basert på frekvensordlister basert på skriftkorpus.

Ein kan ha samansette ord for anna enn substantiv på norsk, men støtte
for substantiv ville vera ein veldig god start.

Akkurat dette prosjektet har lege brakk nokre år no, hovudsakleg på
grunn av mangel på tid (og for mykje anna interessant). Men eg meiner
denne framgangsmåten er fornuftig.

Eg har forresten ei fin .aff-fil som kan vera nyttige viss nokon er
interessert i ta opp att arbeidet og laga ein nynorsk stavekontroll. Ein
del av denne er aktuell for bokmål òg, men noko gjeld spesielt for
nynorsk, hovudsakleg for å få gode *forslag* ved feilstavingar. Dette
siste er svært viktig (og nok undervurdert). Irrelevante staveforslag er
svært irriterande. (Dei som vart utsett for stavekontrollen i Word 97,
eller som leste «Harry Hurt»-spalta i PC World på den tida, forstår nok
godt kva eg meiner.) Eg hadde for eksempel reglar som gjorde at ordet
«renslighet» fekk førsteforslaget «reinsemd» på nynorsk (i staden for
«råslaget» og «rettslig»).

Elles, når det gjeld samansette ord, har eg seinare fått veta at nokon i
(dvs. inni) ordbankprosjektet faktisk har laga ei oversikt over korrekt
orddeling av alle orda samansette orda som alt finst der (det er ganske
mange). Det hadde vore eit *supert* utgangspunkt for å automatisk
generera lister over kva ord som kunne inngå i samansette ord (forord,
mellomord og/eller sluttord) og kva som var aktuell fugebokstav. Men
dessverre er dei ikkje ein del av fullformsordlistene ein kan lasta ned,
so me har ikkje tilgang til det. :(

Men kanskje Norsk ordbank òg skal til UiB no, jf. teksten som er å lesa
nedst på http://www.nob-ordbok.uio.no/ desse dagane? Me kan håpa, og på
at dei tar tak i dette, slik at det vert arbeidd med Norsk ordbank (og
fullformsordlisteeksporten) igjen. (Det er forresten ein del direkte
*stavefeil* i Norsk ordbank som enno ikkje er retta; sjå
https://savannah.nongnu.org/bugs/index.php?go_report=Apply&group=ordbanken&func=browse&status_id=1&category_id=101
for *nokre* av dei. Alle der er melde inn til Norsk ordbank på eit eller
anna tidspunkt. Andre eg har funne i det siste (eks. cholesterolinnhald)
har eg ikkje tatt meg bryet med å melda inn.)

OK, det var mykje informasjon. Men forhåpentlegvis til nytte for nokon?
Kjekt om nokon tar tak i dette med stavekontrollane igjen. Eg kan prøva
å hjelpa litt til, men har veldig lite tid å bruka på det. :/
--
Karl Ove Hufthammer
d***@mailbox.org
2016-06-14 20:04:01 UTC
Permalink
Post by d***@mailbox.org
Jeg vurderer å prøve å generere .dic- og -.aff-filer ut fra ordlistene
fra Norsk ordbank (som etter det jeg kan se, ble oppdatert i april i
år).
Her hadde eg tenkte å kommentera at dette måtte vera feil, men det stemmer
faktisk! Før apriloppdateringa var ikkje fullformsordlistene blitt oppdatert
sidan 2014, men dei vart faktisk oppdatert i april i år. Eg hadde gitt opp,
og rekna ikkje med det kom nokon oppdateringar. (Eg har prøvd å senda e-post
til kontaktadressa for fullformsordlistene, men har ikkje fått svar sidan
2014.)
Post by d***@mailbox.org
Så vil jeg prøve å få hunspell til å godta sammensatte ord i
henhold til regler som forhåpentligvis ikke vil være for kompliserte.
(Jeg tenker på morfologisk riktig dannede sammensatte ord uten hensyn
til hvor merkelige de måtte være.) Hvordan alt dette gjøres, må jeg
først lære, og det blir nok mer omfattende en jeg tror. Men skulle det
ikke være en grei plan for å lage en ny, enkel ordliste? Hva er det jeg
overser?
At det er svært komplisert. :)
Problemet er ikkje å få aspell/myspell til å godta samansette ord; det er å
få dei til å *ikkje* godta for mange «falske» samansette ord (og samtidig
godta *ekte* samansette ord). Som ei kort og lettlest innføring vil eg
https://www.duo.uio.no/handle/10852/43896
Sjå spesielt avsnitt 5.3.2 for eksempel på «overivrig» tolking av samansette
ord.
Men eg er i utgangspunktet einig i at å ta utgangspunktet i
fullformsordlistene til Norsk ordbank er ei mykje betre løysing. Eg starta
på eit prosjekt for dette for nynorsk. Tanken var nøye og streng kontroll
med kjeldene for orda og bøyingane som skulle inngå i stavekontrollen (i
motsetning til dei eksisterande ordlistene, der det er heller tilfeldig om
for eksempel ei bøying av eit ord er med sjølv om ordet i ei anna bøying er
det, eller om eit samansett ord er med). Meininga var òg å supplera ordlista
med andre relevante (fri kjelder), for eksempel viktige stadnamn frå
Kartverket eller lister over frå Språkrådet (nyord og namn på språk og
land), liste over moglege prefiks og suffiks osv. Men alt skulle gjerast
systematisk, slik at ein alltid visste kjeldene til ord og ordsamsettingar
som fanst i den ferdige stavekontrollen. Dette skulle òg gjelda unntak, som
kom i eigne unntaksordlister (slik at for eksempel kunne innehalda ord som
«sjefsredaktør», som språkleg sett er eit greitt samansett ord, men som i
~100 % av tilfella er ei feilskiring av «sjefredaktør»).
Første steg var å markera alle substantiv som kunne inngå i samansette ord
og korleis dei kunne inngå (om dei hadde s-fuge, eks. informasjon +
teknologi = informasjonsteknologi, e-fuge, eks. mus + felle = musefelle
https://github.com/unhammer/fugeord
Lista over moglege ord måtte naturlegvis til slutt kuttast ned, for eksempel
ved å fjerna svært korte ord og markera ord som berre passar i starten,
slutten eller (ev.) i midten av ord. Delar av arbeidet kunne vera basert på
frekvensordlister basert på skriftkorpus.
Ein kan ha samansette ord for anna enn substantiv på norsk, men støtte for
substantiv ville vera ein veldig god start.
Akkurat dette prosjektet har lege brakk nokre år no, hovudsakleg på grunn av
mangel på tid (og for mykje anna interessant). Men eg meiner denne
framgangsmåten er fornuftig.
Eg har forresten ei fin .aff-fil som kan vera nyttige viss nokon er
interessert i ta opp att arbeidet og laga ein nynorsk stavekontroll. Ein del
av denne er aktuell for bokmål òg, men noko gjeld spesielt for nynorsk,
hovudsakleg for å få gode *forslag* ved feilstavingar. Dette siste er svært
viktig (og nok undervurdert). Irrelevante staveforslag er svært irriterande.
(Dei som vart utsett for stavekontrollen i Word 97, eller som leste «Harry
Hurt»-spalta i PC World på den tida, forstår nok godt kva eg meiner.) Eg
hadde for eksempel reglar som gjorde at ordet «renslighet» fekk
førsteforslaget «reinsemd» på nynorsk (i staden for «råslaget» og
«rettslig»).
Elles, når det gjeld samansette ord, har eg seinare fått veta at nokon i
(dvs. inni) ordbankprosjektet faktisk har laga ei oversikt over korrekt
orddeling av alle orda samansette orda som alt finst der (det er ganske
mange). Det hadde vore eit *supert* utgangspunkt for å automatisk generera
lister over kva ord som kunne inngå i samansette ord (forord, mellomord
og/eller sluttord) og kva som var aktuell fugebokstav. Men dessverre er dei
ikkje ein del av fullformsordlistene ein kan lasta ned, so me har ikkje
tilgang til det. :(
Hvis dette stemmer og dette er mulig å få tak i under en fri lisens, så
hadde jo det vært ypperlig! Jeg vil i hvert fall prøve å få tak i denne
oversikten når (dersom) jeg kommer så langt med prosjektet mitt.

Når det gjelder sammensatte ord, så vil jeg i hvert fall prøve å finne
en algoritme. Håpet er at reglene ikke er så fryktelig kompliserte. Hvis
en for eksempel begynner med de lengste ordene i ordlisten og
ordet/ordene som har flest like bokstaver fra begynnelsen av ordet og
som sammen med et annet ord fra ordlisten – eventuelt med fuge – danner
samme ord, så kan dette ordet gjelde som forord.

F.eks.: Vi tar for oss ordet "vinningskriminalitet". Det ordet som har
flest like bokstaver fra begynnelsen av ordet er "vinning". Algoritmen
vil da i utgangspunktet lete etter ord i ordlisten som er lik resten av
ordet, med og uten fuge. Men så kan den være litt smart og vite at
forord som slutter på "-ing", har s-fuge, slik at den begynner med en
gang å lete i ordlisten etter sluttordet. Når den da finner
"kriminalitet" så lagres "vinning" med s-fuge som forord ( = mellomord?)
og kriminalitet som sluttord. Ordlisten som genereres vil da godta
samtlige ord som har "vinnings" som for- eller mellomord og samtlige ord
med "kriminalitet" som sluttord.

Så lenge ordene er av en viss lengde, skulle en få en fin liste med
mulige for-, mellom- og sluttord, tenker jeg. Men jeg vet ikke om det
går bra når ordene blir korte. Uansett må jeg først lære litt awk for å
lage en fin liste med ordene i Ordbanken og bøyningsmønstrene. Det vil
ta sin tid.
Men kanskje Norsk ordbank òg skal til UiB no, jf. teksten som er å lesa
nedst på http://www.nob-ordbok.uio.no/ desse dagane? Me kan håpa, og på at
dei tar tak i dette, slik at det vert arbeidd med Norsk ordbank (og
fullformsordlisteeksporten) igjen. (Det er forresten ein del direkte
*stavefeil* i Norsk ordbank som enno ikkje er retta; sjå https://savannah.nongnu.org/bugs/index.php?go_report=Apply&group=ordbanken&func=browse&status_id=1&category_id=101
for *nokre* av dei. Alle der er melde inn til Norsk ordbank på eit eller
anna tidspunkt. Andre eg har funne i det siste (eks. cholesterolinnhald) har
eg ikkje tatt meg bryet med å melda inn.)
OK, det var mykje informasjon. Men forhåpentlegvis til nytte for nokon?
Kjekt om nokon tar tak i dette med stavekontrollane igjen. Eg kan prøva å
hjelpa litt til, men har veldig lite tid å bruka på det. :/
--
Karl Ove Hufthammer
_______________________________________________
i18n-no mailing list
https://lister.ping.uio.no/mailman/lister.ping.uio.no/listinfo/i18n-no
--
dfisk
Loading...