Discussion:
[i18n-no] Arkivet til i18n-no-listene (er visst ikkje så bra)
Karl Ove Hufthammer
2018-06-09 10:08:00 UTC
Permalink
Eg har som tidlegare nemnt lasta ned arkiva for i18n-*-listene,
slik at me kan få desse med oss til ei ny liste. Arkivet går
heilt tilbake til år 2000, og inneheld svært mykje interessant,
både terminologidiskusjonar og andre diskusjonar som fortel
om kva som har blitt gjort i omsettingsmiljøet opp gjennom åra.
Og her kan ein slå opp dersom ein lurer på korfor noko vart som
det vart i fellesordlista.

Men no viser det seg at arkivet dessverre har store tekniske
problem. Det er det tilsynelatande evige problemet med teiknkoding …
At tekst er feilmerkt når det gjeld teiknkoding er rimeleg lett
å retta opp i, men når det gjeld listearkivet, har visst
arkivprogramvara nokre gongar *fjerna* teikn ho ikkje forstår og
erstatta dei med ?-teikn. Informasjon om kva som opphavleg stod der
er altså *tapt*. Dette gjeld typisk våre særnorske bokstavar,
æ, ø og å, som me naturleg nok har brukt ein del av …

Merkeleg nok er det på *nokre* meldingar ingen problem, mens
på andre er det fullt av ?-teikn. Og det er ikkje slik at det
er dei *eldste* meldingane som nødvendigvis har problem.
Eg tippar det har noko å gjera med kva teiknkoding
(eks. ISO 8859-1 vs. UTF-8) og anna koding (Quoted-Printable
vs rå 8-bits byte) som e-postprogrammet til avsendaren har brukt.

Eksempel:
November 2009 (problem):
https://lister.ping.uio.no/pipermail/i18n-no/2009-October.txt
Mars 2000 (ikkje problem):
https://lister.ping.uio.no/pipermail/i18n-no/2000-March.txt

Men så viser det seg at *visingsversjonane* av innlegga på
listene, der meldingshovud er fjerna og sjølve innleggsteksten
er gjort om til HTML (med ting som liknar på lenkjer gjort om
til ekte lenkjer), har bevart teikna. Sjå for eksempel vising
av første innlegg frå november 2009, som var feil i arkivfila
lenkja til ovanfor:

https://lister.ping.uio.no/pipermail/i18n-no/2009-October/007114.html

Så det går truleg an å *rekonstruera* det faktiske innhaldet
i arkivfilene der æ, ø og å (og andre ikkje-ASCII-teikn) er
erstatta med ?-teikn, ved å kopiera teksten frå HTML-sidene
over til arkivtekstfilene (og ev. gjera andre smårettingar
der HTML-konverteringa har vore overivrig).

Men visingsversjonane er heller ikkje til å stola på. Om
den opphavlege e-posten er koda med Quoted-Printable,
er kanskje visingsversjonen heller uleseleg, eks.:

https://lister.ping.uio.no/mailman/lister.ping.uio.no/private/i18n-no/2006-February/004441.html

Og for nokre innlegg var sjølv *originalinnlegga* feil,
då deltakarane brukte ulike e-postprogram, og desse
var ikkje heilt kompatible når det gjaldt teiknkoding,
slik at delar av ein e-post er i éi teiknkoding og delar
av han er i ei anna.

Og for ganske mange innlegg er faktisk arkivfilversjonane
heilt OK!

Men uansett ser det ut til at me kan rekonstruera den
opphavlege meinte teksten i dei fleste tilfella, slik
at me får eit lesbart arkiv. Dette er dessverre arbeid
som iallfall *dels* må gjerast manuelt. No lurer eg på
om det er nokon frivillige her på lista som er interessert
i å bidra, slik at me kan få eit komplett, fungerande arkiv.
Det krev stort sett ikkje veldig tekniske kunnskapar.
Så lenge ein kan bruka eit vanleg skriveprogram (som
Kate, KWrite, Vim eller Emacs) bør ein få det til.

Det er litt putlearbeid, som me kanskje kan få gjort
over tid. Mitt forslag er:

Me (eg) opprettar eit Git-depot (ein eller annan plass)
med dei opphavlege innlegga.

Kanskje delt opp i éi fil per e-post (om det er lett å få til)
og organisert i mapper med namn ÅÅÅÅ-MM?

Frivillige går manuelt gjennom e-postane og rettar opp
(kan få ein arbeidsplan der ein for eksempel får eitt
månadsarkiv kvar om gongen). Rettingane kan føregå
via direkteinnsending (der vedkommande har fått skrivetilgang
til Git-depotet), diff-filer på e-post eller «pull requests»
dersom me brukar GitHub eller liknande.

Til slutt får me eit komplett, fint arkiv som me kan importera
til den nye lista vår. :) Eller visa på nettet på ymse vis.
Og me vil òg ha ein logg over alle endringar som er gjort
på filene, i tilfelle noko har gått gale.

Innspel? Kommentarar? Nokon som er frivillige til å vera med
på arbeidet?
--
Karl Ove Hufthammer


_______________________________________________
E-postlista i18n-no
i18n-***@lister.ping.uio.no
https://lister.ping.uio
Petter Reinholdtsen
2018-06-09 11:50:57 UTC
Permalink
* -1.0 ALL_TRUSTED Passed through trusted hosts only via SMTP
* -5.0 PING_UIO_MAIL_IS_INTERNAL Message has never been outside
* 129.240.0.0/16 or 193.157.115.0/24


[Karl Ove Hufthammer]
Post by Karl Ove Hufthammer
Kanskje delt opp i éi fil per e-post (om det er lett å få til)
og organisert i mapper med namn ÅÅÅÅ-MM?
Et godt valg til lagringsformat av epost er Maildir,
<URL:https://en.wikipedia.org/wiki/Maildir>, som har en fil per epost.
Personlig lagrer jeg min epost akkurat slik du beskriver, i
Maildir-kataloger navngitt med ÅÅÅÅ-MM/. :)
Post by Karl Ove Hufthammer
Innspel? Kommentarar? Nokon som er frivillige til å vera med på
arbeidet?
Det kan være uheldig å gjøre epostadressene til alle som har postet på
listen tilgjengelig for innhøstere, slik publisering i et offentlig
tilgjengelig github-repo vil gjøre.
--
Vennlig hilsen
Petter Reinholdtsen
Karl Ove Hufthammer
2018-06-09 12:02:44 UTC
Permalink
Post by Petter Reinholdtsen
Post by Karl Ove Hufthammer
Innspel? Kommentarar? Nokon som er frivillige til å vera med på
arbeidet?
Det kan være uheldig å gjøre epostadressene til alle som har postet på
listen tilgjengelig for innhøstere, slik publisering i et offentlig
tilgjengelig github-repo vil gjøre.
Eg ser poenget, men merk at desse e-postadressene *er* alt offentleg
tilgjengelege og har vore det i nesten 20 år i arkivet vårt.

Er rett nok kamuflert som «brukarnamn at domene» i staden for
«***@domene», men akkurat *den* kamuflasjemetoden burde dei
fleste adresseinnhaustarar laga dei siste ~20 åra ha fått med seg …
--
Karl Ove Hufthammer


_______________________________________________
E-postlista i18n-no
i18n-***@lister.ping.uio.no
https://lister.pi
Petter Reinholdtsen
2018-06-09 12:15:18 UTC
Permalink
[Karl Ove Hufthammer]
Post by Karl Ove Hufthammer
Er rett nok kamuflert som «brukarnamn at domene» i staden for
fleste adresseinnhaustarar laga dei siste ~20 åra ha fått med seg …
Jeg tror det er en dårlig antagelse, hvis vi skal tro et forsøk Gisle
Hannemyr gjorde for å se hvilke typer eksponerte epostadresser som ble
samlet inn av spamadresse-innhøsterne. Klarte i farten ikke finne hans
rapport om forsøket.
--
Vennlig hilsen
Petter Reinholdtsen

_______________________________________________
E-postlista i18n-no
i18n-***@lister.ping.uio.no
https://lister.p
Thomas Gramstad
2018-06-30 03:09:18 UTC
Permalink
Har ikke mulighet til å være med på rekonstruksjonen av arkivene,
men lurer på om community på epostlisten Mailman-users vet om
noen flere verktøy eller skript som kan forenkle eller redusere
arbeidsbyrden.

https://mail.python.org/mailman/listinfo/mailman-users

Ellers fikk jeg nettopp invitasjon til gravøl i PING -- jeg
tolker det som et signal om at prosessen med flytting av
språklistene til ny Mailman-installasjon gjerne kan opptrappes
eller opp-prioriteres litt.

Som nevnt i en annen epost mener jeg at NUUG fremstår som det
klart beste alternativet, og foreslår å gi Solbu fullmakt til å
sette igang prosessen med å flytte listene. Og at vi får på plass
en egen Mailman-driftsgruppe under NUUG-paraplyen.

Thomas Gramstad
Post by Karl Ove Hufthammer
Eg har som tidlegare nemnt lasta ned arkiva for i18n-*-listene,
slik at me kan få desse med oss til ei ny liste. Arkivet går
heilt tilbake til år 2000, og inneheld svært mykje interessant,
både terminologidiskusjonar og andre diskusjonar som fortel
om kva som har blitt gjort i omsettingsmiljøet opp gjennom åra.
Og her kan ein slå opp dersom ein lurer på korfor noko vart som
det vart i fellesordlista.
Men no viser det seg at arkivet dessverre har store tekniske
problem. Det er det tilsynelatande evige problemet med teiknkoding …
At tekst er feilmerkt når det gjeld teiknkoding er rimeleg lett
å retta opp i, men når det gjeld listearkivet, har visst
arkivprogramvara nokre gongar *fjerna* teikn ho ikkje forstår og
erstatta dei med ?-teikn. Informasjon om kva som opphavleg stod der
er altså *tapt*. Dette gjeld typisk våre særnorske bokstavar,
æ, ø og å, som me naturleg nok har brukt ein del av …
Merkeleg nok er det på *nokre* meldingar ingen problem, mens
på andre er det fullt av ?-teikn. Og det er ikkje slik at det
er dei *eldste* meldingane som nødvendigvis har problem.
Eg tippar det har noko å gjera med kva teiknkoding
(eks. ISO 8859-1 vs. UTF-8) og anna koding (Quoted-Printable
vs rå 8-bits byte) som e-postprogrammet til avsendaren har brukt.
https://lister.ping.uio.no/pipermail/i18n-no/2009-October.txt
https://lister.ping.uio.no/pipermail/i18n-no/2000-March.txt
Men så viser det seg at *visingsversjonane* av innlegga på
listene, der meldingshovud er fjerna og sjølve innleggsteksten
er gjort om til HTML (med ting som liknar på lenkjer gjort om
til ekte lenkjer), har bevart teikna. Sjå for eksempel vising
av første innlegg frå november 2009, som var feil i arkivfila
https://lister.ping.uio.no/pipermail/i18n-no/2009-October/007114.html
Så det går truleg an å *rekonstruera* det faktiske innhaldet
i arkivfilene der æ, ø og å (og andre ikkje-ASCII-teikn) er
erstatta med ?-teikn, ved å kopiera teksten frå HTML-sidene
over til arkivtekstfilene (og ev. gjera andre smårettingar
der HTML-konverteringa har vore overivrig).
Men visingsversjonane er heller ikkje til å stola på. Om
den opphavlege e-posten er koda med Quoted-Printable,
https://lister.ping.uio.no/mailman/lister.ping.uio.no/private/i18n-no/2006-February/004441.html
Og for nokre innlegg var sjølv *originalinnlegga* feil,
då deltakarane brukte ulike e-postprogram, og desse
var ikkje heilt kompatible når det gjaldt teiknkoding,
slik at delar av ein e-post er i éi teiknkoding og delar
av han er i ei anna.
Og for ganske mange innlegg er faktisk arkivfilversjonane
heilt OK!
Men uansett ser det ut til at me kan rekonstruera den
opphavlege meinte teksten i dei fleste tilfella, slik
at me får eit lesbart arkiv. Dette er dessverre arbeid
som iallfall *dels* må gjerast manuelt. No lurer eg på
om det er nokon frivillige her på lista som er interessert
i å bidra, slik at me kan få eit komplett, fungerande arkiv.
Det krev stort sett ikkje veldig tekniske kunnskapar.
Så lenge ein kan bruka eit vanleg skriveprogram (som
Kate, KWrite, Vim eller Emacs) bør ein få det til.
Det er litt putlearbeid, som me kanskje kan få gjort
Me (eg) opprettar eit Git-depot (ein eller annan plass)
med dei opphavlege innlegga.
Kanskje delt opp i éi fil per e-post (om det er lett å få til)
og organisert i mapper med namn ÅÅÅÅ-MM?
Frivillige går manuelt gjennom e-postane og rettar opp
(kan få ein arbeidsplan der ein for eksempel får eitt
månadsarkiv kvar om gongen). Rettingane kan føregå
via direkteinnsending (der vedkommande har fått skrivetilgang
til Git-depotet), diff-filer på e-post eller «pull requests»
dersom me brukar GitHub eller liknande.
Til slutt får me eit komplett, fint arkiv som me kan importera
til den nye lista vår. :) Eller visa på nettet på ymse vis.
Og me vil òg ha ein logg over alle endringar som er gjort
på filene, i tilfelle noko har gått gale.
Innspel? Kommentarar? Nokon som er frivillige til å vera med
på arbeidet?
_______________________________________________
E-postlista i18n-no
i18n-***@lister.ping.uio.no
https://lister.ping.uio.no/mailman/lister
Karl Ove Hufthammer
2018-07-14 10:02:03 UTC
Permalink
* -0.0 RCVD_IN_DNSWL_NONE RBL: Sender listed at http://www.dnswl.org/, low
* trust
* [208.97.132.208 listed in list.dnswl.org]
* 0.0 MIME_QP_LONG_LINE RAW: Quoted-printable line longer than 76 chars
Har ikke mulighet til å være med på rekonstruksjonen av arkivene, men
lurer på om community på epostlisten Mailman-users vet om noen flere
verktøy eller skript som kan forenkle eller redusere arbeidsbyrden.
https://mail.python.org/mailman/listinfo/mailman-users
Eg fann til slutt ei «hemmeleg» adresse (som ikkje er lenkja til nokon
plass, og som ikkje er tilgjengeleg for alle) der ein kunne lasta ned
heile arkiva i originalformat. Sidan Mailman-versjonen var såpass gammal
(2.1.13), var det tekniske feil i arkivfilene som gjorde dei ugyldige
(det gjaldt spesielt e-post der nokon hadde begynt ei linje med ordet
«From»). Men det finst eit skriptet som heiter «cleanarch», som følgjer
med nyare versjonar av Mailman, som kunne fiksa dette.

Så no sit eg altså med komplette og oppdaterte arkiv for dei fire
e-postlistene våre, utan teiknkodingsproblem (utanom for dei få
e-postane der nokon faktisk *sende* innlegg med feil teiknkoding). Dei
er til saman på 87 MiB, med over 20 000 innlegg! (På i18n-nn og i18n-nb
er det naturleg nok mange robotmeldingar, men på i18n-no er det over 8
600 meldingar, 18 år tilbake.)
--
Karl Ove Hufthammer
Thomas Gramstad
2018-07-15 23:37:57 UTC
Permalink
* -1.0 ALL_TRUSTED Passed through trusted hosts only via SMTP
* -5.0 PING_UIO_MAIL_IS_INTERNAL Message has never been outside
* 129.240.0.0/16 or 193.157.115.0/24
Har ikke mulighet til å være med på rekonstruksjonen av arkivene, men
lurer på om community på epostlisten Mailman-users vet om noen flere
verktøy eller skript som kan forenkle eller redusere arbeidsbyrden.
https://mail.python.org/mailman/listinfo/mailman-users
Eg fann til slutt ei «hemmeleg» adresse (som ikkje er lenkja til nokon plass,
og som ikkje er tilgjengeleg for alle) der ein kunne lasta ned heile arkiva i
originalformat. Sidan Mailman-versjonen var såpass gammal (2.1.13), var det
tekniske feil i arkivfilene som gjorde dei ugyldige (det gjaldt spesielt
e-post der nokon hadde begynt ei linje med ordet «From»). Men det finst eit
skriptet som heiter «cleanarch», som følgjer med nyare versjonar av Mailman,
som kunne fiksa dette.
Så no sit eg altså med komplette og oppdaterte arkiv for dei fire
e-postlistene våre, utan teiknkodingsproblem (utanom for dei få e-postane der
nokon faktisk *sende* innlegg med feil teiknkoding). Dei er til saman på 87
MiB, med over 20 000 innlegg! (På i18n-nn og i18n-nb er det naturleg nok
mange robotmeldingar, men på i18n-no er det over 8 600 meldingar, 18 år
tilbake.)
Flott at arkivene er i orden!

Thomas Gramstad

Loading...