Fra bog til skærm

Ordbog over det danske Sprog er i sin trykte form et pladskrævende (1,5 hyldemeter) og alene pga. oplysningernes mængde og karakter ikke ganske lettilgængeligt værk. Til gengæld er ODS helt uomgængelig for den der er interesseret i det danske sprog i den periode ordbogen dækker

Ordbog over det danske Sprog er i sin trykte form et pladskrævende (1,5 hyldemeter) og er alene pga. oplysningernes mængde og karakter et ikke ganske lettilgængeligt værk. Til gengæld er ODS helt uomgængelig for den der er interesseret i det danske sprog i den periode ordbogen dækker.

Derfor var det oplagt at gøre værket tilgængeligt for alle der interesserer sig for det danske sprog – tilmed i en lettilgængelig form der ikke fylder noget – ved at digitalisere værket og lægge det ud på nettet som en del af ordnet.dk. Netudgaven af ODS har været gratis tilgængelig siden 2005.

Digitalisering

Den digitale version af ODS er blevet til i et samarbejde med Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften, en afdeling ved universitetet i Trier. Denne afdeling stod også for digitaliseringen af Grimms ordbog, idet den store tyske nationalordbog blev tastet ind i Nanjing i Kina af firmaet TQY Doublekey.

Hvor mange digitaliseringsprojekter gennemføres ved hjælp af OCR-scanning, besluttede ordnet.dk's redaktion sig ret hurtigt for en model med dobbeltindtastning efter samme overordnede principper der havde været gældende for digitaliseringen af Grimms ordbog i Tyskland. Ideen om at scanning blev først og fremmest forkastet fordi de mange diakritiske tegn, symboler, forskellige skriftsnit i værket – antikva, kursiv, fed skrift, spatieret skrift osv. – ville føre til så mange fejl at det ville blive nødvendigt med en resursekrævende korrekturlæsning af hele den scannede ordbog.

Forløbet

Digitaliseringen forløb på følgende måde:

1. fase:

De 28 ODS-bind blev sendt til Kina først på sommeren 2004. Det kinesiske firma indtastede to uafhængige versioner vha. et almindeligt tekstbehandlingsprogram (Word). Dette arbejde blev afsluttet i foråret 2005 og tog altså under et år.

2. fase:

Tekstbehandingsfilerne blev sendt til Trier, hvor Kompetenzzentrum lavede en sammenkøring og tilretning af de to versioner. De tekstlinjer der indeholdt tvivlstilfælde, blev isoleret og sendt til kontrol hos DSL, der rettede dem manuelt. Resultatet fra Trier er typografisk opmærkede tekstfiler.

3. fase:

De typografiske filer konverteredes til et strukturopmærket xml-format hvor de forskellige betydningselementer i en ordbogsartikel er genkendt. En første html-version har været tilgængelig på nettet siden 2005.

Arbejdet med at genkende stadig flere elementer i ordbogsstrukturen fortsætter. I 2010 publiceredes en version der indeholdt 38.000 opslagsord fra ODS-Supplementet. Også dette arbejde fortsætter indtil alt supplementsmaterialet er tilføjet.

Slå op i ODS