COR: et Centralt OrdRegister for dansk

Centralt OrdRegister for dansk (COR) er et samarbejdsprojekt mellem Det Danske Sprog- og Litteraturselskab, Dansk Sprognævn, Københavns Universitet (NorS/CST) og Digitaliseringsstyrelsen om at udvikle en fælles dansk sprogressource til AI-formål. Formålet med projektet er dels at støtte en fremtidssikret og effektiv deling af danske sprogressourcer, dels at stille et lemma- og betydningsinventar for danske ord til rådighed for virksomheder og forskere der arbejder med sprogteknologi og AI. COR indarbejder både data fra Den Danske Ordbog og sprogteknologiske ressourcer der allerede er udviklet i et samarbejde mellem DSL og CST: det danske wordnet DanNet, det Danske FrameNet-leksikon og Dansk Sentimentleksikon. Desuden skal tilførslen af flere semantiske data i sprogressourcen baseres på Den Danske Ordbogs beskrivelser af en lang række danske lemmaer.

DSL’s opgaver i projektet er primært at:

  • stille data fra DSL’s ordbøger og sprogteknologiske ressourcer til rådighed, herunder oplysninger om koblinger mellem ord og betydninger på tværs af disse.
  • deltage i udviklingen af en morfologisk komponent der bygger på Den Danske Ordbogs og Retskrivningsordbogens lemmaer og bøjningsoplysninger
  • deltage i udviklingen af en metode til reducering af antal betydninger for polyseme lemmaer i det danske WordNet DanNet
  • deltage i udviklingen af en semantisk komponent på basis af det danske WordNet DanNet
  • udvide den semantiske komponent med flere betydninger, bl.a. ud fra beskrivelsen af centrale betydninger i Den Danske Ordbog

Partnere i projektet

Projektet ledes af de fire partnere i fællesskab.

Plan

2021, 1. marts Projektstart  
1. marts 2021-1. feb. 2022 COR-K: Design af datastruktur for morfologi, udarbejdelse og udgivelse af samlet lemmaliste fra RO og DDO i gang
1. marts 2021-1. sept. 2021 COR-S: Design af datastruktur for semantik, udvikling af metode til reducering af antal betydninger for polyseme lemmaer i det danske WordNet DanNet i gang
1. nov. 2021-1. sept. 2022 COR-S: DanNet betydningsreduceres og integreres med COR-K  
1. marts 2021-31. dec. 2023 COR-SX: Validering af eksisterende semantiske data samt udvidelse med flere data så centrale betydninger i dansk er omfattet i gang
september 2022 Offentlig release af data, COR-K og COR-S  
december 2023 Offentlig release af data, COR-SX