Eesti keele koondkorpus

Eesti keele koondkorpuse loomist on rahastanud:

riiklik programm "Eesti keel ja rahvuskultuur",
riiklik programm "Eesti keel ja rahvuslik mälu",
riiklik programm "Eesti keele keeletehnoloogiline tugi".

Milleks meile selline korpus?

Tänapäeva arvutilingvistika (ega ka muu lingvistika) ei saa kuidagi hakkama tekstikorpusteta, st suurte süstemaatiliste struktureeritud tekstikogudeta. Arvutilingvistika ja keelestatistika vajadusteks ei piisa enam paarist miljonist sõnast koosnevatest korpustest, vaja läheb mitmekümnest miljonist, veel parem, mitmesajast miljonist sõnast koosnevaid korpusi.

Millest korpus koosneb?

Siin korpuses on terviktekstid, mitte 2000-sõnalised tekstikatked, millest suures osas koosneb Eesti Kirjakeele Korpus 1890-1990. Korpus sisaldab ainult kirjalikku keelekasutust.

Koondkorpuses järgmised allkorpused:

Eesti ilukirjandus 1990- (5,6 miljonit sõna),
ajaleht Postimees (27.11.1995 - 10.10.2000, 32,9 miljonit sõna),
ajaleht Eesti Ekspress (09.08.1996 - 29.11.2001, 7,2 miljonit sõna),
ajaleht Eesti Päevaleht (18.10.1995 - 31.10.2007, 87,9 miljonit sõna),
ajaleht Maaleht (2001-2004, 4,3 miljonit sõna),
ajaleht SL Õhtuleht (1997-2007, 45,5 miljonit sõna),
Valgamaalane (02.09.2004 - 31.07.2008, kokku 2,5 miljonit sõna),
Lääne Elu (04.05.2000 - 01.11.2008, kokku 1,8 miljonit sõna),
ajakiri Horisont (1996 - 2003, 260 tuhat sõna),
ajakiri Luup (1996 - 2002, 1,9 miljonit sõna),
ajakiri Kroonika (2001 - 2003, 600 tuhat sõna),
ajakiri Eesti Arst 2002 - 2004 (ca 0,7 miljonit sõna),
ajakiri Arvutitehnika ja Andmetöötlus (1999-2005, 625 tuhat sõna),
ajakiri Agraarteadus (2001-2006, 298 tuhat sõna),
Mitmesugused teadusartiklid (ca 1,3 miljonit sõna),
Eesti ja Euroopa seadused (vastavalt ca 1,8 miljonit ja 10 miljonit sõna),
Uus meedia (ca 22 miljonit sõna),
Riigikogu stenogrammid aastatest 1995-2001 (ca 13 miljonit sõna),
Doktoritööd (2,3 miljonit sõna).

Segakorpuse tasakaalustatud alaosa on Tasakaalus korpus.

Kuidas seda kasutada saab?

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kaks võimalust:

laadida pakitud tekstid alla,
esitada korpusele pärnguid lemmade e algvormide ja grammatiliste kategooriate ning nende kombinatsioonide järgi Keeleveebi korpusepäringus.

Allalaaditavate tekstideni pääseb iga allkorpuse kirjelduse juurest. Mõnda kasutajaliidese kaudu kasutatavat teksti ei saa terviktekstina alla laadida.

Millisel kujul on Koondkorpuse tekstid?

Allalaaditavad failid on märgendatud TEI põhimõtete järgi. Allalaaditava korpuseversiooni struktuur on järgmine:

Iga korpusefail algab päisega <teiheader>. Päises on dokumenteeritud failis sisalduva teose või ajalehe/ajakirja pealkiri, ühe autoriga teksti puhul ka autor; sõnade arv tekstis ja faili suurus baitides, samuti on päises loetletud selles failis kasutatud märgendid ja nende arv.
Iga tekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>. Tekstis on alati märgendatud pealkirjad <head>, lõigud <p> ja laused <s>. Muu märgendus on allkorpuseti erinev ja selle kohta saab lähemalt lugeda iga allkorpuse lehelt.

Keeleveebi kaudu kasutatavas korpuses on igale tekstisõnale lisatud info tema algvormi e lemma, morfoloogiliste kategooriate ja Tasakaalus korpusesse kuuluvates tekstides ka süntaktilise funktsiooni kohta.

Kuidas me seda teeme?

Korpuse koostamise hõlbustamiseks kogume esmajoones neid tekste, mis on juba elektroonilistel kandjatel, lihtsaim viis on koguda internetis olevaid tekste. Enim on internetis muidugi ajakirjandust, kuid sel viisil on võimalik hankida ka nt seaduste tekste, teadustekste jms. Enim on probleeme ilukirjandusega - arusaadavalt autorikaitse põhjustel.

Eesmärgiks on vajalikud tööd võimalikult suurel määral automatiseerida. Esialgne idee oli kirjutada üks programm, mis tõmbaks võrgust vajalikud tekstid, konverteeriks need HTML kujult TEI kujule (TEI - Text Encoding Initiative, üks korpuste märgendamise standardeid), märgendaks teksti osad, nende osade pealkirjad ja allkirjad, lõigud ja laused ning kontrolliks tulemuse formaalset korrektsust so vastavust SGML standardile. Seejärel on võimalik tekstid morfoloogilise analüsaatori abil lemmatiseerida and ühestada. Lõppeesmärgiks on lausestatud tekst, millele on võimalik esitada päringuid nii sõna algvormi, sõnavormi kui ka suvalise stringi kohta. Praegu kasutajaliidese kaudu kasutatavad tekstid on lausestatud, kuid lemmatiseerimata.

Töö käigus aga selgus, et tekstide, eriti ajalehetekstide esitus internetis on niivõrd varieeruv, et ainult üks programm ei ole võimeline nendega toime tulema, iga uus väljaanne kujutab endast uut ülesannet.

Korpuslingvistikas räägitakse palju korpuse representatiivsusest, mis tähendab seda, et korpuses peaksid olema esindatud kõik (või valitud) tekstiklassid, mis antud kultuuris antud ajavahemikul olemas on ja korpuse tasakaalustatusest, mis tähendab seda, et nende tekstiklasside esindatus korpuses peab vastama nende esindatusele antud kultuuris. Tegelikult kaotavad representatiivsus and tasakaalustatus oma tähtsust sedamööda, kui korpused järjest mahukamaks muutuvad.
Tõeliselt suuri representatiivseid korpusi on maailmas koostatud suhteliselt vähe, üks tänapäevasemaid näiteid on briti inglise keele British National Corpus.

Suure koondkorpuse allosadest on koostatud väiksem, ent (rohkem) tasakaalus korpus, mille nimeks ongi Tasakaalus korpus. See sisaldab ajalehti, ilu- ja teaduskirjandust, igaühte 5 miljonit sõna.

Kuna Tasakaalus korpus on Koondkorpuse allosa, siis on ta kasutajaliideses esitatud eraldi päringuaknas (et vältida viga, mil päringule vastuseks saab kaks korda sama lause).

Koondkorpus ei ole enam suurim eesti keele korpus, selleks on hoopis Eesti Keele Instituudi ja Lexical Computing Ltd koostöös koostatud internetikorpus etTenTen, millele saab esitada päringuid Keeleveebi kaudu.