Eesti Kirjakeele Sagedussõnastik

Kaalep, H-J., Muischnek, K. Eesti kirjakeele sagedussõnastik. TÜ kirjastus, Tartu 2002, 205 lk

Sissejuhatus

Sõna esinemissagedus on tihedas korrelatsioonis selle sõna tavalisusega. Sagedamad sõnad on tavalisemad, harvemad siis vastavalt ebatavalisemad. Vahetegemine tavalisuse ja sageduse vahel aitab mõista, millist informatsiooni sagedussõnastik annab ja mida mitte. Nt kägu on vaieldamatult tavaline eesti keele sõna, aga sage ainult teatud tüüpi tekstides, mille hulka ei aja- ega ilukirjandus ei kuulu, ning käesolevasse sõnastikku pääsemise künnist ta ei ületanudki. Sagedus mingis tekstis või isegi tekstiklassis ei garanteeri sõna tavalisust. Sagedus nimelt sõltub alliktekstidest, mille alusel ta on arvutatud ja seetõttu tuleb tema tõlgendamisel allikate tüüpi arvestada. Paljud kõrgkooli füüsikaõpikus sageli esinevad sõnad on keele kui terviku seisukohalt ebatavalised; sama lugu on muinasjuttudega. Kuid isegi sama tekstiklassi piires sage sõna ei pruugi olla tavaline. Sõnad ei esine tekstis juhuslikult, vaid vastavalt teksti teemale. See tähendab aga, et mistahes tekstide alusel tehtud sagedus esitab tavalisusest moonutatud pildi. Lisaks sagedusele tuleb arvestada sõna levikut erinevates tekstides. Kui sõna esineb paljudes tekstides, kuigi igaühes vähe kordi, siis on ta tavalisem kui sõna, mis esineb mõnes üksikus tekstis ja seal väga palju.

Omaette küsimus on, kui laia levikut me sõnalt nõuame, et teda sagedussõnastikku lisamiseks kõlblikuks pidada. Käesoleva sõnastiku puhul oli eesmärk esitada tavalisi eesti keele sõnu. Seetõttu ollakse siin leviku suhtes väga ranged: sõna peab esinema nii ilukirjrjanduses kui ka ajakirjanduses. Kui sõna puudub emmas-kummas neist, siis pole ta piisavalt tavaline, et sagedussõnastikku sattuda.

Kui soovime tõlgendada sagedust kui tavalisust, siis peab tekstide hulk, mille alusel sagedus arvutatakse, olema küllalt homogeenne. Kui sinna kuuluvad väga erinevaid tekstiklasse esindavad tekstid (nt. interneti jututubade jutt ja seaduste tekstid), siis mida nende alusel leitud summaarsed sagedused õigupoolest iseloomustavad?

Käesoleva sagedussõnastiku aluseks on üks miljon sõna ajakirjandust ja ilukirjandust. Need on kaks kirjutatud keele mahukat, selgepiirilist ja piisavalt homogeenset tekstiklassi, mis samas ei ole teineteisest liiga erinevad. Ilukirjandus ja üleriikliku levikuga mitte-spetsialiseeritud kvaliteet-ajakirjandus kokku peaksid esindama mõistlikult normeeritud, standardset, laia levikuga, neutraalset eesti keelt.

Mõlema tekstiklassi maht on ümmarguselt pool miljonit sõna. Ilukirjandustekstidena (ilu92_98.zip) on kasutatud tänapäeva eesti keele korpuse 90ndate aastate ilukirjanduse allkorpuse tekste aastatest 1992-1998, kus iga väljavõtte pikkus on 2000 sõna; mõnest tekstist on võetud ka rohkem kui üks väljavõte. Ajalehetekstidena (aja95_99.zip) on osaliselt samuti kasutatud tänapäeva eesti keele korpuse 90ndate aastate ajakirjanduse allkorpuse tekste, aga ka sekka tekste ajalehtede internetiarhiividest, et ajalehetekstid oleksid mitmekesisemad. Kõik kasutatud ajalehed pärinevad ajavahemikust 1995-1999. Ajalehtedest kasutati terviknumbreid, mitte 2000-sõnalisi katkeid.

Mitmete tekstiklasside ja eriti suulise kõne puudumine allikmaterjalide hulgas ning sõnastiku aluseks olevate tekstide maht - 1 miljon sõna - tähendab muidugi seda, et tuleb olla ettevaatlik, kui soovime käesoleva sõnastiku sagedus-andmeid tõlgendada kui eestikeelsete sõnade üldise tavalisuse mõõtu. Võrdluseks: inglaste sagedussõnaraamatu Word Frequencies in Written and Spoken English (Leech jt 2001) aluseks olevas tekstikorpuses British National Corpus on 100 miljonit sõna. Teiselt poolt, seniajani ainsa, tugeva teoreetilise taustaga eesti keele sagedussõnastiku (Kaasik jt 1976; Kaasik jt 1977) alusmaterjal oli 100 000 sõna ja kajastas ainult ühe tekstitüübi - ilukirjanduse autorikõne - sõnavara.

10 000 sagedamat lemmat

Tabelis 1 (tekstifail) on kõik 10 000 sõna tähestiku järjekorras. Tabeli esimeses veerus on sõna, teises tema sõnaliiki (ka mitut) näitav lühend, kolmandas tema sagedus kogu korpuses, neljandas sagedus ajalehtedes ja viimases, viiendas veerus on sõna sagedus ilukirjanduses.

1000 sagedamat sõnavormi

Tabelis 2 (tekstifail) on 1000 kõige sagedamat sõnavormi tähestiku järjekorras. Esimeses veerus on sõnavorm ise, teises tema esinemissagedus kogu korpuses, kolmandas ajakirjanduses ja neljandas veerus on selle sõnavormi esinemissagedus ilukirjanduskorpuses.

100 sagedamat väljajäänud sõna

Tabelis 3 (tekstifail) on 100 sõna, mis muidu on sõnastikust välja jäänud: need on kõige sagedasemad ainult ühes tekstiklassis - ainult ajalehtedes või ainult ilukirjanduses - esinenud sõnad. Kriips kolmandas või neljandas veerus näitab selle sõna puudumist vastavalt siis ajalehtedes või ilukirjanduses. Näeme, et ajalehtedes on neile ainuomast sõnavara tunduvalt rohkem, enamikus on nad riigijuhtimise (riigieelarve, välisminister, siseminister), majanduse (investeering, börs, tarbija), aga ka näiteks spordiga (meistrivõistlus, finaal) seotud nimisõnad. Ilukirjandusele ainuomaseid sõnu on selle saja hulgas vaid 11, nendest 7 on tegusõnad (pomisema, kummarduma, silitama, võpatama, seisatama, kuulatama, kohendama).

Tekstikorpus

Sagedussõnastiku aluseks olid eesti ilukirjanduse tekstid (mitte tõlked) aastatest 1992-1998 (ilu92_98.zip). Igast teosest (raamatutena + Loomingus ilmunud ilukirjandus) on korpuses tavaliselt üks 2000-sõnaline katke. Kui teos on ilukirjanduse bibliograafias kaks korda, siis on sealt kaks 2000-sõnalist katket.

Ajalehetekstid pärinevad ajavahemikust 1995-1999 (aja95_99.zip). Ajalehtedest (vt ajakirjanduse bibliograafiat) kasutati terviknumbreid.

Mis siin on ja mida siit otsida ei tasu?

Seda sõnastikku lugedes ja kasutades tuleb arvestada, et siin on esitatud sõnade, mitte sõnatähenduste sagedused. Nii esindab tegusõna tulema sagedus tähenduste kohale saabuma (tulin koju) ja pidama, sunnitud olema (tööd tuleb teha) summaarset sagedust. Sellele, et ühe lekseemi all on peidus mitu tähendust, muutmisvarianti või ka sõnaliiki, viitab see, kui lekseemil on sõnastikus mitu sõnaliigi tähist.

Samuti on siin esitatud eraldi nende sõnade sagedused, mida tavaliselt kasutatakse koos ja ka sõnaraamatutes esitatakse koos (nt ühend- ja väljendverbid). Nii läheb ühendist aru saama sõna aru sõnastikku oma sagedusega (kokku nimisõnaga aru, mõistus ja nimisõnaga aru, aruniit) ning saama samuti omaette.

Kui sõna nendes loendites ei ole, ei tähenda see seda, et teda meie kasutada olnud tekstides üldse ei esinenud. Siin raamatus on esitatud ainult need sõnad, mis esinesid mõlemas tekstiklassis, nii ajakirjanduses kui ka ilukirjanduses, ja kokku vähemalt viis korda. Seega, kui mingit sõna kasutati palju ilukirjanduses, aga ajakirjanduses üldse mitte, siis teda siin ka ei ole. Kõige sagedasemad nendest on esitatud tabelis ajakirjandusele ja ilukirjandusele iseloomulike sõnade kohta. Näiteks esines sõna puuraidur 50 korda ilukirjanduses, aga mitte kordagi ajakirjanduses. Ajakirjanduses aga on näiteks 209 korda kasutatud sõna omavalitsus, mida ilukirjandustekstides polnud üldse.

Ka ei maksa tegelikult üksikute sõnade sagedustest teha väga kaugeleulatuvaid järeldusi. Kui uskuda tuntud inglise keeleteadlast ja leksikograafi John Sinclairi, ei ole isegi mitte üksikute sõnade tähendus järeldatav sellest sõnast üksi, vaid tähendus on alati kontekstis, sõnaühendites. Nii et kui meie sagedussõnastikus on üks sagedasemaid nimisõnu aeg, siis pole enamikul juhtudel tegelikult juttu mitte ajast kui ontoloogilisest kategooriast, vaid tegu on selliste lihtsate sõnaühenditega nagu samal ajal, viimasel ajal, kogu aeg, pikka aega. Võrdluseks olgu öeldud, et aeg on kõige sagedasem nimisõna soome keele sagedussõnaraamatus (Saukkonen jt 1979)

Kuidas need sagedusnumbrid on saadud?

Sõnade algvormid e lemmad leiti automaatselt, kasutades eesti keele morfoloogilist analüsaatorit koos statistilise ühestajaga estyhmm; täpsemat kirjeldust vt (Kaalep, Vaino 2000). Siis arvutati nende algvormide esinemissagedused nii kogu korpuses kui ka ilukirjanduses ja ajakirjanduses eraldi. Sagedussõnaraamatust on välja jäetud pärisnimed, samuti lühendid ja numbritega kirjutatud arvud.

Igale lemmale on meie sõnaraamatus lisatud üks või mitu sõnaliigi lühendit, mis viitavad selle lemma kuulumisele nimisõnade e substantiivide (S), omadussõnade e adjektiivide (A), tegusõnade e verbide (V), asesõnade e pronoomenite (P) või muutumatute sõnade (D) klassi. Muutumatute sõnade hulka kuuluvad kaas-, määr-, side- ja hüüdsõnad. Kõige rohkem sõnaliigi tähiseid - neli - on kahel lemmal: oma ja pool. Allpool seletatud põhjustel võib ühel sõnal olla ka mitu sama sõnaliigi lühendit.

Kuna sõna algvormi leidmine toimus automaatselt, tekkis muidugi ka vigu. Esialgne suurim puudus oli see, et automaatselt polnud kuidagi võimalik vahet teha sõnade see ja tema mitmuse vormide vahel omastavast alates (nende, neid, nendes e. neis, ?), aga kuna need vormid ühestati käsitsi, vastavad nende sõnaraamatus esitatud sagedused tegelikkusele. Samuti on käsitsi parandatud programmi väljundit mõnede teiste lemmade puhul.

Suur osa eesti pärsinimedest kattuvad üldnime või mõne selle käändevormiga. Nii on teksti automaatsel morfoloogilisel analüüsil raske vahet teha üld- ja pärisnime vahel (nt eesnimed Laine, Kalju jpt, eriti aga liitsõnalised perekonna- ja kohanimed). Selliseid vigu on püütud parandada sagedusloendeid hiljem käsitsi kontrollides. Nii näiteks on sagedaste sõnade hulgast välja visatud selline liitsõna nagu mustamägi ja käsitsi üle kontrollides vähendatud selliste sõnade nagu liiv, mari jpt sagedusi.

Automaatsel lemmatiseerimisel rakendati sõna algvormi leidmisel järgmisi põhimõtteid.

Lemmasid sõnaliikideks jaotatud ei ole. Kui näiteks muutumatu sõna langeb kokku nimisõna nimetava käändega, on nad esitatud ühe lemmana. Nii näiteks on sõnastikus koos nimisõna saadik ja kaassõna saadik sagedused või määrsõna ja nimisõna kord sagedused. Samuti ei ole muutumatuid sõnu jagatud määr-, kaassõnadeks jms sõnaliikideks. Küll on esitatud antud lemma võimalikud sõnaliigid, nt saadik D/S, aga meie kasutatud meetoditega polnud võimalik teada saada, kui palju kordi esines see lemma ühe või teise sõnaliigi esindajana.
Homonüüme ei ole eristatud. palk:palgi ja palk:palga on kokku võetud üheks lemmaks palk ja tal on üks sagedus. Seda, et tegu on homonüümiga, märgib kaks sama sõnaliigi tähist selle lemma juures, nt palk S/S. Kui mõne homonüümi tekstis esinemine on ebatõenäoline, siis seda pole sõnastikku märgitud. Näiteks on lemmal ruut 3 tähendust:
1. seemneistik (ruut: ruudi);
2. teatud rohttaim (ruut: ruudi);
3. teatud nelinurk (ruut:ruudu).
Oletame, et kaks esimest tähendust on nendes tekstides ebatõenäolised ja seega paneme lemmale ruut ainult ühe sõnaliigi tähise. Selline otsustamine on muidugi subjektiivne ja ka veidi vigane, aga suuremaid arusaamatusi põhjustaks kõigi harvaesinevate variantide lisamine. Küll on lemmale lisatud kaks sõnaliigi tähist alati siis, kui sõnal on mitu muutmisvarianti. Näiteks võib lemma päike omastav olla nii päikese kui ka päikse, sisseütlev päikesesse ja päiksesse jne ning sellepärast on lemmal päike sõnastikus kaks sõnaliigi tähist S/S.
Lemmatiseerimisel on omadussõnade kesk- ja ülivõrre jäetud eraldi sõnadeks, nii on sõnastikus eraldi esitatud sõnad hea, parem ja parim, aga ka õnnelik ja õnnelikum.
Tegusõnade kesksõnad so nud-, tud- ja v- ning tav- vormid on sõnastikus esitatud erinevalt. Oleviku kesksõnad - v- ja tav- vormid - on sõnastikus sees oma sagedustega. Kuid mineviku kesksõnadest - nud- ja tud- vormidest - on sõnastikus sees ainult sellised, millel on selgelt oma, omadussõnaline tähendus, näiteks surnud. Seda sellepärast, et kuigi eesti grammatikatraditsioon loeb v- ja tav-kesksõnad tegusõnade hulka, ei "tööta" nad lauses kunagi tegusõnadena, vaid alati omadussõnadena. nud- ja tud-vormid võivad aga lauses olla nii omadus- kui ka tegusõnadeks ja nende kahe vahel vahetegemine on paljudel konkreetsetel juhtudel nii keeruline ja teoreetilistest ning semantilistest tõlgendustest sõltuv, et tekib palju vigu, mistõttu tulemus ei ole enam usaldusväärne. Nii ongi nud- ja tud-vormide sagedused "peidetud" vastava tegusõna sageduste sisse, aga v- ja tav-kesksõnade sagedused on esitatud eraldi. Selline esitusviis erineb sõnaraamatutes tavaliselt kasutatavast, mille puhul ka v- ja tav- kesksõnu ei esitata omaette sõnadena. Kuid kuna neid sagedusi oli võimalik hõlpsasti eraldi välja tuua, otsustasime need esitada eraldi.
Samuti on tegusõnadest -ja ja -mine-liidete abil tuletatud nimisõnad esitatud sõnastikus omaette sõnadena.
des- ja mata- vormidele annab morfoloogiline analüsaator 2 analüüsi - tegusõna ja määrsõna oma, lisaks saavad vaatamata, hoolimata ja veel mõned sellised vormid ka kaassõna analüüsi. Need des- ja mata-vormid, mis ühestati määr- või kaassõnadeks, on sõnastikus sees omaette märksõnadena, tegusõnadeks ühestatute sagedus läks muidugi kokku vastava tegusõna sagedusega.
Mõnede sõnade muutevormidest ei saa üheselt järeldada nende algvormi: kas päikese algvormiks on päike või päikene? Sellistel juhtudel on alati eelistatud üht algvormi ja nimelt:
- päike- ja päikene-tüüpi sõnade puhul on eelistatud lühemat, ke-lõpulist vormi
- põli ja põlv liitsõnades nagu lapsepõlv on alati valitud põlv
- neid ja neiu on alati valitud neiu
- talv ja tali on alati valitud talv
- manner ja mander - manner
- kaitsma ja kaitsema, maitsma ja maitsema - valitud on kaitsma ja maitsma
Asesõnad ma ja mina, sa ja sina ning ta ja tema on võetud kokku lemmadeks mina, sina ja tema, kusjuures mina sisaldab ka selle mitmuse vormid me ja meie jne. Selline esitus erineb nt Tuldava ja tema kolleegide "Eesti keele ilukirjandusproosa autorikõne lekseemide sagedussõnastikus" (Kaasik jt 1976) kasutatust, kus ta ja tema jt on esitatud eraldi.
Nagu varem öeldud, on numbritega kirjutatud arvud sagedussõnastikust välja jäetud. Sellest tulenevalt on sageduste arvutamisel kõrvale jäänud ka osaliselt numbritega kirjutatud liitsõnad, nt 3-aastane.
Mõningaid liitsõnu kirjutatakse nii sidekriipsuga kui ka ilma selleta. Sellised liitsõnad ongi siin esitatud kahe eraldi lemmana, nt võib-olla ja võibolla, aeg-ajalt ja aegajalt, enam-vähem ja enamvähem, nii-öelda ja niiöelda.
Eesti ajalehtedes on (kehvaks) tavaks kirjutada š asemel sh ja ž asemel zh. Ka sellised sõnad on sõnastikus sellistena, nagu nad algmaterjalis olid, nii leiate siit näiteks sõnade shokk ja dushsh sagedused.

Kui tekstide analüüs on tehtud automaatselt ja on teada, et programm võib teha vigu, on tähtis teada, kuivõrd selle töö tulemust - sagedussõnastikku - üldse usaldada saab.

Selle kontrollimiseks võrdlesime ühesuguste tekstide kahte versiooni, millest üks sisaldas inimese poolt käsitsi leitud sõnade algvorme, teine aga programmi poolt automaatselt leituid. Nii ilu- kui ajakirjanduse puhul selgus, et kõige sagedasem viga automaatanalüüsil oli pärisnime pidamine üldnimeks. Kõigist tekstisõnedest oli valesti saanud üldnime analüüsi 2% - nt Kõuts, Kalev, Väli jne. Selle vea mõju sõnastikule vähendas esiteks see, et paljud üldnimeks analüüsitud pärisnimed esinevad ainult ühes tekstis või tekstiklassis, mistõttu nad jäid sõnastikust välja kui mitte-tavalised. Teiseks vähendas vigu ka hilisem pisteline kontroll - kui hiljem sagedusloendeid lugedes tundus mõni sõna kummaliselt suure sagedusega olevat, siis kontrolliti ta esinemisjuhtumid tekstides üle ja arvesse võeti ainult esinemised üldnimena.

Kui jätta üld- ja pärisnime vigane eristus kõrvale, siis oli vale algvorm leitud 0,75% juhtudest. Reaalselt on vigu ilmselt veelgi vähem, sest sõnastik sisaldab summaarseid sagedusi, mistõttu valesti leitud üksikjuhtumid summeerudes üksteist kustutavad. Igal juhul on 0,75%-ne viga võrreldav tekstide valikust tuleneva võimaliku esindusveaga.

Kuidas katab see sõnastik nende tekstide sõnavara, mille baasil ta on arvutatud?

Sõnastiku suurus on 9700 sõna. Ajakirjanduskorpuse suurus koos numbrite, lühendite ja pärisnimedega on 510 200 sõna, ilukirjanduskorpuse oma 496 800 sõna, kokku seega 1 007 000 sõna. Kogu korpuses on selliseid sõnu, mida sõnastiku tegemisel arvesse võeti, so arvestamata numbreid, pärisnimesid ja lühendeid, 908 400.

Edaspidi kasutame teksti katvuse hindamiseks just viimast arvu, sest ei pärisnimesid, lühendeid ega numbreid sisaldavaid sõnu sõnastiku tegemisel arvesse ei võetud.

Tabel 4 iseloomustab sageduse järgi järjestatud lemmade kumulatiivset osakaalu teksti katmisel. Esimeses kahes veerus olevad numbrid on ümardatud.

Tabel 4: Sageduse järgi järjestatud lemmade osakaal teksti katmisel
Esimesed ... sõna	mitu % tekstist nad katavad	iga sõna vähemalt ... korda
10	19,3	6194
20	24,6	4032
50	33,1	1797
100	40,7	1034
250	51,3	452
500	60,2	229
1000	69,0	115
1500	74,0	72
2000	77,2	52
3000	81,5	30
5000	86,0	15
10000	90,3	5

Selgub, et 250 kõige sagedasemat sõna katavad üle poole tekstist ja 10 000 kõige sagedasemat sõna umbes 90% tekstist.

Siin näidatakse tegelikult ainult jäämäe veepealset osa: kokku oli erinevaid lemmasid korpuses 60 000, neist üle poole e. 32 000 esines seal ainult üks kord. Ülejäänud 28 000-st esines mõlemas tekstiklassis, nii ilu- kui ka ajakirjanduses 14 500 lemmat; ja kokku vähemalt viis korda esines neist omakorda 9 700, mis ongi käesoleva sõnastiku, mis katab tekstist 90,3%, maht.

Selliseid lemmasid, mis esinevad ainult ilukirjanduses, oli 22 000; ainult ajakirjanduses esines 23 500. Sagedasemad neist on toodud tabelis 3.

Sõnavormide kumulatiivset võimet teksti katta iseloomustab tabel 5. Näeme, et selleks, et saavutada ligi 90%-line katvus, läheb vaja 33 000 erinevat sõnavormi e kolm korda rohkem kui erinevaid lemmasid.

Tabel 5: Sõnavormide kumulatiivne võime teksti katta
Esimesed ... sõnavormi	mitu % tekstist nad katavad	iga sõnavorm vähemalt ... korda
10	13,0	5329
20	17,2	2961
50	23,5	1445
100	29,4	863
250	38,2	373
500	45,3	187
1000	52,4	95
1500	56,7	65
2000	59,7	50
3000	64,2	33
5000	69,7	20
10000	76,9	10
20000	83,8	5
33000	88.8	3

Viidatud kirjandus

Heiki-Jaan Kaalep, Tarmo Vaino. Teksti täielik morfoloogiline analüüs lingvisti töövahendite komplektis. Kogumikus " Arvutuslingvistikalt inimesele" Tartu 2000 lk 87 - 99
Kaasik, Ü., Tuldava, J., Viilup, A., Ääremaa, K. Eesti keele ilukirjandusproosa autorikõne sõnavormide sagedussõnastik. Keelestatistika 1. TRÜ toimetised vihik 377, Tartu 1976, lk 107-153
Kaasik, Ü. Tuldava, J., Villup, A., Ääremaa, K. Eesti tänapäeva ilukirjandusproosa autorikõne lekseemide sagedussõnastik. Keelestatistika 2. TRÜ toimetised, vihik 413,, Tartu 1977, lk 5-140
Leech, G., Rayson, P., Wilson, A. Word Frequencies in Written and Spoken English. Longman, Pearson Education 2001
Saukkonen, P., Haipus, M., Niemikorpi, A., Sulkala, H. Suomen kielen taajuussanasto. A frequency dictionary of Finnish. Werner Söderström osakeyhtiö. Porvoo - Helsinki - Juva 1979