ŠĻą”±į > ž’ w y ž’’’ t u v ’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’ģ„Į U@% ųæ ļ« bjbj¬¬ % "° Īń Īń Ó
’’ ’’ ’’ < < < < < < < P ōe ōe ōe 8 ,f d f ō P Lć * h j ( Ęj Ęj Ęj ”k Ź ks < §u ā ā ā ā ā ā ā vä R Čę ö ā i < ^ ”k ”k ^ ^ ā < < Ęj Ęj Ū ć č½ č½ č½ ^ Ž < Ęj < Ęj ā č½ ^ ā č½ Ī č½ ¶¾ ^ × Ų < < »Ū Ęj h šl®d|ōĀ ōe < ėŚ h ļŪ ¬ ć 0 Lć SŪ h ¾ē H¼ ¾ē Š ĻŪ P P < < < < ¾ē < ĻŪ Ēv ¦ my ä č½ Q{ Õ| Ēv Ēv Ēv ā ā P P ¤\ ōe Ņ½ P P ōe Eesti keele ressursside loomine ja kasutamine keeletehnoloogilises arendustöös
Heiki-Jaan Kaalep
Sisukord TOC \o "1-1" \f \t "Heading 2;2;Heading 3;3;dr_heading2;2;dr_heading3;3"
Artiklid PAGEREF _Toc436988323 \h 4
Lühendid PAGEREF _Toc436988324 \h 5
1. Sissejuhatus PAGEREF _Toc436988325 \h 6
2. Taust PAGEREF _Toc436988326 \h 8
3. Keeleressursid PAGEREF _Toc436988327 \h 10
3.1. Korpused PAGEREF _Toc436988328 \h 10
3.1.1 Tartu Ülikooli korpused PAGEREF _Toc436988329 \h 11
3.1.2 "1984" PAGEREF _Toc436988330 \h 12
3.1.3 Soovitusi tänapäevaste korpuste loomiseks PAGEREF _Toc436988331 \h 15
3.2. Sõnastikud PAGEREF _Toc436988332 \h 16
3.2.1 Multext-Easti leksikon PAGEREF _Toc436988333 \h 17
3.2.2. ESTMORFi sõnastik PAGEREF _Toc436988334 \h 19
4. Teoreetilised küsimused PAGEREF _Toc436988335 \h 21
4.1. Morfoloogiliste kategooriate süsteem PAGEREF _Toc436988336 \h 21
4.2 Lühikese sisseütleva ja vokaalmitmuse kasutamine PAGEREF _Toc436988337 \h 22
4.3 Produktiivsed liitumid eesti keeles PAGEREF _Toc436988338 \h 23
4.3.1 Tuletised PAGEREF _Toc436988339 \h 23
4.3.2 Liitsõnad PAGEREF _Toc436988340 \h 24
4.4 Sõnajärg PAGEREF _Toc436988341 \h 25
5. Praktilised töövahendid PAGEREF _Toc436988342 \h 26
5.1 ESTMORF, eesti keele morfoloogiline analüsaator PAGEREF _Toc436988343 \h 26
5.2 Ühestaja PAGEREF _Toc436988344 \h 27
6. Kokkuvõte PAGEREF _Toc436988345 \h 29
Abstract PAGEREF _Toc436988346 \h 30
Kirjandus PAGEREF _Toc436988347 \h 31
Elulookirjeldus PAGEREF _Toc436988348 \h 34
Curriculum Vitae PAGEREF _Toc436988349 \h 35
Artiklid
Heiki-Jaan Kaalep. ESTMORF, a Morphological Analyzer for Estonian. Kogumikus H. Õim (toim.) Estonian in the Changing World. Tartu, 1996, lk. 43-98
Heiki-Jaan Kaalep. An Estonian Morphological Analyser and the Impact of a Corpus on Its Development. Computers and the Humanities 31: lk. 115-133, 1997
Heiki-Jaan Kaalep. Tekstikorpuse abil loodud eesti keele morfoloogiaanalüsaator. Keel ja Kirjandus 1/1998, lk 22-29
Heiki-Jaan Kaalep, Tarmo Vaino. Kas vale meetodiga õiged tulemused? Statistkale tuginev eesti keele morfoloogiline ühestamine. Keel ja Kirjandus 1/1998, lk 30-38
Heiki-Jaan Kaalep, Rene Prillop, Epp Ehasalu. The Role of Internet in Creating, Financing and Integrating Language Resources. Proceedings of the First International Conference on Language Resources and Evaluation. Granada, 1998. Kd. 2, lk 1149-1152
Ludmila Dimitrova, Tomaz Erjavec, Nancy Ide, Heiki-Jaan Kaalep, Vladimir Petkevic, Dan Tufis. Multext-East: Parallel and Comparable Corpora and Lexicons for Six Central and Eastern European languages. COLING-ACL '98, Proceedings of the Conference, Kd. 1, lk. 315-319
Lühendid
BNS Baltic News Service
BUUK BNS uudiste korpus
CES Corpus Encoding Standard
ESTMORF eesti keele morfoloogiline analüsaator
MM morfoloogiline märgend
MVM Markovi varjatud mudel
TEI Text Encoding Initiative
TÜKK Tartu Ülikooli kirjakeele korpus
TÜ Tartu Ülikool
VVS Väike vormisõnastik
ÜM ühestamismärgend
1. Sissejuhatus
Väitekirjana esitatud uurimuste aluseks on praktiline töö, mida autor on teinud eesti keele ressursside ja lingvistidele vajalike töövahendite loomisel. Praktilise töö käigus tuli lahendada mitmeid teoreetilisi probleeme, mida väitekirja koosseisus olevad artiklid ka käsitlevad.
Töö kirjeldab eesti keele ressursside, antud juhul korpuste ja leksikonide loomist ning nende kasutamist eesti keele uurimisel, rõhuasetusega praktiliste lingvistiliste töövahendite loomisele.
Laias laastus võibki väitekirjas käsitletava jagada kolme omavahel seotud rühma:
Keeleressursid (antud juhul korpused ja sõnastikud) ja nende loomine. Seda teemat käsitlevad suuremal või vähemal määral kõik väitekirja koosseisu lülitatud artiklid.
Keeleressursside alusel lingvistiliste töövahendite loomine. Seda käsitlevad (Kaalep 1996), (Kaalep 1997), (Kaalep 1998), (Kaalep, Vaino 1998).
Töö käigus esile kerkinud teoreetilised probleemid. Seda käsitlevad (Kaalep 1996), (Kaalep 1997), (Kaalep 1998), (Kaalep, Vaino 1998).
Need teemarühmad on omavahel seotud: keeleressursside põhjal loodi töövahendeid; töövahendid ise aga on samas ka keeleressursside loomise vahendiks; nt. morfoloogiline analüsaator on vahendiks morfoloogiliselt analüüsitud korpuse tegemisel.
Ühelt poolt on korpused selleks aluseks, millele tuginedes töövahendeid teha ja keelt uurida; teiselt poolt suunavad keeleuurimise vajadused ja töövahendite katsetamise vajadus korpuste tegemist: tekstide valikut, märgendamist ja kogumismetoodikat. Ühelt poolt võimaldavad lingvistilised töövahendid keelt paremini uurida; teiselt poolt kerkib nende loomisel üles selliseid lingvistilisi probleeme, mis seni on jäänud teoreetiliste uuringute vaateväljast kõrvale.
Väitekirjas kirjeldatav kajastab tsüklilise protsessi üht (vahe)tulemust, kus korpuste tegemine ja kasutamine, töövahendite loomine ja kasutamine, teoreetiliste probleemide esilekerkimine ja lahendamine toimuvad omavahel seotud astmete kaupa.
Väitekirjas kajastamist leidvad tulemused on saadud Tartu Ülikooli üldkeeleteaduse õppetooli juures töötades ning osaledes mitmetes projektides: Euroopa Komisjoni poolt finantseeritav Copernicus-projekt Multext-East (https://nl.ijs.si/ME/), Avatud Eesti Fondi projektid STYLUS ja KeeleWeb (https://ee.www.ee/).
Kuna tegemist on valdkonnaga, mida iseloomustab kiire areng ja tihe side praktikaga, siis mõned konkreetseid arvutirakendusi puudutavad asjad on praeguseks juba muutunud, võrreldes sellega, kuidas neid käsitletakse artiklites. Need muutused pole aga nii suured ja põhimõttelised, et peaks hakkama artikleid ümber tegema.
Kolmel dissertatsiooni koosseisus oleval artiklil on mitu autorit.
Artikkel (Kaalep, Vaino 1998) kirjeldab eksperimenti, mille tegemiseks oli vaja luua mitmeid teisendus- ja rakendusprogramme. Suure osa neist tegi Tarmo Vaino. Artikkel (Kaalep, Prillop, Ehasalu 1998) puudutab lisaks keeleressursside loomisele ja interneti kaudu kättesaadavaks muutmisele ka programmi Hüperlinker. Viimase loomisel ei ole dissertatsiooni autor kuidagi osalenud. Artikkel (Dimitrova, Erjavec, Ide, Kaalep, Petkevic, Tufis 1998) kirjeldab kuue keele ressursside loomist. Dissertandi osa piirdub eesti keele ressurssidega.
Dissertatsioon sisaldab ka varem avaldamata tulemusi, millest olulisemad on: soovitused tänapäevaste korpuste loomiseks (osa 3.1.3), eksperiment Multext-Easti leksikoni loomisel ja statistika selle kvaliteedi hindamiseks (osa 3.2.1) ning hinnang teatud grammatiliste vormide kasutatavuse kohta (osa 4.2).
2. Taust
Väitekirjas esitatav kuulub arvutilingvistikasse; täpsemalt korpuslingvistikasse ja keeletehnoloogiasse.
Arvutilingvistika on keeleteaduse ja informaatika (ehk arvutiteaduse) hübriid, mis tegeleb inimkeele uurimisega nii arvutite abil kui ka arvutite jaoks. Rakenduslik arvutilingvistika keskendub inimkeele modelleerimise praktilistele tulemustele. Selle valdkonna meetodeid, tehnikaid, töövahendeid ja rakendusi nimetatakse sageli ka kokkuvõtliku terminiga "(inim)keeletehnoloogia". Üheksakümnendate aastate algusest on just see rakenduslik pool koos korpuslingvistikaga muutunud järjest olulisemaks.
Korpuslingvistika põhieesmärk on keele uurimine, kasutades suuri koguseid loomulikul viisil esinevaid andmeid (nt. tekste), erinevalt nt. generatiivsest paradigmast, mil piisas uurija isiklikust keeletunnetusest. "Autentse andmestiku" kasutamine iseenesest ei ole uus nähtus lingvistikas, kuid just viimasel ajal on seoses arvutite laiema kasutuselevõtuga saanud võimalikuks uurida keelt ulatuses, millest varem unistadagi ei võinud.
Keeletehnoloogia, nagu teda käsitletakse Euroopa Komisjoni XIII Peadirektoraadi keeletehnoloogia ametlikul koduleheküljel https://www2.echo.lu/langeng/en/lehome.html, on keelealaste teadmiste rakendamine paremate arvutisüsteemide loomiseks:
Inimese ja arvuti vahelise suhtluse parandamiseks
Informatsiooni paremaks esitamiseks, kasutamiseks, otsimiseks ja analüüsimiseks
Inimkeele paremaks mõistmiseks ja töötlemiseks
Keeletehnoloogia annab meile vahendid, et laiendada ja parandada keele kasutusvõimalusi. Ta tugineb seejuures meie teadmistele keelest ja keele funktsioneerimise põhimõtetest, mis on saadud varasema uurimistöö käigus. Uurimistöö tulemusena selguvad nii keeletehnoloogia jaoks lahendamist vajavad probleemid kui ka tehnoloogia, mida kasutades saab keelt mõista ja töödelda.
Praktikas koosneb keeletehnoloogia teatud hulgast võtetest, mis on realiseeritud arvutitarkvarana, ja keeleressurssidest, mis on arvuti abil töödeldav teadmiste kogum. Arvutitarkvara näiteks võib tuua õigekirjakontrolli, terminite otsimise jooksvast tekstist, optilise tekstituvastuse, kõne äratundmise. Keeleressursid on nt. elektroonilised sõnastikud, formaliseeritud grammatikakirjeldused, terminoloogiabaasid ja tekstikorpused. Loomuliku kõne ja keele uurimisega tegelejad on jõudnud arusaamisele, et töökindlate ja tõhusate keeletoodete areng sõltub otsustavalt sellest, kui kättesaadavad on suured adekvaatsed keeleressursid.
Käesoleva dissertatsiooni aluseks olevad artiklid kirjeldavad tööd, mis on tehtud 1991-1998. 1991. aastal olemas olevatest keeleressurssidest olid olulisemad Ülle Viksi "Väikese vormisõnastiku" trükieelne versioon elektroonilisel kujul ja Indrek Heina morfoloogiline analüsaator, mis põhines "Väikesel vormisõnastikul" ja suutis analüüsida lihtsõnu, andes (mitteühese) analüüsi u. 75%-le ajalehe tekstis esinevatele sõnavormidele (Hein 1994). Esimese eesti keele korpuse, miljoni-sõnalise eesti kirjakeele korpuse, loomine algas TÜ eesti keele laboris alles 1991. a. sügisel.
Vajadus uurida eesti keelt uute vahenditega tähendas seda, et need vahendid tuli alles luua. Seejuures tuli luua nii keeleressursid kui arvutitarkvara.
3. Keeleressursid
Käesolevas töös käsitletakse kahte liiki keeleressursse: korpusi ja leksikone.
3.1. Korpused
Korpus on keele (teksti või kõne) kogum, mille alusel saab:
analüüsida keelt, et tema omadusi kindlaks teha;
treenida mingit arvutiprogrammi, et kohandada teda tööks teatud piiritletud olukorras;
empiiriliselt kontrollida keele kohta käivat teooriat;
testida keeletehnoloogilist võtet või rakendust, et selgitada, kuidas ta töötab praktikas.
On olemas sadadest miljonitest sõnadest koosnevaid rahvuslikke tekstikorpusi, kuid on olemas ka erivajadusteks loodud korpusi. Nt. võib korpus koosneda autojuhtide suulistest vestlustest kõnet mõistva juhtimissüsteemi imitatsiooniga. Sellist korpust kasutatakse selleks, et kindlaks teha kasutaja-poolseid nõudmisi suuliselt juhitavale juhtimissüsteemile.
Korpuste tegemise alases kirjanduses on palju juttu korpuse tegemise põhimõtet e s t n i i t e k s t i d e v a l i k u l k u i n e n d e m ä r g e n d a m i s e l .
T e k s t i d e v a l i m i s e l o n t e r v e r i d a a s p e k t e , m i l l e l e v õ i b t ä h e l e p a n u p ö ö r a t a , n ä i t e k s : k a s v a l i d a t e r v i k l i k u d v õ i o s a t e k s t i d , k a s p ö ö r a t a t ä h e l e p a n u ~a n r i l e ( n t . i l u k i r j a n d u s , õ p i k u d ) , v a l d k o n n a l e ( n t . a j a l u g u , g e o l o o g i a ) , t e k s t i d e l o o m i s e a j a l e , t e k s t i d e l e v i k u l e ( t i r a a ~i l e ) ; k a s v a l i d a t e k s t e s e l l e a l u s e l , k u i k e r g e o n n e n d e h a n k i m i n e t e h n i l i s e l t j a o r g a n i s a t s i o o n i l i s e l t j n e . Ü l e v a a t e a n t u d p r o b l e e m i s t i k u s t a n n a v a d n t . ( M u i s c h n e k 1 9 9 8 ) j a ( H e n n o s t e 1 9 9 6 ) .
Korpuste märgendamisel tuleb otsustada, milliseid tähistusi kasutada, mida märgendada ja mis järjekorras eri asju märgendada.
Sageli on vaja, et elektroonilisel kujul olevad tekstid sisaldaksid eksplitsiitsel kujul veel mingit muud informatsiooni peale selle, mis originaaltekstides esialgselt olemas on.
Märgendust on vaja juba selleks, et oleks üheselt selge, mida mitmesugused trükitehnilised võtted tähendavad. Nt. kaldkiri võib tähistada tsitaati või rõhutamist; taandrida võib tähistada uue lõigu algust või luuletuses uue rea algust; punkt võib tähistada järgarvu, lühendit või lause lõppu. Erinevates trükistes võib sama asja tähistamiseks kasutada erinevaid märke, nt. otsese kõne tähistamiseks võib kasutada erineva kujuga jutumärke või (vanemates tekstides) hoopis mõttekriipsu. Trükitehniliste võtete interpreteerimine märgenduse kaudu puudutab eelkõige teksti struktuuri: jaotust osadeks, pealkirjadeks ja "päris" tekstiks, peatükkideks, lõikudeks, lauseteks, tsitaatideks, loenditeks jms.
Ka juhul, kui tahame tekstile lisada midagi sellist, mida seal varem üldse polnud, nt. anda igale sõnale morfoloogilise analüüsi, märkida tekstis intonatsiooni ja pause, saab seda teha teatud märgendussüsteemi kasutades.
Omaette küsimus on, milline märgendite süsteem valida. Keeletehnoloogias on laialt kasutusel CES (Corpus Encoding Standard) (Ide, Priest-Dorman, Veronis 1996) ja TEI (Text Encoding Initiative) (Sperberberg-McQueen, Burnard 1994). Esineb ka muid, eeskätt üksikute projektide ja/või institutsioonide spetsiifilisi märgendussüsteeme, kuid nende osatähtsus võrreldes standardsetega on vähenemas, sest viimaste jaoks on olemas järjest kasvav kogus arvutitarkvara, mis võimaldab just standardsete märgenditega tekste mugavalt kasutada ja töödelda.
Sõltumata sellest, mida tahetakse märgendada, on otstarbekas alustada lihtsamast märgendusest, s.t. sellisest, mille lisamine on võimalikult automatiseeritav ja üheselt mõistetav. Alles siis, kui kogu märgendamist vajav tekstide kogum on lihtsama märgenduse saanud, võib alustada keerulisema märgenduse lisamist. Nt. struktuuri märgendamise puhul alustada osadest ja peatükkidest, seejärel märgendada lõigud, loendid ja luuletused (mis võivad olla väliselt kujult päris sarnased) ja alles seejärel laused. Sel moel jagatakse korpuse märgendus tasanditeks. Nt. CESi puhul tasand 1 tähendab, et märgendatud on osad, peatükid ja lõigud, aga mitte laused. Korpus on tervikuna märgendatud just selle tasandini, milleni on märgendatud tema kõige pealiskaudsemalt märgendatud osa.
Eesti keele puhul on kasutatud mitmeid eri viise korpuste kogumiseks (nt. trükitud teksti sisestamine arvutisse käsitsi, flopi-ketastega tekstide toomine, internetist kopeerimine, e-posti kaudu tekstide saamine) ja märgendamiseks (nt. TEI ja CES eri detailsusega, märgendamata, oma unikaalne märgendussüsteem).
3.1.1 Tartu Ülikooli korpused
Tartu Ülikoolis on tehtud ja tegemisel mitmeid erinevaid korpusi, millest dissertatsiooni autor on koordineerinud kahe tegemist: alates 1995. a. Tartu Ülikooli kirjakeele korpuse (TÜKK) tegemist ja alates 1994. a. BNSi uudiste korpuse (BUUK) tegemist. Neid korpusi iseloomustab suhteliselt suur maht (vähemalt miljon sõna) ja suhteliselt pealiskaudne märgendus.
TÜKKi loomine algas 1991. a. sügisel TÜ eesti keele laboris (Hennoste 1996). 1991-1994 sisestati arvutisse kogu ajakirjanduse osa ja osa ilukirjandust ning märgendati nad, kasutades TEI-sarnast ebastandardset märgendust. 1995-1996 sisestati ülejäänud korpus, märgendati ta TEI järgi ära kuni lause tasandini ning tehti vabalt kättesaadavaks interneti kaudu (https://www.cl.ut.ee/). Suure töö tegid seejuures ära Mare Koit, Riina Mosna, Kadri Muischnek, Heili Orav, Leho Paldre, Urve Talvik, Tarmo Vaino ja Viire Villandi. Alates 1997. a. on võimalik kasutada lisaks TEI järgi märgendatud ja nn. puhta teksti versioonile ka morfoloogiliselt märgendatud versiooni. Viimase tegi Leho Paldre, kasutades morfoloogilist analüsaatorit ESTMORF.
Kogu TÜKKi kuuluv ajakirjandus, 175 000 sõna, on märgendatud lõikude, lausete, numbrite, lühendite, pärisnimede, otsese kõne, tsitaatide ja mitte-standardse keele osas. Ülejäänud korpuse tekstid märgendati lõikude, lausete ja trükitehniliste võtete (nt. rasvane kiri, kaldkiri) osas.
Tegelikult on selgunud, et paljudel juhtudel ei ole käsitsi tehtud märgendusest kasu. Nt. morfoloogilise analüsaatori loomisel oli parem kasutada sellist korpuse versiooni, millest märgendus oli eemaldatud. Sel moel saime programmi tööks loomulikuma keskkonna.
BUUKi loomine algas 1994. a. oktoobris. Ta sisaldab BNSi uudiseid, mida saadetakse tellijatele e-posti teel. Saabuvad kirjad arhiveeritakse automaatselt Aastas suureneb BUUK 3-4 miljoni sõna võrra. Tekstides märgendatakse ainult iga uudise algus ja lõpp. BUUK on kasutatav ainult uurimisotstarbel, ainult TÜ üldkeeleteaduse õppetoolis.
3.1.2 "1984"
G. Orwelli "1984" käsitleme eraldi, sest tegu on suhteliselt väikesemahulise, kuid põhjalikult märgendatud korpusega, mille paralleelne versioon eksisteerib bulgaaria, inglise, rumeenia, sloveeni, tehhi ja ungari keele jaoks.
"1984" on kasutatav CD pealt (Erjavec, T., Lawson, A., Romary, L. 1998), (https://nl.ijs.si/ME/). Tema tehnilist ülesehitust kirjeldavad (Ide 1996), (Erjavec 1997) ja (Priest-Dorman, Erjavec, Ide, Petkevic 1997). "1984" korpuse loomisel on kasutatud mitmeid keeletehnoloogilisi vahendeid: eesti keele morfoloogilist analüsaatorit ESTMORF (Kaalep 1998), ühestajat (Puolakainen 1998), lausestajat ja joondajat (https://www.issco.unige.ch/) ning mitmeid spetsiaalselt antud korpuse märgendamiseks loodud programme. K o g u m ä r g e n d u s o n k a k ä s i t s i ü l e k o n t r o l l i t u d .
S u u r e t ö ö e e s t i k e e l s e " 1 9 8 4 " k o r p u s e l o o m i s e l o n t e i n u d G r e g P r i e s t - D o r m a n V a s s a r i k o l l e d ~i s t ( U S A ) j a K a d r i M u i s c h n e k , H e i l i O r a v , L e h o P a l d r e , V i i r e V i l l a n d i j t . T Ü ü l d k e e l e t e a d u s e õ p p e t o o l i t ö ö t a j a d .
" 1 9 84" on omakorda kasutatud keeletehnoloogilises arendustöös: just tema alusel on treenitud eesti keele statistilist ühestajat.
Kuna G. Orwelli "1984" elektroonilist versiooni ei õnnestunud 1995. aastal leida, siis on ta raamatu põhjal uuesti sisestatud. "1984" sisaldab 80 000 sõna; ta koosneb kolmest osast ja ühest lisast. Osad on omakorda jaotatud peatükkideks.
"1984" on kolmes elektroonilises versioonis: nn. normaalversioonina, paralleelkorpusena ja morfoloogiliselt analüüsituna ning ühestatuna.
Normaalversioon
Vaatame üht lõiku originaalist:
Tõeministeerium - uuskeeles* Tõmin - erines rabavalt kõigest muust, mida oli näha. See oli tohutu kiiskavvalgest betoonist püramiidne ehitis, mis kerkis
astanguliselt 300 meetri kõrgusele. Sealt, kus Winston seisis, seletas silm veel parajasti valgel seinal elegantses kirjas ilutsevat Partei kolme loosungit:
SÕDA ON RAHU
VABADUS ON ORJUS
TEADMATUS ON JÕUD
Normaalversioon, mis antud lõigust on märgendatud CES-i kohaselt (Ide, Priest-Dorman, Véronis 1996) , on selline:
Tõeministeerium
—
uuskeeles
Tõmin
— erines rabavalt kõigest muust, mida oli näha.
See oli tohutu kiiskavvalgest betoonist püramiidne ehitis, mis kerkis
astanguliselt
300
meetri kõrgusele.
Sealt, kus
Winston
seisis, seletas silm veel parajasti valgel seinal elegantses kirjas
ilutsevat
Partei
kolme loosungit:
Sõda on rahu
Vabadus on orjus
Teadmatus on jõud
Normaalmärgendus on tehtud kuni lausete tasandini, s.t. et raamatu struktuuri osas on märgendatud osad, pealkirjad, peatükid, lõigud, laused, tsitaadid, luuletused, loendid, esiletõstetud tekst (nt. kaldkiri) ja joonealused märkused. Kõik struktuurselt märgendatud osad on varustatud identifikaatoritega, et oleks võimalik eri keelte tekste omavahel siduda. Algul märgendati veel käsitsi lühendeid, kuupäevi, nimesid, numbreid, tiitleid, muukeelseid sõnu ja otsest kõnet. Hiljem sellest loobuti, sest töömaht osutus liiga suureks ja sellise märgenduse vajalikkus on kaheldav. Tulemuseks on see, et mittestruktuurne märgendus on tehtud ainult esimese osa esimeses peatükis ja sealgi mittejärjekindlalt.
Paralleelkorpus
Erinevalt mõnest teisest paralleeltekstist nagu SCLOMB (Yli-Vakkuri 1993), kus on püütud tõlketeksti faili otse siduda originaaliga (nt. kirjutades tõlketeksti lausete juurde originaali lausete numbrid), sisaldab "1984" paralleelkorpusena ainult viitasid osade, lõikude, lausete ja loendite identifikaatoritele.
Näiteks eestikeelse "1984" esimese osa esimese peatüki neljanda lõigu laused 3 ja 4 on originaalis vastavalt laused 3 ja 4 ning 5:
Pärast viitade abil lausete leidmist saame paralleelteksti:
Mustavuntsiline nägu vahtis vastu iga nurga pealt, ka vastasmaja fassaadilt.
The blackmoustachio'd face gazed down from every commanding corner.There was one on the house-front immediately opposite.
" Suur Vend valvab sind," ütles kiri, ja tumedad silmad vaatasid sügavalt Winstonile silma.
" Big Brother is watching you," the caption said, while the dark eyes looked deep into Winston's own.
Morfoloogiliselt märgendatud ja ühestatud variant.
Vaatame osalauset Oli külm selge aprillipäev,. See on morfoloogiliselt märgendatult ja ühestatult järgmine:
OliolemaVmii3s-anVM3olemaVmii3s-anolemaVaii3s-ankülm=A-p-snASN=A-p-sn=Nc-snselge=A-p-snASN=A-p-sg=A-p-snaprillipäev=Nc-snNCSN=Nc-sn,COMMA
Iga sõna puhul on esitatud:
tekstis esinev sõnavorm (märgend ),
morfoloogilise analüüsi tulemused (märgend ), milles on omakorda algvorm (märgend ), mis juhul, kui algvormi kuju on sama mis sõnavormil, on esitatud '=' kujul, ja morfo-süntaktiline kirjeldus (märgend ),
ühestamise tulemus (märgend ), mis on üks morfoloogilise analüüsi tulemustest (märgendid ja ), ja ühestamismärgend (märgend )
Kirjavahemärkide puhul on näidatud, et tegu on kirjavahemärgiga ning neil morfoloogilist analüüsi pole; on ainult ühestamismärgend.
3.1.3 Soovitusi tänapäevaste korpuste loomiseks
Praeguseks on juba selgunud mõned aspektid, millele tuleks tähelepanu pöörata korpuste kui keeletehnoloogia jaoks vajaliku materjali kogumisel.
Tekstide valik peaks olema orienteeritud võimalikult tänapäevase keele kajastamisele. TÜKKi kasutusvõimalusi vähendab oluliselt see, et ta sisaldab vananenud keelt. Mitmed TÜKKi osad tooksid keeletehnoloogilistele algoritmidele isegi kahju, kui neid kasutada sõnavara ja/või süntaksi allikana, nt. eriti propaganda ja suur osa ajakirjandusest. Seega võiks öelda, et ajakohasuse mõttes on hea on-line kogumine; samuti selle kogumine, mis on saadaval internetis.
Märgendus peaks olema kogu korpuse ulatuses ühtlane. Nt ei tohiks lausete märgendamisel panna otsese kõne lauset ja saatelauset kord kaheks omaette lauseks, kord üheks (nagu nt. TÜKKi ajakirjanduse-osas on tehtud).
Märgendamisel tuleb alustada lihtsamast struktuursest märgendusest (osad, peatükid, lõigud) ja mitte liikuda keerulisemale märgendusele enne, kui kogu ettevõetud korpus on lihtsamal tasemel märgendatud. Negatiivse näitena võib siin tuua selle, et TÜKKis märgendati käsitsi lühendeid, pärisnimesid ja numbreid. Nende märgendamine kuulub tegelikult morfoloogilise märgendamise etappi ja on sellisena automaatselt tehtav. Käsitsi märgendamine tähendab seda, et märgendusse tekib juhuslikke vigu ning hiljem tuleb vaeva näha spetsiaalsete filtritega, mis morfoloogilise märgendamise etapil varem käsitsi märgendatud sõnad vahele jätaks. Lihtsam on teha nii, et algul märgendada automaatselt mingi tasand ära (nt. anda sõnadele morfoloogiline analüüs) ja seejärel (pool)automaatselt need osad, mis automaatsest tööst kõrvale jäid, nt. haruldased pärisnimed, lühendid, trükivead.
Vajalikud on mitmesugused erinevad tekstid: nii toimetajate käest läbikäinud kui toimetamata (nt. tüüpiliste trükivigade leidmiseks)
Spetsiaalselt tuleb tähelepanu pöörata sellele, et korpus oleks kättesaadav laiemale publikule, nt. CD või interneti kaudu. Võimalike autoriõiguse alaste takistuste ettenägemine mõjutab tekstide valikut. Korpuse tegemine kättesaadavaks väljaspool kitsast tegijate ringi nõuab omakorda lisapingutusi formaalse ühtluse ning dokumentatsiooni loomisel, mida tuleks korpuse tegemisel algusest peale arvestada.
Vajalik on korpuse pidev täiendamine ja leitud vigade parandamine. Korpuse loomine ei ole päris ideaalselt etappideks jagatav (vastuolu nõudega nr. 3). Igal etapil võib välja tulla eelmise etapi vigu: trükivigu, märgenduse vigu, mõne programmi töö vigaseid tulemusi.
Kuna märgendamine on väga töömahukas tegevus, siis on mõtet märgendada nii vähe kui võimalik, ehkki nii palju kui vajalik. Märgendus, ilma milleta on raske korpusi kasutada, hõlmab tekstide allikaid (mis kasu on andmetest, kui ei ole teada, kust nad pärinevad ja kui usaldusväärsed nad on?) ja struktuuri (peatükid, lõigud, laused, sõnad).
3.2. Sõnastikud
Elektrooniline sõnastik e. leksikon on sõnade ja nende kohta käivate teadmiste kogum. Need teadmised võivad olla nt. morfoloogia, fonoloogia, tähenduse kohta. On raske leida keeletehnoloogilist rakendust, milles üldse ei kasutata mingit leksikoni. Elektroonilised sõnastikud erinevad traditsioonilistest, inimese jaoks mõeldud (paber)sõnastikest nii oma struktuuri kui sisu poolest, mistõttu elektrooniliste sõnastike tegemine traditsiooniliste alusel või lausa nullist on oluline osa keeletehnoloogilisest arendustööst.
Leksikonidest käsitletakse antud töös kahte morfoloogiliseks analüüsiks mõeldud leksikoni:
korpuse baasil loodud leksikoni.
eesti keele morfoloogilise analüsaatori aluseks olevat leksikoni
Milleks on meil vaja mitut samaotstarbelist leksikoni? Põhjused on eelkõige tehnoloogias: üks leksikon on tehtud lihtsa struktuuriga, et lihtsad programmid saaksid teda kasutada, teine aga spetsiaalselt kohandatud kvaliteetseks morfoloogiliseks analüüsiks programmi ESTMORF poolt.
3.2.1 Multext-Easti leksikon
Paljud keeletehnoloogilised rakendused vajavad sõnavormide analüüsimise vahendeid. Nt mõnikord on vaja abstraheeruda inflektsioonilistest variantidest, nii et nt. minna, lähen, läksin käsitletakse kõiki sõna minema variantidena. Mõnikord on aga soovitav kasutada informatsiooni, mida puhtas tekstis ei leidu, nt. et lähen on kindla kõneviisi oleviku ainsuse esimene pööre sõnast minema.
Esimest ülesannet nimetatakse lemmatiseerimiseks, teist morfoloogiliseks analüüsiks; ja mõlemaid saab lahendada, kasutades spetsiaalseid programme. (Keele)tehnoloogiline küsimus, mis seejuures esile kerkib, on see, et meid ei rahulda tegelikult lihtsalt mingi programmi olemasolu, vaid programmi olemasolu konkreetse riist- ja tarkvaraplatvormi jaoks. Sellest seisukohast vaadates peaks morfoloogilise analüüsi ja lemmatiseerimise programm olema võimalikult lihtne ja universaalne, et ta oleks kergesti muudetav, kohendatav ja sobiks eri keeltele. Ainus viis seda saavutada on eristada analüüsi algoritm ja andmed; algoritm omakorda peaks olema keelest sõltumatu ja kergesti ümberprogrammeeritav, andmed keelele omased ja kergesti kasutatavad. Praktikas tähendab see seda, et tuleb kasutada lihtsa struktuuriga leksikaalset andmebaasi sõnastikku ja analüüsi asemel võimalikult lihtsat sõnastikust otsimist.
Mitmete Lääne- ja Ida-Euroopa keelte jaoks piisab kolme-veerulisest tabelist leksikaalsest andmebaasist (vt. tabel 1), mille veergudes on kirjas:
sõnavormid,
neile vastavad algvormid,
grammatiline info, mida konkreetne sõnavorm esindab.
sõnavormalgvormmorfo-süntaktiline kirjelduslähenminemaverb, kindel kõneviis, olevik, ainsus, 1 pööre
Tabel 1. Lihtne leksikaalne andmebaas
Kui tahame leida mõne sõnavormi algvormi ja/või grammatilist infot, siis tuleb sellisest sõnastikust otsida üles sõnavorm (see on esimeses veerus). Sama kirje teises veerus ongi siis algvorm ja kolmandas grammatiline info.
Selline leksikon peab sisaldama piisavalt palju sõnavorme, et katta jooksvas tekstis esinevaid sõnu. Samal ajal peab leksikon olema nii väike, et ta on arvutustehnika praeguste võimaluste juures ikka kasutatav.
Kas eesti keele jaoks õnnestub kasutada sellist ülilihtsat morfoloogilise analüüsi meetodit, arvestades eesti keele morfoloogilist keerukust?
Esimene võimalus luua sõnavormide leksikon oleks kasutada mingit olemasolevat sõnatikku ja genereerida sellest kõikvõimalikud sõnavormid. Kui me kasutaksime Väikest vormisõnastikku (Viks 1992), siis saaksime 35 000 algvormist genereerida 1,2 miljonit sõnavormi. Tuletiste ja liitsõnade lisamine viiks sõnade hulga miljarditesse. Seega lihtsalt kõikvõimalike sõnavormide genereerimine ei oleks praktiliselt mõistlik.
Teine võimalus oleks võtta aluseks mingi hulk eestikeelseid tekste, teha nende alusel sõnavormide leksikon ja loota, et saadud sõnavormide hulk katab küllalt suure osa ka tundmatute tekstide sõnavormidest. Allpool kirjeldatakse ühte sellist katset.
Leksikoni tegemiseks võeti 150 000 sõna ulatuses tekste TÜKKi ilukirjanduse, ajakirjanduse ja teaduse osast, kokku 450 000 sõna ulatuses. Nad analüüsiti ESTMORFiga ära ja saadi sõnastik, milles oli 118 000 erinevat kirjet. 1. veerus oli 81 000 erinevat sõnavormi ja 2. veerus 43 000 erinevat algvormi. Kirjete ja sõnavormide arvu erinevus tuleneb sellest, et paljudel sõnavormidel on mitu võimalikku algvormi ja/või grammatilist tõlgendust (vt. tabel 2).
aegaaegakaassõnaaegaaegnimisõna, ainsus, osastavaegaaegnimisõna, ainsus, lühike sisseütlev
Tabel 2. Sõnavormi aega kirjed lihtsas leksikaalses andmebaasis
Selline leksikon ei sisalda kõigi sõnade täisparadigmasid, küll on ta väga sobiv nendesamade tekstide analüüsimiseks, mille põhjal ta on koostatud. Et hinnata tema sobivust ka tundmatute tekstide analüüsiks, tehti katse G. Orwelli "1984ga" . Tulemused on tabelis 3.
tekstis sõnuerinevaid sõnavorme kokku80 00017 900neist sisaldus leksikonis68 60010 400sama, protsentuaalselt8658neist puudus leksikonist114007500sama, protsentuaalselt1442
Tabel 3. "1984" analüüs sõnavormide leksikoni abil
Nagu näha, katab loodud sõnavormide leksikon tundmatut teksti paremini kui morfoloogiline analüsaator, mis tunneb ära ainult lihtsõnade kõikvõimalikud vormid (Hein 1994): viimane tundis ära 75% jooksva teksti sõnadest. Praktilistel eesmärkidel on morfoloogiline analüsaator, mille aluseks on selline leksikon ja ainsaks meetodiks sealt sõnavormi otsimine, oma katvuse poolest siiski kasutuskõlbmatu.
Esimene pähetulev idee saadud leksikoni parandamiseks on järgmine: tuleks laiendada saadud leksikoni sel moel, et genereerida kõigist lemmadest koguparadigmad. Sel juhul saaksime leksikoni, mis katab tundmatut teksti kindlasti paremini. Küsimuseks on, kui palju paremini: kui palju tundmatuid sõnavorme on leksikonis olevate lemmade tundmatud vormid ja kui palju on mingite uute lemmade, s.h. tuletiste ja liitsõnade, vormid?
Et seda kindlaks teha, tehti järgmist. Analüüsiti "1984" morfoloogiliselt, kasutades ESTMORFi. Tulemused on tabelis 4.
tekstis sõnuerinevaid sõnavorme kokku80 00017 900analüüsitud78 20017 500sama, protsentuaalselt9898tundmatud1800400sama, protsentuaalselt22
Tabel 4. "1984" analüüs ESTMORFi abil
Seejärel eraldati sõnad, mis lihtsa sõnavormide leksikoni puhul jäid tundmatuks, ESTMORFi poolt aga ära analüüsiti. Leksikonis puudunud sõnavormide jagunemist oma päritolu poolest kirjeldab tabel 5.
tekstis sõnu kokkutekstis sõnuerinevaid sõnavormeerinevaid sõnavorme kokku96005500olemasolevate lemmade uued vormid410071004100uute lemmade vormid3000
Tabel 5. Sõnavormide leksikonis puudunud sõnade moodustusviis
Näeme, et olemasoleva leksikoni laiendamine nii, et genereerime kõigi seal olevate lemmade paradigmad, annaks meile "1984" puhul katvuseks ligi 95%. Tundmatuks jääb 2,5 korda rohkem sõnu kui ESTMORFi puhul, kuid katvus ulatub siiski tasemele, mida võib pidada aktsepteeritavaks (Vuotilainen, Heikkilä, Anttila 1992). Teiste sõnadega, eesti keele puhul oleks võimalik luua antud leksikoni põhjal küllalt hea morfoloogiline analüsaator, kui me võtaksime aluseks olemasolevad lemmad ja piirduksime sõnamuutusega, tegemata katsetki analüüsida sõnastikust puuduvaid tuletisi ja liitsõnu.
Leksikoni laiendamist kõigi võimalike sõnavormidega pole siiski tehtud, sest tulemuseks oleks praeguste arvutiressursside jaoks liiga suur tabel. Selle asemel on tehtud järgmist.
Et sõnavormide leksikon oleks kooskõlas korpusega, mida me põhjalikult analüüsime ja märgendame G. Orwelli "1984ga", siis on sinna lisatud kõik uued sõnavormid, mida ESTMORF suutis analüüsida. Välja jäid Uuskeele sõnad (nt. prole) ja briti pärisnimed (nt. Syme). Tulemuseks on leksikon, milles on 130 500 kirjet, 89 000 erinevat sõnavormi ja 45 000 erinevat algvormi. Leksikon on CDl (Erjavec, Lawson, Romary 1998).
3.2.2. ESTMORFi sõnastik
Morfoloogiline analüsaator peab olema võimalikult täpne. See tähendab, et ta peaks võimaldama analüüsida piisavat hulka reaalsetes tekstides esinevaid sõnu, kuid samas ei tohiks ta analüüsida selliseid sõnu, mida tekstides ei esine (ja mis selles mõttes antud keelde ei kuulugi), nagu nt. käibelt kadunud sõnad või mitte juurdunud uudissõnad. Morfoloogilise analüsaatori täpsust mõjutab nende sõnade valik, mis tema sõnastikku kuuluvad. Keelele mitteomaste sõnade olemasolu sõnastikus toob kaasa riski, et kirjavigadega sõnad, lühendid ja muude keelte sõnad (nt. tsitaatides) analüüsitakse valesti kui antud keele normaalsed sõnad.
Kuldne kesktee sõnastiku katvuse ja täpsuse vahel on saavutatav ainult sel teel, et me kontrollime sõnastikku (ja morfoloogilist analüsaatorit) reaalset keelekasutust esindavate tekstide peal. Praeguseks on ESTMORFi sõnastik järgmine.
ESTMORFi sõnastikus on 38 000 sõna. Ta põhineb Väikese vormisõnastiku (VVS) elektroonilisel versioonil (Viks 1992), milles on 35000 lihtsõna. Võrreldes ESTMORFi sõnastikku VVSiga näeme, et sinna on lisatud:
Ligikaudu 1200 põhisõnavarasse kuuluvat lihtsõna
Ligikaudu 2500 liitsõna, mille moodustamine on algoritmiliseks kirjeldamiseks liiga keeruline või ebaregulaarne. Need 2500 sõna esindavad järgmisi sõnaliike: 100 tegusõna, 870 määrsõna, 150 arvsõna, 8 asesõna, 1300 nimi- ja omadussõna.
Ligikaudu 2700 pärisnime ja 500 neist tuletatud genitiivatribuuti, s.h. u. 70 võõrpärisnime, mis koosnevad mitmest sõnast nagu New York.
Ligikaudu 300 lühendit.
VVSist on eemaldatud:
Ligikaudu 1800 vananenud või murdesõna
Ligikaudu 2700 liigset tuletist (VVS sisaldab palju produktiivseid tuletisi)
4. Teoreetilised küsimused
4.1. Morfoloogiliste kategooriate süsteem
Üks aspekt, mis nõuab keeletehnoloogias ja arvutilingvistikas erilist tähelepanu, on kasutatavate kategooriate formaliseeritus, üheselt mõistetavus, täielikkus ja mittevastuolulisus. Antud töö raames tuli kokku puutuda morfoloogiliste kategooriate süsteemiga, mida kasutatakse sõnavormide morfoloogilisel klassifitseerimisel.
Eri allikad annavad eesti keele morfoloogiliste kategooriate ja selle kohta, kuidas sõnad nende vahel jagunevad, eri pildi. Eriarvamused hõlmavad esiteks seda, kas eesti keele sõnad jagunevad sõnamuutumise seisukohalt 3 rühma käändsõnad, pöördsõnad ja muutumatud sõnad (Viks 1992); või tuleb eri rühmadena käsitleda veidi teisel moel muutuvaid sõnu võrdlussõnu nagu ruttu rutem või kohakäändesõnu nagu peale peal pealt (Eesti Keele Grammatika 1995). Teiseks on eri autorid eri arvamusel selle suhtes, millistesse sõnaliikidesse võivad sõnad jaguneda. Muutumatute sõnade puhul on (Valgma, Remmel 1970), (Viks 1992) ja (Eesti Keele Grammatika 1995) seisukohtadel, mida kirjeldab tabel 6.
NäideValgma, Remmel 1970Viks 1992EKG 1995eriomadussõnaomadussõnaomadussõnabaltiomadussõna(genitiiv)atribuutomadussõnaseesmäärsõnamäärsõnamäärsõnasiinmäärsõnamäärsõnaasesõnavistmäärsõnamäärsõnarõhumäärsõnatagasimäärsõnamäärsõnaabimäärsõnaplehkuei käsitlesõnaliik puudubei käsitle
Tabel 6. Sõnade klassifitseerimine eri allikates.
Kolmandaks ei ole eri autorid üksmeelel selles osas, milliseid käänd- ja pöördsõnavorme eristada. Nt. (Viks 1992) eristab omaette käändena lühikest sisseütlevat e. aditiivi, mida muud autorid ei tee (Eesti Keele Grammatika 1995). Pöördsõnade puhul eristab (Eesti Keele Grammatika 1995) möönvat kõneviisi, mida mitmed muud autorid, nt. (Valgma, Remmel 1970) ja (Viks 1992) ei tee; (Viks 1992) aga kaudse kõneviisi mineviku umbisikulist vormi (nt. elama elatuvat); (Eesti Keele Grammatika 1995) lubab ainult vormi olevat elatud.
Erinevad morfoloogiliste kategooriate süsteemid on tingitud sellest, et uurijad keskenduvad erinevate aspektide kirjeldamisele. Oleks hea, kui eksisteeriks üks selline kategooriate süsteem, millest kõik ülejäänud on tuletatavad. Paraku praegu sellist pole ja ei tea, kas seda saabki teha. Seetõttu on ka avalikult kasutatavates eesti keele korpustes ning lingvistilistes töövahendites praegu kasutusel kaks erinevat morfoloogiliste kategooriate süsteemi: TÜKKis kasutatakse väikeste modifikatsioonidega Väikese vormisõnastiku süsteemi (https://www.filosoft.ee/html_morf_et/morfoutinfo.html), "1984" puhul aga Multext-Easti süsteemi (Erjavec, Monachini 1998).
Esimene sobib paremini spetsiifiliselt sõnamuutuse käsitlemiseks, teine vastab oma kirjeldusmehhanismi poolest aga rahvusvahelisele standardile EAGLES (Monachini, Calzolari 1995), (Bel, Calzolari, Monachini 1995), mis võimaldab kasutada eesti keele peal mitmeid muudes maades loodud lingvistilisi töövahendeid ning testida nende sobivust eesti keelele.
Eraldi tuleks vast mainida sedagi, et lisaks traditsioonilistele lingvistilistele kategooriatele tuleb keeletehnoloogias anda mingi analüüs ka tekstis esinevatele mittesõnadele: valemitele, kirjavahemärkidele, lühenditele. Nii VVSil põhinev süsteem kui ka Multext-Easti süsteem selliseid kategooriaid ka sisaldavad.
4.2 Lühikese sisseütleva ja vokaalmitmuse kasutamine
Mõningaid grammatilisi vorme peavad eesti keele kasutajad keeleomasteks, mõningate kasutamist aga väldivad. Teoreetiline küsimus kasutatavatest vormidest saab kõige täpsema ja ammendavama vastuse sõnastikus, mis teatud vormide kasutamist aktsepteerib, teatud vormide oma aga mitte.
Nii nagu morfoloogilise analüsaatori sõnastik ei tohi sisaldada sõnu, mis on nii haruldased ja antud keele kasutajale veidrad, et neid peetakse trükivigadeks või võõra keele sõnadeks, peaks olema ettevaatlik ka võimalike sõnavormide hulga lubamisel. Korpuste põhjal tehtud statistika alusel on ESTMORFi leksikoni kohandatud eesti keele reaalse kasutusega, mis puudutab lühikese sisseütleva vorme ja vokaalmitmust.
VVS lubab väga paljudele käändsõnadele lühikest sisseütlevat käänet, nt. kehasse e. kehha. ESTMORFi sõnastikust on eemaldatud selliseid reaalsele keelekasutusele ilmselt mitte vastavaid vorme ümmarguselt 8000 sõna puhul. Valdavalt eemaldati vormid, mille puhul VVSis oli märgitud, et nende moodustamine on ebatõenäoline, v.a. sepp-tüüpi sõnade lühike sisseütlev, mis langeb kokku ainsuse osastavaga. Selline eemaldamine muude tüüpide puhul ei olnud aga automaatne; kõik sõnad vaadati eraldi üle ja mõnekümnel juhul otsustati VVSis märgitud ebatõenäolised vormid (nt. torru) siiski alles jätta.
VVS lubab ka vokaalmitmust väga paljudele sõnadele, nt. atradel e. adrul. ESTMORF on VVSist rohkem kui 7000 sõna puhul, millest valdav enamus kuulub sepp-tüüpi, selles osas rangem.
Omaette küsimuseks on, kas käändsõnade vokaalmitmust võib esineda nelja viimase käände (rajav, olev, ilmaütlev, kaasaütlev) puhul. (Viks 1992) ja (Peebo 1997) arvavad, et reeglina mitte. Samas võib TÜKKist leida sõnu nagu põlvini, silmini, õnnelikena, surmväsinuina, viljelejaina, soosikuina, võrdväärseina. Reegliks näib olevat, et õnnelik-tüüpi sõnadel on vokaalmitmus võimalik kõigi nelja viimase käände puhul; i-mitmusega sõnadel on vokaalmitmus võimatu kahe viimase käände puhul, tüvemitmusega sõnadel aga tõepoolest nelja viimase käände puhul. Erandeiks on üksikud sõnad nagu silmini, põlvini, kõrvuni, õluni, pilvini, rinnuni, ladvuni, millel pole vokaalmitmust kolme viimase käände puhul.
4.3 Produktiivsed liitumid eesti keeles
Ilma korpuste ja automaatse morfoloogilise analüüsi võimaluseta on raske vastata küsimustele:
Kui produktiivne on sõnamoodustus reaalsetes tekstides?
Millised on tuletuse ja liitsõnade moodustamise mallid ja millised neist on produktiivsed?
Varasemad uurimused nagu (Kask 1967), (Kull 1967), (Kasik 1984) ja (Kasik 1992) annavad kasulikke vihjeid mõlemale küsimusele vastamiseks, aga ei ole morfoloogilise analüsaatori loomisel koheselt kasutatavad. Lisaraskusi tekitab asjaolu, et sõnamoodustust kirjeldatakse kui sünteesiprotsessi, meid huvitab aga analüüs. Eraldi probleemiks on veel see, et liitsõnade moodustust kirjeldatakse kui kahe komponendi liitmist, samas kui reaalsetes tekstides esineb kuni 5-komponendilisi liitsõnu. Ei ole selge, kuivõrd võib keerulisema struktuuriga sõnade puhul kasutada rekursiivselt samu reegleid, mida kasutatakse 2-komponendiliste sõnade puhul.
4.3.1 Tuletised
Umbes 8% kõigist sõnedest eestikeelses tekstis on tuletised; ajakirjandustekstis on neid veelgi rohkem.
ESTMORF kasutab 40 produktiivset järelliidet, mis võivad liituda nimi-, omadus-, arv- või tegusõnale, andes tulemuseks nimi-, omadus- või määrsõna. Mõned järelliited sobivad ainult ühele sõnaliigile, mõned mitmele, andes tulemuseks samuti mitmeid erinevaid sõnaliike. Liitumist kitsendavad piirangud puudutavad tüve sõnaliiki, tüve vormi (nt. nimetava või omastava tüvi) ja tüve lõputähti.
Nt. dus võib liituda tegusõna umbisikulise tegumoe mineviku kesksõnale (töödeldud: töödeldus) või eda-lõpulisele omadussõna ainsuse omastavale, asendades eda edus-iga (müreda: müredus).
Paljud järelliited võivad kombineeruda. Nt. ja ja lik annavad jalik, nagu õpetaja, õpetajalik. ESTMORF ei sisalda järelliidete kombineerumise algoritmi, vaid kasutab rohkem kui 100 lubatud kombinatsioonist koosnevat loendit.
Eesti keelt on tavaliselt kirjeldatud kui keelt, millel on väga vähe eesliiteid: ainult eba ja mitte ning mõned võõrliited, nt. anti, pro, pseudo jne. ESTMORF seevastu käsitleb 70 sageli esinevat esikomponenti kui eesti keele eesliiteid, mis võivad liituda nimi-, omadus-, määr- või tegusõnale. Peale selle on veel 30 võõrliidet, mis võivad liituda nimi-, omadus- või tegusõnale.
Eesliidete loendi koostamisel lähtuti järgmistest puhtformaalsetest kriteeriumidest. Liitsõnakomponent tuleks panna eesliidete loendisse, kui:
Komponent ei esine omaette sõnana või on tal omaette sõnana selgelt teistsugune tähendus kui liitsõnas, nt ala (pind, valdkond) tähendab liitsõnades hoopis alam-, sub-.
Ei ole silmnähtav, kuidas komponenti moodustada lihtsõnast lähtudes.
Komponenti saab vabalt kasutada uute sõnade moodustamiseks
Komponent esineb tekstides küllalt paljudes sõnades.
ESTMORF on küllaltki range ja kahtlase reegli formuleerimise asemel hoitakse paljusid tuletisi sõnastikus. Nt. eesliide nüüdis- võib liituda nimisõnadele, nt. nüüdisooper, kuid mitte omadussõnadele, nt. *nüüdislai. Erandlik omadussõna nüüdisaegne on pandud sõnastikku.
4.3.2 Liitsõnad
Liitsõnamoodustus on eesti keeles isegi produktiivsem nähtus kui tuletus. Liitsõnu on eestikeelsetes tekstides keskmiselt 12%; ajalehetekstides veel rohkem.
Reeglid ja piirangud, mis liitsõnade moodustamist määravad, võib jagada kahte suurde gruppi:
Liitsõna komponentide arv
Komponentide eneste omadused: nt. kas komponent on tüvi või järelliide; mis sõnaliiki tüvi kuulub, millised tähed on tüve lõpus jne
Liitsõnade moodustamisest võivad põhimõtteliselt osa võtta järgmised 8 lihtstruktuuri:
tüvi, tüvi + lõpp, tüvi + järelliide, tüvi + järelliide + lõpp, eesliide + tüvi, eesliide + tüvi + lõpp, eesliide + tüvi + järelliide, eesliide + tüvi + järelliide + lõpp
Teoreetiliselt võiksid nad omavahel kombineeruda kuidas tahes, kuid reaalsetes tekstides on sagedasemate mallide pingerida selline, nagu tabelis 7.
Liitsõna-mall% kõigist liitsõnadesttüvi + tüvi70-75%tüvi + tüvi + järelliide5-10%tüvi + tüvi + tüvi5-10%tüvi + lõpp + tüvi1-5%tüvi + lõpp + tüvi + järelliide1-5%tüvi + järelliide + tüvi1-5%
Tabel 7. Liitsõna-mallide sagedasemad tüübid
On terve hulk nõudeid, millele iga malli komponendid peavad vastama. Need nõuded on väga sarnased piirangutega, mida kasutatakse tuletiste puhul ja nad puudutavad tüve sõnaliiki, tüve vormi ja tüve lõputähti. ESTMORF võtab arvesse ainult formaalseid piiranguid; liitsõna komponentide tähenduslikku sobivust ta ei arvesta.
ESTMORF kasutab ka kahte tüvede loendit, mis võivad osaleda liitsõnade moodustamisel vabamalt kui muud tüved: tõenäolisemate esi- ja järelkomponentide loendeid.
Liitsõna tükeldamisel osasõnadeks on sageli võimalik mitu varianti, nt. lae+kaunistus ja laeka+unistus. ESTMORF leiab ainult ühe liitsõna tükeldamise variandi. Liitsõnade analüüs on alamprogrammide järjekorra ja sõnaloendite valiku abil organiseeritud sel moel, et väljundiks oleks kõige tõenäolisem analüüs, antud näite puhul lae+kaunistus. Peamiseks juhiseks seejuures on põhimõte, et komponentide arv peab olema minimaalne: eelistada tuleb lihtsõnu tuletistele ja liitsõnadele ning vähema komponentide arvuga liitsõnu keerulisematele.
Pärast mitmeid katsetusi on jõutud järgmise variantide proovimise järjekorrani, mis annab vähima vigade arvu:
Kas sõna on lihtsõna?
Kas sõna on struktuuriga tüvi + järelliide (või tüvi + järelkomponent)?
Kas sõna on struktuuriga eesliide + tüvi (või esikomponent + tüvi)?
Kas sõna on struktuuriga tüvi + tüvi?
Kas sõna on struktuuriga tüvi + tüvi + järelliide (või tüvi + tüvi + järelkomponent)?
Kas sõna on struktuuriga eesliide + tüvi + järelliide (või esikomponent + tüvi + järelliide või eesliide + tüvi + järelkomponent või esikomponent + tüvi + järelkomponent)?
Kas sõna on struktuuriga tüvi + lõpp + tüvi?
Kas sõna on struktuuriga tüvi + lõpp + tüvi + järelliide (või tüvi + lõpp + tüvi + järelkomponent)?
Kas sõna on struktuuriga tüvi + järelliide + tüvi (või tüvi + järelliide + tüvi + järelliide või tüvi + järelliide + tüvi + järelkomponent)?
Kas sõna on struktuuriga tüvi + tüvi + tüvi?
Kas sõna on struktuuriga eesliide + järelkomponent (või esikomponent + järelkomponent)?
Kas sõna on struktuuriga eesliide + liitsõna (või tüvi + liitsõna)?
Toodud variantide proovimise järjekord kehtib seisuga 1. november 1998. Varem avaldatud artiklites on ta mõne üksiku variandi järjekorra poolest erinev.
4.4 Sõnajärg
On väidetud, et "Eesti keeles ei ole võimalik välja tuua statistilist põhi-sõnajärjemalli" ja et "Eesti sõnajärje ALUSEKS ei ole mitte süntaktilise struktuuri, vaid infostruktuuri printsiibid" (Tael 1988).
Samal ajal teame, et 40-50% tekstis ettetulevatest sõnadest on morfoloogiliselt mitmeti tõlgendatavad, mis tähendab seda, et sõnade süntaktilisi suhteid lauses on morfoloogiliste tunnuste abil raske kindlaks teha.
Seega on tegemist võimatuna näiva olukorraga: eestikeelse lause süntaktilist struktuuri ei saa justkui määrata ei sõnade järjekorra ega morfoloogiliste tunnuste alusel.
Paradoksi lahendus võiks olla järgmine. Lause süntaktilise struktuuri määravad ikkagi morfoloogilised tunnused; nende ühene tõlgendamine omakorda ei sõltu aga lause põhisõnajärjest, vaid sõnade lokaalsest kontekstist, mis on küllalt fikseeritud sõnajärjega. Antud väidet näib kinnitavat Markovi varjatud mudeli (MVM) kasutamise eksperiment eesti keele ühestamisel (Kaalep, Vaino 1998).
Osutub, et eesti keele puhul piisab mitmeti tõlgendatavate sõnade puhul 80% juhtudel ainult sõnavormi esinemise tõenäosusest ja sõnade järjestuse arvestamisest 2-3 sõnalises kontekstis, et õigesti otsustada, milline morfoloogilise analüüsi variant mitmest võimalikust valida.
5. Praktilised töövahendid
Käesolevas töös käsitletakse kaht keeletehnoloogilise arvutitarkvara esindajat: morfoloogilist analüsaatorit ja ühestajat.
Morfoloogiline analüsaator on arvutiprogramm, mis mingi sõnavormi puhul võib määrata selle sõna algvormi, sõna struktuuri (formatiivid) ja morfoloogilise informatsiooni (nt. sõnaliigi, käände või pöörde, arvu jms). Erinevad morfoloogilised analüsaatorid erinevad üksteisest nii selle poolest, millist informatsiooni ja millise detailsusega nad väljastavad, kui ka selle poolest, milliseid meetodeid nad kasutavad.
Morfoloogiline ühestamine seisneb morfoloogiliselt analüüsitud lause igale sõnale tema võimalike morfoloogiliste märgendite hulgast õigete valimises. Näiteks morfoloogiliselt analüüsitud lausest: Mees mees+0 //_S_ sg n, // mesi+s //_S_ sg in, // peeti peet+0 //_S_ adt, sg p, // pida+ti //_V_ ti, // kinni kinni+0 //_D_ // saame peale ühestamist: Mees mees+0 //_S_ sg n, // peeti pida+ti //_V_ ti, // kinni kinni+0 //_D_ //
5.1 ESTMORF, eesti keele morfoloogiline analüsaator
Eesti keele morfoloogia-analüsaator on praktilistest töövahenditest, mis uurimuse tulemusena loodud, kesksel kohal. Olles ise lingvistiline töövahend, on ta aluseks ka mitmetele kommertsrakendustele (nt. speller). Morf. analüsaator on töövahend, ilma milleta oleks raske ette kujutada ka automaatseid vahendeid keelekasutuse ja süntaksi uurimise tarvis.
ESTMORF on arvutiprogramm suvalise eestikeelse teksti analüüsimiseks. Teda saab kasutada nt. Interneti kaudu ( HYPERLINK https://www.filosoft.ee https://www.filosoft.ee/html_morf_et/). ESTMORF on realiseeritud nii, et jooksvas tekstis olevaid sõnesid võrreldakse sõnastikus olevate lekseemide kombinatsioonidega. Võrdlemisel ei kasutata 2-tasemelisi reegleid (Koskenniemi 1983).
ESTMORFi peamised omadused on järgmised:
ESTMORF on mõeldud eesti kirjakeele jaoks.
Sõnamuutuse käsitlus on täielik; analüüsitakse ka erandlikke vorme.
ESTMORFi sõnastik sisaldab põhisõnavarasse kuuluvaid lihtsõnu ja sagedamaid pärisnimesid ja lühendeid. Produktiivselt moodustatavaid tuletisi ja liitsõnu reeglina sõnastikus pole.
Tuletisi ja liitsõnu analüüsitakse algoritmiliselt. Seega pole vaja neid hoida sõnastikus ning on võimalik korrektselt analüüsida ka uusi tuletisi ja liitsõnu
Tuletiste ja liitsõnade analüüsi algoritm on koostatud selliselt, et leida iga sõna puhul tema kõige tõenäolisem jaotus komponentideks.
Analüüs tugineb sõnastikule ega sisalda heuristikat.
ESTMORF hoolitseb ise kirjavahemärkide ja mitmest sõnast koosnevate võõrpärisnimede eest.
ESTMORF ei pretendeeri originaalsusele eesti keele morfoloogiasüsteemi käsitlemisel, v.a. sõnamoodustuse osas.
Korrektsed analüüsid antakse u. 97% sisendteksti sõnedele. Analüüsimata jäävad haruldased sõnad nagu pärisnimed, lühendid, terminid, släng jms.
ESTMORF on morfoloogilise analüüsi vahend, nii teoreetilisteks kui praktilisteks eesmärkideks.
ESTMORF ei arvesta süntaktilisi ega semantilisi omadusi nagu valents, transitiivsus või loendatavus.
5.2 Ühestaja
Ühestaja on töövahend, mille vajalikkus saab selgeks niipea, kui morfoloogiline analüsaator on olemas. Nt. morfoloogiliselt analüüsitud, kuid ühestamata teksti alusel saab teha statistilisi uurimistöid ainult küllalt piiratud ulatuses; ka sagedussõnastiku koostamine on sel puhul peaaegu sama raske kui lihtsalt puhta teksti alusel.
Laialdaselt kasutatakse ühestamiseks statistilisi meetodeid. Eesti keele jaoks on praegu realiseeritud üks klassikalisi statistilisi ühestajaid - Markovi Varjatud bigramm-mudel (MVM). Statistiline ühestaja koosneb tegelikult kahest poolest: programmist ja keelespetsiifilistest andmetest, nn. keelemudelist. Programm tugineb üldtuntud algoritmile, on universaalne ja keelest sõltumatu. See, mis teeb statistilise ühestaja konkreetse keele jaoks kasutatavaks, on just keelemudel.
MVM puhul ei ole keelemudel midagi muud kui 3 ühestamisel kasutatavat tõenäosuste tabelit. Et neid kirjeldada, tuleb esmalt defineerida mõned mõisted.
Esiteks peame silmas, et ühestamine kui omaette etapp teksti töötlemisel võib kasutada samu märgendeid sõnade morfoloogilise iseloomu kajastamiseks kui morfoloogiline analüsaator, aga ei pruugi. Tavaline ongi, et ühestaja jaoks defineeritakse omaette märgendite süsteem koos teisendusalgoritmiga, mis morfoloogilise analüsaatori märgendid teisendab ühestaja omadeks ja tagasi. Defineerime märgendite hulga M = {m1 m2 mn}, kus mi on üks märgend. Mitteüheses tekstis võib ühel sõnal olla mitu märgendit; selle sõna märgendite komplekti nimetame mitmesusklassiks. Erinevate mitmesusklasside hulk V = {v1 v2 vq} on loomulikult hulga M osahulkade hulk (vi ( M).
Tõenäosuste tabelid on järgmised:
Tõenäosuste vektor E = {e1 e2 ew}, kus ei on tõenäosus, et mi on lauses esimene märgend.
Maatriks P = {pkl}, kus pkl on tõenäosus, et märgendile mk eelneb märgend ml.
Maatriks X = {xkl}, kus xkl on tõenäosus, et mitmesusklassi vl kuuluvatest märgenditest tuleb valida märgend mk
Keelemudeli koostamiseks on teada mõned üldised printsiibid, kuid täpseid eeskirju mitte. On teada, et kuna MVM näeb ainult märgendeid ja nende tõenäosusi, siis märgendite süsteemi valik on peamine, mis eristab head MVM-ühestajat halvast. Samas ei ole olemas häid eeskirju, kuidas märgendite süsteemi teha; see on niivõrd keelespetsiifiline. Samuti on teada, et oluline osa statistilise ühestaja keelemudeli loomisel on treenimisel kasutatavate tekstide iseloom ja hulk: mida paremini vastavad tekstid tüüpilisele keelekasutusele ja mida rohkem neid on, seda parem.
Praegu kasutab statistiline ühestaja 88 ühestamismärgendit (ÜM), mis on valitud järgmiselt. Eristatakse omadussõnu, põhiarvsõnu, järgarvsõnu, nimisõnu, pärisnimesid, isikulisi asesõnu, muid asesõnu, lühendeid, verbe, alistavaid ja rinnastavaid sidesõnu, hüüdsõnu, ees- ja tagasõnu, määrsõnu, punktuatsioonisümboleid ja tundmatuid sõnu.
Käändsõnade puhul eristatakse 5 käänet: nimetavat, omastavat , osastavat , lühikest sisseütlevat e. aditiivi ja kõiki muid. Isikuliste asesõnade puhul eristatakse lisaks ka kolme isikut. Ei eristata ainsust ja mitmust.
Verbide puhul eristatakse kokku 13 ÜM-i: ei, ära, esimene pööre, teine pööre, kolmas pööre, kaudne kõneviis, pole ja polnud, da-infinitiiv, 0-lõpuline vorm, tingiva kõneviisi vormid, käskiva kõneviisi vormid, ma-infinitiivi vormid, partitsiibid. Ei eristata ainsust ja mitmust ega aega.
Ühestaja tõenäosuste tabelid on saadud, treenides teda G. Orwelli 1984 eestikeelse tõlke peal (Orwell 1990), v.a. Lisa, mille suurus oli 75 000 sõna.
Ühestaja töö kvaliteeti iseloomustab tabel 8, mis on saadud ühestaja testimisel Vello Lattiku raamatu Mihklipäeval. Mihklikuul (Lattik 1983) 2005-sõnalisel väljavõttel:
AlgusesPärast ühestamistSõnu kokku20052005Tõlgendusi kokku34502052Mitteüheseid sõnu85247Keskmiselt tõlgendusi sõna kohta1,721,02Mitteüheste sõnade protsent42,49%2,34%Vale märgendiga sõnade protsent0,1%6,7%
Tabel 8. MVM bigramm-ühestaja töö kvaliteet.
Tabelis toodud arvud käivad morfoloogiliste märgendite (MM) kohta, mitte ühestamismärgendite (ÜM) kohta. See, et pärast ühestamist jääb osa sõnu mitmeseks, on seletatav sellega, et enne ühestamist võetakse mitu MM kokku üheks ÜMiks, kusjuures ühe sõna erinevad MMid teisenduvad tavaliselt siiski erinevateks ÜMideks. Kuid juhul, kui sõna erinevad MM teisenduvad üheks ÜMiks, MMide ühestamist ei toimugi. Nt. sõna olema on ainus verb, mille ainsuse ja mitmuse 3. pööre on homonüümsed on. Kuna meie oma ÜMide valikul praegu ainsust ja mitmust ei erista, siis on jääb ühestamisest kõrvale.
Võrdlus hoopis teistel alustelt lähtuva ühestamismeetodiga kitsenduste grammatikaga (Puolakainen 1997) näitab, et MVM esialgsed tulemused eesti keele peal ei jää praktiliselt alla ühestajale, mis kasutab inimese poolt formuleeritud konteksti arvestamise reegleid.
Võrdlus teiste keeltega, kus on kasutatud statistilisi meetodeid ühestamisel, näitab, et eesti keelele sobib antud meetod umbes sama hästi kui näiteks rootsi keelele, kus erinevus inimese ja arvuti poolt ühestamisel oli algul samuti 7% (Källgren 1996).
6. Kokkuvõte
Keeletehnoloogiline arendustöö, s.t. keeletehnoloogiliste toodete (nt. morfoloogilise analüsaatori ja spelleri) loomine on tihedalt seotud keeleressursside (nt. tekstikorpuste ja elektrooniliste sõnastike) kasutamisega. Juhul, kui keeleressursse pole, nõuavad keeletehnoloogia vajadused nende loomist. Keeletehnoloogilise arendustöö ja keeleressursside loomise käigus tuleb lahendada mitmeid teoreetilisi probleeme; nii varemtuntuid kui uusi.
Keeleressursid, keeletehnoloogilised tooted ja teoreetilised probleemid on omavahel seotud. Keeleressursside põhjal luuakse tooteid, mida omakorda saab kasutada uute ressursside loomiseks. Keeleressursid on toodete loomise aluseks; keeletehnoloogiavajadused omakorda mõjutavad ressursside kogumist ning loomist. Keeletehnoloogia võimaldab keelt paremini uurida; kuid toodete loomisel kerkivad üles ka uued teoreetilised probleemid.
Dissertatsioonis kirjeldatakse tulemusi, mis on saadud eesti keele tehnoloogilises arendustöös ja sellega seotud valdkondades: keeleressursside loomisel ja teoreetiliste küsimuste lahendamisel.
Keeleressursside loomine. On loodud miljoni-sõnaline nn. eesti kirjakeele baaskorpus ja 80 000-sõnaline põhjalikult märgendatud korpus G. Orwelli "1984" põhjal; 130 000 kirjet sisaldav sõnade andmebaas ja 38 000-sõnaline keerulise struktuuriga morfoloogilise analüsaatori leksikon.
Teoreetilised küsimused. On uuritud morfoloogiliste kategooriate süsteemi, lühikese sisseütleva käände ja vokaalmitmuse kasutatavust, produktiivseid tuletisi ja liitsõnu ning sõnajärge. Uurimistulemused on rakendatud praktilistes töövahendites.
Praktilised töövahendid. On loodud morfoloogiline analüsaator, mis on m.h. mitmete kommertsprogrammide aluseks (nt. speller, poolitaja, lemmatiseerija) ja muude keeletehnoloogiliste vahendite hädavajalikuks etapiks (nt. morfoloogiline ühestaja, süntaksi analüsaator). Morfoloogilist analüsaatorit on kasutatud ka keeleressursside loomisel, nt. morfoloogiliselt märgendatud korpuse tegemisel. On loodud ka statistikal põhinev morfoloogiline ühestaja.
Abstract
The dissertation describes Estonian language technology development in 1991-1998, which has been tightly connected with creating language resources and theoretical problems in computational linguistics.
Part one, the introduction, outlines the ways language resources, linguistic tools and theoretical work are dependent on each other. It also gives a short characterization of the articles, included in the dissertation.
Part two, the background, puts the dissertation in the context of language technology and computational linguistics. It also gives a short overview of Estonian language resources before 1991.
Part three describes Estonian language resources, in creating of which the author has played an important part. These resources are:
The 1-million word corpus of Estonian literary language at the University of Tartu
The 80,000-word corpus of G. Orwell's "1984", containing rich mark-up
The lexical database of Estonian word-forms, containing 130,000 entries and 45,000 base forms
The lexicon of the Estonian morphological analyzer ESTMORF, containing 38,000 base forms and having a complex structure.
Part four describes theoretical issues in conjunction with language technology development:
The question of suitable morphological categories for computational treatment of Estonian
The usage of certain case forms (forms of the vocal plural and the short illative case) in real texts
The issue of productive derivation and compounding
Word order in conjunction with morphological disambiguation
Part 5 describes practical linguistic tools, creating of which has triggered new explorations in theoretical and practical computational treatment of Estonian: the morphological analyzer ESTMORF and a Hidden Markov Model disambiguator.
In the conclusion, the results achieved in Estonian language technology development, resource collection and theoretical explorations in conjunction of the former two are briefly outlined.
Kirjandus
Atkins, S., Clear, J., Ostler, N. (1992). Corpus Design Criteria. Literary and Linguistic Computing, kd 7, nr 1, lk 1-15.
Bel N., Calzolari N., Monachini M. (eds.) (1995). Common Specifications and Notation for Lexicon Encoding and Preliminary Proposal for the Tagsets. MULTEXT Deliverable D1.6.1B, Pisa.
Dimitrova, L., Erjavec, T., Ide, N., Kaalep, H-J., Petkevic, V., Tufis, D. (1998) Multext-East: Parallel and Comparable Corpora and Lexicons for Six Central and Eastern European languages. COLING-ACL '98, Proceedings of the Conference, Kd. 1, lk. 315-319
Eesti Keele Grammatika (1995) 1. Toim. M. Erelt; Eesti TA EKI, Tallinn.
Erjavec, T. (ed.) (1997) Sample Corpus Collection and Preparation. MULTEXT-East Final Report, D2.1 F https://nl.ijs.si/ME/CD/docs/mte-d21f/index.html
Erjavec, T., Ide, N., Petkevic, V., Véronis, J. (1996). Multext-East: Multilingual Text Tools and Corpora for Central and Eastern European Languages. Proceedings of the First European TELRI Seminar: Language Resources for Language Technology, lk. 87-98.
Erjavec, T., Lawson, A., Romary, L. (eds) (1998) East Meets West A Compendium of Multilingual Resources. TELRI Association
Erjavec, T., Monachini, M. (eds.) (1997). Specifications and Notation for Lexicon Encoding. MULTEXT-East Final Report, D1.1. https://nl.ijs.si/ME/CD/docs/mte-d11f/index.html
Hein, I. (1994). Practical realisation of the morhological analysis. Viks, Ü. (toim.) Automatic Morphology of Estonian 1. Research Report. EKI, Tallinn, lk. 29-35
Hennoste, T. (1996). Tartu University Corpus of Written Estonian: A Survey of the Structure of Texts and Principles of Selection. H. Õim (toim.) Estonian in the Changing World. Tartu, lk. 7-32
Ide, N. (ed.) (1996): Language-Specific Resources. MULTEXT-East Intermediate Report, D1.2. https://www.lpl.univ-aix.fr/projects/multext-east/MTE2.html
Ide, N., J. Véronis. (1994). MULTEXT (Multilingual Tools and Corpora). Proceedings of the 14th International Conference on Computational Linguistics, COLING'94, Kyoto, Japan 1994, lk. 90-96.
Ide, N., Priest-Dorman, G., Véronis, J. (1996). Corpus Encoding Standard. https://www.cs.vassar.edu/CES/
Kaalep, H-J. (1996) ESTMORF, a Morphological Analyzer for Estonian. Kogumikus H. Õim (toim.) Estonian in the Changing World. Tartu, lk. 43-98
Kaalep, H-J. (1997) An Estonian Morphological Analyser and the Impact of a Corpus on Its Development. Computers and the Humanities 31: lk. 115-133
Kaalep, H-J. (1998) Tekstikorpuse abil loodud eesti keele morfoloogiaanalüsaator. Keel ja Kirjandus 1/1998, lk 22-29
Kaalep, H-J., Prillop, R., Ehasalu, E. (1998). The Role of Internet in Creating, Financing and Integrating Language Resources. Proceedings of the First International Conference on Language Resources and Evaluation, Granada, Kd. 2, lk 1149-1152
Kaalep, H-J., Vaino, T. (1998) Kas vale meetodiga õiged tulemused? Statis t k a l e t u g i n e v e e s t i k e e l e m o r f o l o o g i l i n e ü h e s t a m i n e . K e e l j a K i r j a n d u s 1 / 1 9 9 8 , l k 3 0 - 3 8
K a s i k , R . ( 1 9 8 4 ) E e s t i k e e l e t u l e t u s õ p e t u s : õ p p e v a h e n d e e s t i f i l o l o o g i a j a ~u r n a l i s t i k a o s a k o n n a ü l i õ p i l a s t e l e . 1 . S u b s t a n t i i v i t u l e t u s . T R Ü , T a r t u .
K a s i k , R . ( 1 9 9 2 ) E e s t i k e e l e t u l e t u s õ p e t u s : õ p p e v a h e n d e e s t i f i l o l o o g i a j a ~u r n a l i s t i k a o s a k o n n a ü l i õ p i l a s t e l e . 1 . A d j e k t i i v i - j a a d v e r b i t u l e t u s . T R Ü , T a r t u .
K a s k , A . ( 1 9 6 7 ) L i i t s õ n a d j a l i i t m i s v i i s i d e e s t i k e e l e s . E e s t i k e e l e g r a m m a t i k a 3 . 1 . , T a r t u , 1 9 6 7
K o s k e n n i e m i , K . ( 1 9 8 3 ) Two-level Morphology: A General Computational Model for Wordform Recognition and Production. Publications of the Dept. Of General Linguistics, University of Helsinki, 11
Kull, R. (1967) Liitnimisõnade kujunemine eesti kirjakeeles. Dissertatsioon filoloogiakandidaadi kraadi saamiseks. ENSV TA KKI, Tallinn.
Källgren, G. (1996) Linguistic Indeterminacy as a Source of Errors in Tagging. COLING-96 proceedings, Copenhagen, 2. kd, lk 676-680.
Lattik, V. (1983) Mihklipäeval. Mihklikuul. Eesti Raamat, Tallinn, lk. 4-10.
Monachini M., N. Calzolari (1995). Synopsis and Comparison of Morphosyntactic Phenomena Encoded in Lexicons and in Corpora and Application to European Languages. EAGLES document EAG-LSG-T4.6/CSG-T3.2, Pisa.
Muischnek, K. (1998) Korpused ja nende kasutamine. Magistritöö, Tartu
Orwell, G. (1990) 1984, tlk. Elias Treeman. Loomingu Raamatukogu, Perioodika, Tallinn.
Peebo, J. (1997) Eesti keele muutkonnad. Tartu Ülikooli Kirjastus, Tartu.
Priest-Dorman, G., Erjavec, T., Ide, N., Petkevic, V. (1997): Corpus Markup. MULTEXT-East Final Report, D2.3 F https://nl.ijs.si/ME/CD/docs/mte-d23f/index.html
Puolakainen, T. (1998) Eesti keele kitsenduste grammatika morfoloogiline ühestaja. Keel ja Kirjandus 1, lk. 37-46
Sperberg-McQueen, C.M., Burnard, L. (eds.) (1994). Guidelines for Electronic Text Encoding and Interchange. Kd. I-II. ACH, ACL, ALLC. Chicago and Oxford.
Tael, K. (1988) Sõnajärjemallid eesti keeles (võrrelduna soome keelega). Preprint KKI-56, Tallinn.
Valgma, J., Remmel, N. (1970) Eesti Keele Grammatika. Valgus, Tallinn
Viks, Ü. (1992) Väike vormisõnastik I. Sissejuhatus & grammatika; II. Sõnastik & lisad. Tallinn.
Vuotilainen, A., Heikkilä, J., Anttila, A. (1992) Constraint Grammar of English. A Performance-Oriented Introduction. Univ. of Helsinki, Dept. of General Linguistics, No. 21
Yli-Vakkuri, V. (1993) Tutkimushanke Itämeren piirin kielten kieliopillinen vertailu. Studia comparativa linguarum orbis Maris Baltici. Yli-Vakkuri, V. (toim.) Studia comparativa linguarum orbis Maris Baltici I. Tutkimuksia syntaksin ja pragmasyntaksin alalta. Turku, lk. 9-12.
Elulookirjeldus
Heiki-Jaan Kaalep
Kodakondsus: Eesti
Sündinud: 19. mail 1962 Tallinnas
Abielus, 2 last
Aadress: Vaba 19, Tartu
Telefon: (27) 375 942
E-mail: hkaalep@psych.ut.ee
Haridus
1969-1980 Tallinna 44. Keskkool
1980-1985 Majandusküberneetika eriala TRÜ-s
1985-1988 TRÜ statsionaarne aspirantuur
1992 TÜ informaatikamagister
Erialane enesetäiendus
Õppevisiit Stockholmi Ülikooli arvutilingvistika osakonda tutvumaks korpuste alal tehtava tööga ja arvutilingvistikas kasutatava tarkvaraga Stockholmis, Rootsis 16 - 22. mai 1994
Õppevisiit Helsingi Ülikooli üldkeeleteaduse osakonda tutvumaks korpuste alal tehtava tööga ja arvutilingvistikas kasutatava tarkvaraga Helsingis, Soomes 31. oktoober - 5. november 1994
Osavõtt LSP-uurimise suvekoolist Gillelejes, Taanis, 14-22. juuni 1995
Erialane teenistuskäik
1985-1991 TRÜ tehisintellekti labori teadur
1991-1992 TÜ tehisintellekti labori juhataja
sept. 1993 - märts 1994 0,5 lektor TÜ majandusteaduskonna majandusinformaatika ja -modelleerimise instituudis
al. 1992 teadur TÜ eesti filoloogia osakonna üldkeele- teaduse õppetooli juures
Teadustegevus
Arvutilingvistika (morfoloogia, korpuslingvistika, keeletehnoloogia); 23 publikatsiooni.
Curriculum Vitae
Heiki-Jaan Kaalep
Citizenship: Estonian
Born on May 19th, 1962 in Tallinn
Married, 2 children
Address: Vaba 19, Tartu
Telephone: (27) 375 942
E-mail: hkaalep@psych.ut.ee
Education
1969-1980 School No. 44, Tallinn
1980-1985 The State University of Tar O U h i q r ¼ ½ Ē Č ā ć ä å ę ē š ń
! ; < = > ? I J d õšõģõŲČŲŗ¬ŗ¬¬ŗ¬s¬j¬¬Y¬j¬¬ jś h½VØ UmH nH u h
EF mH nH u j} h½VØ UmH nH u h½VØ mH nH uh
EF h
EF mH nH sHu j h½VØ UmH nH u j h½VØ UmH nH u h
EF h½VØ mH nH sHuh½VØ OJ QJ mH%nH sH%tH 'j h½VØ OJ QJ UmH%nH sH%tH h½VØ h½VØ 5h
EF h½VØ mHsH! O P Q R S T U h i ¾ ē @ i Ė
8
ŗ
ų
2 n ¹ X ż ų ų ų ų ų ų ż ö ō ī ī ī ī ī č ā ā ā č ā ā ī č č č
Ę ¤
Ę ¤
Ę ¤
$a$ % Ó« ī« żż d e f g h { | Ŗ « Å Ę Ē É Ź Ė é ź
2
3
4
6
7
h
i
ļįŲįĻįĻ¾įŲįĻįĻįŲįĻįįįįoįįį jk h½VØ UmH nH u h
EF h
EF mH nH sHu jī h½VØ UmH nH u h
EF h½VØ mH nH sHu jq h½VØ UmH nH u jō h½VØ UmH nH u h½VØ mH nH uh
EF mH nH uj h½VØ UmH nH u jw h½VØ UmH nH u$
“
µ
¶
ø
¹
×
Ų
ņ
ó
ō
ö
÷
, - . 0 1 2 M N h i j l m ³ ļįÓįÅįÅ“įÓįÅįÅ£įÓįÅįÅįÓįÅįxįoįį h
EF mH nH u jÜ h½VØ UmH nH u h½VØ mH nH u j_ h½VØ UmH nH u jā h½VØ UmH nH u je h½VØ UmH nH u h
EF h½VØ mH nH sHuh
EF h
EF mH nH sHuj h½VØ UmH nH u jč h½VØ UmH nH u$³ “ µ · ø ¹ ī ļ
7 8 R S T V W h i “ µ ¶ ø ¹ Ē Č ā ļįŲįĻĮįĮ°į¢įĮįĮį¢įĮįĮį¢įĮįĮoį¢įĮįĮ jM h½VØ UmH nH u jŠ h½VØ UmH nH u jS h½VØ UmH nH u h
EF h
EF mH nH sHu jÖ h½VØ UmH nH u h
EF h½VØ mH nH sHuh½VØ mH nH uh
EF mH nH uj h½VØ UmH nH u jY h½VØ UmH nH u$X ŗ č $
y
§
Õ
’
* [ - Ę : Ü Õ ą į ź ė ł ł ó ķ ó ó ķ ķ ķ ķ ķ ė é ē ā ā ā ā ā ā é ē é Ū Ū
ĘÅ
&