Tartu Ülikooli arvutilingvistika uurimisrühmas on koostatud eesti üldkeele tesaurust ehk eesti wordnet'i (EstWN) alates aastast 1998. Koostajateks on olnud arvutilingvistika töörühma liikmed Kadri Vider, Heili Orav, Leho Paldre ja Neeme Kahusk prof. Haldur Õimu juhendamisel.
Ehkki tesauruses on mõisteid alles kümne tuhande ringis, näitavad katsed tekstisõnade tähenduste ühestamisega, et eesti põhisõnavara tähenduste hulk peaks olema enamuses tesauruse kirjetega kaetud.
Eesti wordneti tegemisel oleme järginud Princetoni WordNeti ja EuroWordNeti põhimõtteid.
Eesti üldkeele tesauruse loomist on toetanud Eesti Teadusfond ja Eesti Informaatikakeskus sihtprogrammis "Eesti keeletehnoloogia", samuti riikliku sihtprogrammi "Eesti keel ja rahvuskultuur" keeletehnoloogia allprojekt.
Täpsem ülevaade tesauruse struktuurist.
Wordneti elementaarosake on sünonüümirida - sünohulk (ingl. synonym set, synset), mille moodustavad ühte mõistet (concept, meaning) väljendavad sünonüümsed sõnad ja sõnaühendid. Termini sünohulk oleme loonud sellepärast, et erinevalt sünonüümisõnastiku sünonüümireast võib meie sünohulk olla ka üheliikmeline. Kui sünonüümisõnastiku eesmärgiks on kõigi võimalike keeles leiduvate sünonüümide esitamine, siis meie töö eesmärgiks on mõistete esitamine, ka siis, kui selle väljendamiseks keeles leidub ainult üks leksikaalne üksus.
Wordnet-tüüpi tesaurust eristavaks tunnuseks on ka sünohulki ühendavad erinevad semantilised seosed, peamiselt hüpo- ja hüperonüümia, antonüümia, osa-terviku suhted, põhjuslikkus- ja rollisuhted, tuletus- ja gradatsioonisuhted jpm, ühtekokku ligi 60 erinevat seosetüüpi.
Leksikaalselt põhineb loodav tesaurus olemasolevatel traditsioonilistel sõnaraamatutel (peamiselt Eesti Kirjakeele Seletussõnaraamatul) ja tekstikorpusel (mis annab teavet sõnakasutusest), seega võib semantilist informatsiooni, mida andmebaas sisaldab, pidada keelelisel teadmisel põhinevaks.
Sünohulki on eesti wordnetis hetkel kümne tuhande ringis - põhiliselt substantiivi- (66%) ja verbimõisted (27%), kuid vähesel hulgal ka adjektiive ja pärisnimesid. Semantilisi seoseid on ühel sünohulgal rohkem kui kaks, domineerivad hüpo- ja hüperonüümiasuhted.
Veebipäringu kaudu on võimalik praegu ligi pääseda ainult osale tesauruses olevast informatsioonist. Näha saab sünohulka ennast, selle seletusi ja näiteid, ning võimaluse korral ka ülemmõistet ehk hüperonüümi.
Kogu võimalusterikas muude semantiliste seoste hulk ja eesti sünohulkade lingid sarnasesse baasi inglise keeles jäävad hetkel päringu kaudu kätte saamata, kuid tervikandmebaasi "inimloetavat" tekstivarianti võib saada koostajatelt.
Artiklid
Aruanded
Magistritööd
Viited kirjandusele