Arvutileksikoloogia kursus: 4

Eelmine teema Tagasi sisukorda Järgmine teema

4. Arvutileksikonide tüübid

4.2 Leksikaalsed andme- ja teadmisbaasid

4.1 Arvutisõnastikud (machine readable dictionaries)

Arvutisõnastik siinses mõttes on raamatuna kasutamiseks mõeldud sõnastiku arvutivariant. See võib olla ükskeelne sõnastik, nt. Seletav sõnaraamat, sünonüümi- või antonüümisõnastik, see võib olla ka kakskeelne sõnastik. Tüüpiliselt peetakse arvutisõnastikest rääkides siiski silmas ükskeelsete seletussõnaraamatute elektroonilisi variante, nagu näiteks Longman Dictionary of Contemporary English (LDOCE) või Oxford Advanced Learner´s Dictionary of Current English.

Selline sõnastik esitab iga sõna kohta (täpsemini sõnastikuüksuse kohta, sest see võib olla ka mitmesõnaline) tüüpiliselt ortograafilist ja foneetilist, grammatilist (morfoloogilist, süntaktilist) ning semantilist infot. Lisaks sellele võidakse esitada andmeid sõna kasutussfääri kohta, nt kas on tegemist formaalse stiili, kõnekeele või slängiväljendiga jne.

Arvutisõnastik ei ole siiski vaid arvutisse viidud sõnaraamatu tekst. Sõnastikuartikli erinevad funktsionaalsed osad (märksõna ise, grammatiline info, seletus, näited) peavad olema formaalselt identifitseeritavad, nt varustatud spetsiifiliste märgenditega. Just tänu sellisele liigendusele on sõnastikus esitatud materjal ka “arvuti poolt loetav” ning mitte ainult inimese poolt kasutatav raamatu asendajana. Arvuti abil võidakse analüüsida sõnastikuartikli erinevaid osi eraldi, nt seletusi, näiteid, grammatilist infot, ja teha selle põhjal mitmesuguseid järeldusi keele leksikaalse struktuuri kohta. Aga ühtlasi on niisugune liigendus vältimatu eeldus selleks, et arvutisõnastiku põhjal automaatselt, võimalikult väikese käsitsitööga konstrueerida leksikaalseid andme- ja teadmisbaase.

4.2 Leksikaalsed andme- ja teadmisbaasid

Kirjandus: [7], [8], [9]

Arvutisõnastikus jääb suur osa selles faktiliselt sisalduvast infost siiski implitsiitseks.

Leksikaalse andmebaasi all seevastu mõistetakse arvutileksikoni, kus nii selles sisalduvad andmed kui ka selle struktuur on esitatud täiesti eksplitsiitselt ning tänu sellele on võimalik koostada paindlikult liigendatud päringuid, määratledes otsitava info positsiooni andmestruktuuris.

Leksikaalsete andmebaaside koostamisel on maksimaalselt püütud ära kasutada olemasolevaid arvutisõnastikke. On konstrueeritud spetsiaalseid parsereid, mis sõnastiku tüpograafilisi ja muid märgendusviise kasutades, aga ka sõnaseletusi otseselt analüüsides teisendavad sõnaartikli esituse eksplitsiitseks andmestruktuuriks.

Toome ühe lihtsa näite. Inglise keele sõna (to) censor ´tsenseerima´ tähenduse seletus on LDOCE-s esitatud järgmiselt.

Censor /.../ V 1 to examine (books, films, letters, etc.) with the intention of removing anything offensive

Selle teisendamisel andmebaasistruktuuri saadakse skemaatiliselt järgmine struktuur.

entry ± homograph ± word: censor
...
± syncat: V
...
± sense_def ± defn ± par_string: books, films, letters, etc.
± defn_string: to examine (books, films, letters, etc.) with the intention of removing anything offensive

LDOCE tähenduse seletuses on sulgudes osutatud, mis võib tüüpiliselt olla verbi to examine, seega ka to censor objektiks. Andmebaasiesituses on see info eraldi välja toodud tunnuse par_string väärtusena. Niisamuti on info võimalike objektide kohta välja toodud teiste sihiliste verbide kirjetes. Ning seda asjaolu kasutades võib näiteks LDOCE andmebaasile esitada – vastavas päringuformaadis – päringu, mille sisu on: “mida võidakse teha raamatutega?”. Vastusena saame loetelu verbidest, mille objektipositsioonis esineda võivate (tüüpiliste) sõnade loetelus esineb book: anntotate, censor, consult, compile, (vt [8]). Uurija võib teda huvitavaid tunnuseid kombineerides niimoodi hankida andmebaasist mittetriviaalset semantilist infot, mida tavalisest arvutisõnastikust on praktiliselt võimatu kätte saada.

Viimasel ajal on leksikaalsete andmebaaside kõrval üha enam hakatud rääkima ka leksikaalsetest teadmisbaasidest. Termini sisu ei ole siiski üheselt selge, erinevad autorid kasutavad seda erinevalt. Erinevused, mida leksikaalsete andmebaasidega võrreldes siiski enim rõhutatakse, seisnevad järgnevas.

Inimeste teadmised sõnadest ei piirdu iga üksiku sõna grammatiliste omaduste ja tähenduse tundmisega. Inimesed on suutelised tegema üldistusi ja järeldusi, kasutama sõnu – nagu keelt tervikuna – loovalt. “Me rõhutame, et üks peamisi erinevusi leksikaalsete teadmisbaaside ja leksikaalsete andmebaaside vahel on esimeste võime esile tuua üldistusi ja tuletada järeldusi. Leksikaalne andmebaas … võimaldab lihtsalt esitada andmeid sõnahaaval ning teeb võimalikuks nende andmete otsimise.” [9, lk. 327]. Näiteks on inimese jaoks tavaline, et sõnad nagu klaas, kruus, kann võivad tähistada mitte ainult teatud nõusid, vaid ka vedeliku kogust, mis neisse mahub. See on kogu vastava semantilise sõnaklassi üldine omadus ja vastavalt peaks selline üldistus – selle võimalikkus – ka arvutileksikonis kajastuma. Leksikaalne andmebaas seda ei võimalda.

Missuguse teoreetilise mudeli raames ja missuguste tehniliste vahenditega leksikonile sellised omadused tagada, on aga täielikult veel diskussioonide objekt.

Konkreetse leksikaalse andmebaasi projekti näitena võib osutada Euroopa Komisjoni poolt rahastatud projekti AQUILEX, milles osalesid viie maa (Inglismaa, Hollandi, Itaalia, Hispaania ja Iirimaa) teadlased [7]. Selle raames tegeldi nii arvutisõnastikes sisalduvate andmete teisendamisega leksikaalseteks andmebaasideks kui ka formaalsete esitus- ja töötlusvahendite väljatöötamisega.

4.3 Semantilised andmebaasid

Ka semantilised andmebaasid on tegelikult leksikaalsete andmebaaside alaliik selles mõttes, et tegeldakse tüüpiliselt sõnadega. Kuid semantilistes andmebaasides on põhirõhk sõnade tähenduste ja eriti sõnadevaheliste semantiliste seoste kajastamisel.

Näitena vaatleme USAs Princetoni ülikoolis loodud andmebaasi WordNet ning selle eeskujul Euroopa Komisjoni rahastamisel loodavat mitmekeelset andmebaasi WordNet ning selle eeskujul Euroopa Komisjoni rahastamisel loodavat mitmekeelset andmebaasi EuroWordNet.

WordNet [WordNet [10], mille loomist alustati 1980ndate aastate keskel, oli algselt mõeldud realiseerima (ja kontrollima) teatud ideid inimese mentaalse leksikoni ehituse kohta. Eeldati, et sisend leksikoni on mitte sõnavormide, vaid tähenduste kaudu. Seetõttu on WordNet organiseeritud mitte sõnade järgi nagu tüüpiline sõnastik või leksikaalne andmebaas, vaid tähenduste järgi, kusjuures tähendused on esitatud seda tähendust väljendavate sünonüümide loendiga e. sünohulkadega (ingl. k. synsets).

Tähendused (s.o sünohulgad) on asetatud üksteisega leksikaal-semantilistesse seostesse (vt teema 2). Olulisemad WordNetis kajastatavd seosed on:

hüponüümia/hüperonüümia (nt inimene-elusolend)
troponüümia (vastab verbide puhul hüponüümiaseosele, nt kõndima-marssima)
meronüümia e. osa – tervikuseos (nt auto-rool)
antomüümia (pikk-lühike)
järgnevusseos (seob eelkõige verbide tähendusi, nt norskama-magama)

Nende seoste kaudu moodustavad sünohulgad hierarhiaid, seda eelkõige hüponüümia/hüperonüümia seose põhjal. Hierarhiad on eriti levinud nimisõnade tähendustes, vähem verbidel, veel vähem omadussõnadel. Erinevaid seoseid kombineerides võib WordNeti andmebaasist konstrueerida omavahel tähenduslikult seotud sõnarühmi, semantilisi välju, mis pakuvad suurt huvi leksikaalse semantika alasteks uuringuteks.

Kui Wordneti loomise aluseks olev idee oli algselt suhteliselt teoreetiline, siis peagi leiti, et semantilisel andmebaasil võib olla olulisi keeletehnoloogilisi rakendusi, nt infootsisüsteemides. Kui sellise otsisüsteemi andmeteks on tekstid (nt õigusaktid) ja meid huvitavad teatud teemat käsitlevad tekstid selles, siis on hoopis otstarbekam neid tekste puudutav päring vormistada mitte konkreetsete sõnade, vaid mõistete ( = tähenduste) termineis. Selleks annabki võimaluse WordNeti tüüpi semantiline andmebaas.

Eelkõige sellest ideest kantuna on Euroopa Komisjoni poolt käivitatud keeletehnoloogiaprojekt EuroWordNet.

EuroWordNeti esimene erinevus WordNetist on selle mitmekeelsus. Esindatud on inglise, hollandi, itaalia, hispaania keel, hiljem on ette nähtud keelte arvu suurendamine (eeldatavasti liitub ka eesti keel). Iga keele jaoks töötatakse välja WordNeti tüüpi semantiline andmebaas, kuid need ühendatakse omavahel keeltevahelise indeksi (interlingual index e. ILI) kaudu. Niisiis võib nt otsida samadest mõistetest lähtudes kõigis keeltes esitatud tekste.

Teiseks on välja töötatud keelest sõltumatu (ja seega kõigile keeltele ühine) nn tippontoloogia – semantiliste kategooriate hierarhiline süsteem, mis põhimõtteliselt katab ja liigendab kogu semantilise ruumi. Sõnade tähendused seotakse lõppkokkuvõttes nendega ning sellega tagatakse andmebaasi semantiline sidusus. Tinglikuks tippmõisteks on TOP, mille alaliikideks on kaks suurt tähendusklassi: FirstOrderEntity (meeltega tajutavad objektid) ja HighOrderEntity (tegevused, sündmused, abstraktsed omadused, suhted jm).

0. TOP
1.FirstOrderEntity
1.1. Functional
1.2. Group
1.3. Object
1.3.1. Animal Object
.
.
.
2. HighOrderEntity
2.1. Dynamic
2.1.1. Activity
.
.
.
jne.

Kolmandaks on Wordnetiga võrreldes hoopis detailsemalt läbi töötatud semantiliste suhete süsteem tähenduste vahel. On juurde toodud uusi seosetüüpe, näiteks funktsionaalse sisuga rolliseosed (nt sõna kool juurest läheks viit tähisega LOCATION-OF sõna õpetama juurde).

Ehkki EuroWordNeti põhilise otstarbena nähakse ette kasutust rakendussüsteemides, pakub selline andmebaas kahtlemata võimalusi ka teoreetilise iseloomuga semantilisteks uuringuteks.

Tagasi peatüki algusse