Tagasi sisukorda   Järgmine teema


1. Arvutileksikoloogia mõiste, ajalugu, põhimõisted

Kirjandus:[1], [2], [3], [4]

Leksikoloogia on keeleteaduse osa, mis tegeleb leksikonide uurimisega, sh. eriti selle elementide – leksikaalsete üksuste – olemuse, struktuuri omaduste ning nende esitamisviiside uurimisega, samuti leksikoni rolliga keelemudelites. Arvutileksikoloogia on arvutuslingvistika osa, mis tegeleb arvutite kasutamisega leksikoloogilises uurimistöös, keskendudes leksikonide arvutiesitustele, leksikaalsete andmete arvutitöötlusele ja ühelt poolt leksikoni(de) ja teisalt keeletöötlussüsteemide muude komponentide vahelistele seostele.

Leksikograafia all mõeldakse tüüpiliselt leksikaalsete üksuste kogumit ja nende kasutusviiside kirjeldamist. Tänapäeval pole tüüpilised leksikograafilised väljundid mitte ainult mitmesugused trükitud sõnastikud, vaid ka nt konkordantsid, indeksid, terminoloogiad jne. Arvutileksikograafia haarab töötlusmeetodeid ja –vahendeid, mis on loodud leksikograafiliste tööde teostamiseks või nende abivahendeiks, mille hulka kuulub nt Leksikograafilise näitematerjali kogumine mitmesugustest allikatest ja selle ettevalmistamine, relevantse lingvistilise info esitamine nt Andmebaasidena jne.

Arvutite kasutamine sõnavara uurimises ja sõnastike koostamises sai laiemalt võimalikuks pärast seda, kui 50. - 60. aastatel oli hakatud arvutisse viima suuremaid tekstikogusid, korpusi (vt Korpuslingvistika ajalugu). Koostati konkordantse ja indekseid, nt KWIC (Key Word In Context) indekseid, kus sõnade esinemused on toodud koos tekstilõiguga, kus vastav sõna esineb. Seda materjali kasutati leksikoloogilises analüüsis.

Üheks esimeseks alaks, kus osutusid piisavalt suurte tekstimaterjalide olemasolu korral väga efektiivseteks vahenditeks, oli sõnade esinemussageduste uurimine, tulemuste põhjal sagedussõnastike koostamine, aga ka sageduste põhjal mitmesuguste oluliste järelduste tegemine sõna positsiooni kohta keele leksikaalses süsteemis.

Teine liin arvutite tulekuks leksikoloogiasse ja leksikograafiasse oli otseselt sõnastike koostamine arvutil ja olemasolevate sõnastike viimine arvutikujule. Üks esimesi tuntud sõnastikke, mis koostati arvutil ja mida levitati ka elektroonilises versioonis, oli Longman Dictionary of Contemporary English ehk LDOCE (1978). Tänapäeval on see juba täiesti valitsev praktika.

Edasi, kui sõnastike elektroonilised versioonid olid kord juba olemas, leiti peagi, et neid saab edukalt kasutada nii leksikoloogilises uurimistöös kui ka mitmesuguste leksikaalsete ja semantiliste andmebaaside koostamisel. Näiteks võimaldab seletussõnaraamatutes olevate sõnaseletuste analüüs (pool)automaatselt välja selgitada semantilisi seoseid sõnade vahel, koostada sõnade semantilisi hierarhiaid, semantilisi välju kui tähenduslikult kokkukuuluvaid sõnade hulki (vt teema 4).

Arvutileksikoloogia aluseks olevad teoreetilised ideed on arenenud käsikäes keeleteooria üldise arenguga (vt teema 2). Kui näiteks generatiivse grammatika algvariandis leksikon üldse puudus, siis tänapäeval levinumates unifikatsioonigrammatikates on leksikonil keskne roll. On välja arendatud formalismid info esitamiseks leksikoni üksuste kirjetes (vt ka teema 2 ja teema 5).

Teiselt poolt on arvutileksikoloogias kasutatavate mõistete lähteks teoreetilis-lingvistilistest kontseptsioonidest suhteliselt sõltumatult arenenud uurimisala, mida tähistatakse üldnimetusega leksikaalne semantika. See on ala, kus tegeldakse leksikaalsete üksuste tähenduste olemuse, struktuuri ja omavaheliste semantiliste suhetega. Olulisimad semantilised suhted on:

Lisaks neile võidakse sõltuvalt esitatava andmestiku otstarbest ja kirjelduse detailsusest esile tuua muid seoseid, nagu näiteks mitmesugused põhjuslikkusseosed verbide tähenduste vahel: vaatama ja nägema, tapma ja surema (vt lähemalt teema 4.4????SELLIST POLE JU??????).

Tänapäeval on arvutileksikonid korpuste kõrval üks keeleressursside olulisemaid alaliike, mille loomisega tegeleb keeletehnoloogia. Nii on 90. aastatel Euroopa Liidus käivitatud keeletehnoloogiaprogrammi raames realiseeritud sellised ühe- ja mitmekeelsete leksikonide loomise projektid nagu AQUILEX, DELIS, GENELEX (vt keeleressursside olulisemaid alaliike, mille loomisega tegeleb keeletehnoloogia. Nii on 90. aastatel Euroopa Liidus käivitatud keeletehnoloogiaprogrammi raames realiseeritud sellised ühe- ja mitmekeelsete leksikonide loomise projektid nagu AQUILEX, DELIS, GENELEX (vt teema 4.2).


Tagasi peatüki algusse