Eelmine teema   Tagasi sisukorda   Järgmine teema


9. Korpused ja arvutuslingvistika

Arvutuslingvistika on viimase kümne aasta jooksul läbi teinud suure muutuse. Varem püüti luua peamiselt selliseid süsteeme, mille puhul püütakse mingi ülesande lahendamisel kasutada samasuguseid meetodeid, nagu inimene ülesannet lahendades ise kasutaks (cognitively plausible systems). Sellised süsteemid koosnevad tavaliselt suurest hulgast inimese poolt loodud reeglitest, mis püüavad kirjeldada inimese teadmist antud valdkonnast. Viimasel ajal on populaarseks saanud sellised süsteemid, mis ei arvesta kuigivõrd lingvistiliste teadmistega, vaid kasutavad abstraktset statistilist modelleerimist kirjeldamaks ja tuvastamaks keele struktuuri. (cognitively implausible systems). Korpused ja ka lihtsalt tekstikogud on vajalikud mõlemat tüüpi süsteemide koostamiseks ja testimiseks, olgu need lihtsad morfoloogilise analüüsi süsteemid või siis masintõlkesüsteemid. Põhimõtteliselt saab nn inimlikke meetodeid kasutava süsteemi luua ka ainult grammatikakirjeldustele tuginedes, kuid statistikal baseeruvate süsteemide loomiseks on korpuse olemasolu vältimatu tingimus, sest vajalike statistilise tõenäosuse ahelate arvutamiseks läheb tüüpiliselt vaja väga suurt tekstihulka, nii et varem need meetodid ei olnudki praktiliselt võimalikud. Olenevalt kasutatavast formalismist saab sellel eesmärgil kasutada kas märgendamata või märgendatud korpust. Siiski ei või väita, et jagunemine ‘inimlikeks’ ja ‘statistilisteks’ süsteemideks oleks absoluutne. Sageli need kaks lähenemisviisi kombineeruvad, näiteks sisaldab inimese poolt loodud reeglitel baseeruv keeleanalüüsisüsteem sageli ühe osana abstraktsel statistilisel modelleerimisel baseeruvat süsteemi.

Vaatleme lähemalt korpuste kasutamist automaatses morfoloogilises ja süntaktilises analüüsis.

 

Korpuste kasutamine automaatsete morfoloogiliste analüsaatorite väljatöötamisel

Automaatne morfoloogiline analüüs koosneb tavaliselt kahest etapist (1) sõnadele kõigi võimalike morfoloogiliste analüüside lisamine ja (2) nende analüüside hulgast antud kontekstis õige väljaselgitamine. Analüüsi teist etappi nimetatakse morfoloogiliseks ühestamiseks ja selle ülesande lahendamiseks on loodud mitmeid nii inimese poolt koostatud reeglitel baseeruvaid kui ka abstraktsel statistilisel modelleerimisel baseeruvaid süsteeme

Morfoloogiline analüüs on sageli tekstide keelelise analüüsi 1. samm. Korpusi vajatakse kõige rohkem empiiriliste tõenäosuslike analüsaatorite jaoks, õigemini küll kõige enam morfoloogilise ühestamise etapil. Sageli aga on empiirilise statistilise süsteemi ‘treenimiseks’ vaja juba (käsitsi) märgendatud korpust.

Korpuse abil saab koostada morfoloogiliseks analüüsiks ja ühestamiseks vajaminevaid leksikone, statistikal baseeruva morfoloogilise ühestaja jaoks vajaminevaid andmeid saab samuti korpusest. Ja näiteks kasutasid Brill ja Marcus korpust ka oma märgendite süsteemi (tagset) loomiseks.

 

Korpuste kasutamine automaatses süntaksianalüüsis

(Vt ka kursus "Sissejuhatus arvutuslingvistikasse" teema "Sissejuhatus arvutuslingvistikasse" teema "Süntaksianalüüs: Süntaktiline ühestamine. Statistilised meetodid."

Automaatne süntaksianalüsaator peaks suutma:

  1. identifitseerida sõnad lauses,
  2. anda neile sõnadele korrektne süntaktiline kirjeldus,
  3. grupeerida need sõnad mingitesse kõrgema tasandi üksustesse (tavaliselt fraasid ja osalaused) ja
  4. anda neile üksustele nimed.

Automaatne analüüs võib baseeruda inimese poolt loodud reeglitel, statilisel modelleerimisel või kahe eelneva lähenemise ühendamisel. Statistikal baseeruvad analüüsimeetodid vajavad korpusi oma süsteemide ‘treenimiseks’ s.o vajalike tõenäosuste arvutamiseks. Inimese poolt loodud reeglitel baseeruvad süsteemid vajavad korpuse tekste oma reeglite testimiseks ja ka uute reeglite jaoks vajalike seoste leidmiseks.

 

Korpused ja leksikograafia

(Vt ka kursuse "Arvutileksikoloogia" teemat "Arvutileksikoloogia ajalugu ja põhimõisted: Leksikonid ja korpused".

Korpuste baasil võib luua:


Tagasi peatüki algusse