Eelmine teema   Tagasi sisukorda   Järgmine teema


8. Korpuste kasutamine keele uurimisel

Korpuste puhul on lingvistide jaoks suuremaks ja töömahukamaks osaks korpuse tegemine. Kui korpus on valmis, siis on selle kasutamine keeleteadlase igapäevatöö osa. Vahetult aga lihtsustab korpus vaid töö üht etappi - materjali hankimist - ning tagab süstemaatilisuse ja autentsuse keele selle osa ulatuses, mida korpus haarab.

 

Korpused leksikoloogias ja leksikograafias

(Vt ka kursuse "Arvutileksikoloogia" teemat "Arvutileksikoloogia ajalugu ja põhimõisted: Leksikonid ja korpused".)

Korpusi kasutati leksikograafias juba ammu enne arvutiajastut ja nüüd on lihtne elektroonilisel kujul olevatest tekstidest leida rohkesti näiteid illustreerimaks konkreetse sõna kasutust, konteksti jne. Korpuste ja teiste elektrooniliste tekstikogude kasutamine leksikograafias on andnud mitmeid uusi võimalusi, nagu:

 

Korpused ja morfoloogiline ning süntaktiline uurimistöö

Morfoloogia ja süntaksi uuringud ongi kõige sagedasemad korpustel baseeruvad lingvistilised uuringud peale leksikoloogiliste. Korpus on morfoloogiliste ja süntaksiuuringute jaoks sobiv tööriist, kuna:

Ka on automaatse morfoloogilise ja süntaktilise analüüsi areng muutnud korpused endiselt paremini kasutatavateks kvantitatiivsete andmete allikateks. Üldse on korpuste baasil loomulikult tehtud üsna palju kvantitatiivseid uuringuid, nii ka morfoloogia ja süntaksi vallas.

 

Korpused suulise kõne uurimisel

Suulise kõne korpuse tähtsus suulise keele uurimisel:

 

Korpused ja semantika

Korpuslingvistika peamine panus semantikasse on olnud sellise lähenemise võimaldamine, mis on objektiivne ja arvestab ka ebamäärasust.

Teine korpuslingvistika panus semantikasse on olnud nn uduste kategooriate hüpoteesi tõestamine. Nimelt kirjeldatakse teoreetilises lingvistikas semantilisi kategooriaid sageli kindlapiirilistena - sõna kas kuulub sinna või mitte. Siiski paistab, et kognitiivsed kategooriad kalduvad olema pigem udused ja hajuvad, mida ka korpuseandmete analüüs tõestab.

Näiteks Göteborgi Ülikoolis on käsil sõnade semantilise analüüsi alale kuuluv projekt. Töö vahetu eesmärk on suure tähenduskirjega varustatud sõnadest koosneva sõnamassi teisendamine nn formaalseks leksikoniks, kus sõnad oma tähenduskirjelduste kaudu oleksid kindlates seostes. Sõnade tähenduste kirjeldused moodustavad siin korpuse (selles on kirjeldatud üle 150 000 sõnavormi). Projekti esimene ülesanne on esitada tähenduste kirjeldused, mis ju tüüpiliselt on loomuliku keele fraasid, formaalsete süntaktiliste struktuuridena (konkreetselt sõltuvuspuudena). See vastab enam-vähem korpuse süntaktilisele märgendamisele. Kuid et tegu on sõnade tähenduste kirjeldusega, on tulemuseks semantika seisukohalt vägagi suurt huvi pakkuv semantiline võrk. Selle võrgu töötlemine ja uurimine, semantiliste klasside, hierarhiate või ahelate väljatöötamine on projekti kaugem ja põhiline eesmärk.

 

Korpused ja pragmaatika & diskursuse analüüs

Siin on korpustel baseeruv uurimistöö siiamaani suhteliselt väikesemahuliseks jäänud, peamiselt selle tõttu, et need uuringud baseeruvad kontekstil, korpuse tekstid kalduvad siiski olema oma tekstuaalsest ja sotsiaalsest kontekstist lahti kistud. Mõnikord on korpusteksti päises või mujal märgitud autori/kõneleja sugu, sotsiaalne ja regionaalne kuuluvus, kuid mitte alati.

Näiteks on Lundi Ülikoolis käivitatud programm uurimaks mitmesuguseid inglise keele nn suhtlusväljendeid (conversational phrases). Allikaks on London-Lundi kõnekeelekorpus. Mõeldud on põhiliselt modaalse sisuga väljendeid, mille põhifunktsioon on diskursuse organiseerimine, suunamine, näiteks dialoogis järgneva vooru sissejuhatamine. Korpuse olemasolu võimaldab süstemaatiliselt uurida selliste organiseerivate väljendite esinemist erinevates diskursusetüüpides, erinevates situatsioonides, nende sõltuvust muudest faktoritest, nende omavahelisi korrelatsioone. Korpuse kasutamise peamine efekt seisneb siin materjali operatiivses kättesaamises.

 

Korpused ja sotsiolingvistika

Sotsiolingvistika on sarnaselt diakroonilise keeleteadusega, dialektoloogia ja stilistikaga toetunud rohkem spetsiaalselt antud uurimistöö tarbeks kogutud materjalile kui mõnele üldisema suunitlusega korpusele. Enamus sotsiolingvistika korpusega seotud projekte on olnud leksikoloogilised uurimused soo ja keelekasutuse seoste alal.

 

Korpused ja tekstiteooria

Näiteks Douglas Biber on tegelnud tekstide tüpoloogiaga, lähtudes mitte nende sisulisest või funktsionaalsest tüübist, vaid teatavate iseloomulike keeleliste (leksikaalsete, süntaktiliste) tunnuste koosesinemisest tekstides, s.o puhtal kujul objektiivsel keelelisel alusel. Analüüsitud on 481 kirjalikku ja kõnekeeleteksti (valitud LOB-ist ja LOB-ist ja London-Lundi korpusest) 67 erineva keelelise tunnuse koosesinemise seisukohalt: teatavad leksikaalsed sõnaklassid, prepositisioonifraasid, passiivi erinevad tüübid, kõrvallausete tüübid, eituse väljendusvormid jne. Faktoriaalanalüüsi põhjal on nende vormide koosesinemise analüüsi põhjal identifitseeritud viis tekstuaalset dimensiooni, mida on võimalik ka sisuliselt interpreteerida. Dimensioonid on skaalad, kuhu erinevad tekstid teatud kindlal viisil paigutuvad. Niimoodi saadaksegi tekstide tüpoloogia, mis Biberi järgi esindab ehtsat lingvistilist klassifikatsiooni, s.o baseerub keelelistel tunnustel.

 

Korpused ja stilistika

Stiiliuurijad on tavaliselt enam huvitatud ühest konkreetsest tekstist kui keeles valitsevatest üldisematest seaduspärasustest. Siiski, vahel on stilistide uurimisobjektiks ka nt žanr ja siis on korpus osutunud heaks andmete allikaks.

 

Korpused ja keele ning lingvistika õpetamine

Korpusest võetud näidete kasutamine keeleõppes on oluline, sest need tutvustavad õppurit juba varakult selliste lausekonstruktsioonide ja sõnavaraga, milliseid õpitava keele kõnelejad tegelikult kasutavad.

Ka on mitmed keeleõpetamisega tegelevad pedagoogid on kasutanud korpuste andmeid selleks, et kriitilise pilguga läbi vaadata olemasolevad keeleõpikud. Näiteks on uuritud hulga ja sageduse väljendamist, kahtluse ja kindluse väljendamist ja tuleviku väljendamist võrdlevalt inglise keele õpikutes ja sellistes korpustes nagu LOB ja LOB ja London-Lundi korpus. Selgus, et eksisteerivad tõesti selged erinevused selle vahel, millist keelt õpikud õpetavad ja millist keelt antud keele valdajad räägivad. Järelikult oleks mõistlik kasutada korpusi õppematerjali ettevalmistamisel, nii et õppetöös pöörataks rohkem tähelepanu enamkasutatavatele konstruktsioonidele.

On koostatud ka spetsiaalseid korpusi erialase keele õpetamise tarbeks - nt Guangzhou Petroleum English Corpus (411 000 sõna).

Korpusi saab edukalt kasutada ka lingvistika õpetamisel. Näiteks Lancasteri Ülikoolis on kasutusel süsteem, mis loeb sisse morfoloogiliselt või süntaktiliselt analüüsitud korpusest ühe lause korraga, näitab ainult lauset, mitte märgendeid ning üliõpilasel endal tuleb lause märgendada.

Selle teema kohta võib lugeda ka Corpora in the Teaching of Languages and Linguistics.

Web pages to be used to supplement the book "Corpus Linguistics". Published by Edinburgh University Press. ISBN: 0-7486-0808-7 (cased) and 0-7486-0482-0 (paperback). Written by: Tony McEnery and Andrew Wilson.

 

Korpused diakroonilises keeleteaduses

Empiiriline töö tekstidega on diakroonilise lingvistika jaoks vältimatu. Diakroonilist lingvistikat võib koguni vaadelda korpuslingvistika ühe alaliigina, kuna teatud perioodist pärinevad kirjalikud allikad moodustavad omamoodi suletud korpuse. Ja näiteks enamus antiikkreeka kirjanduslikke tekste ongi viidud korpusse Thesaurus Linguae Graecae. Kõige enam tuntud diakrooniline inglise keele korpus on Helsinki Corpus.

 

Korpused dialektoloogias

Korpused on osutunud väga heaks abinõuks keelelise varieeruvuse uurimisel. Ka on korpuste koostamisel sageli püütud silmas pidada just keelelise varieeruvuse uurimise eesmärke (nt The International Corpus of English). Näiteks on Browni ja LOB-i korpuste põhjal uuritud võrdlevalt sõnasagedusi briti ameerika inglise keeles, näidates, et eksisteerivad mitmed erinevused nende kahe inglise keele variandi vael. Järgnevalt on uuritud ka mitmeid keerukamaid keele aspekte, nagu näiteks konjunktiivi kasutamist.

Kui rääkida dialektide uurimisest, siis on maailmas üsna vähe dialektide korpusi. Näiteks on Helsinki Corpus of English Dialects ja John Kirk's Northern Ireland Transcribed Corpus of Speech. Mõlemad korpused sisaldavad murderääkija spontaanseid vestlusi murdekogujaga.

Dialektoloogia on selgelt empiiriline teadus, kui siiani on uurimistegevus kontsentreerunud pigem sõnavarale ja hääldusele kui näiteks süntaksile. Korpuste kasutamine võimaldab sellest puudujäägist üle saada.

 

Kokkuvõtteks

Korpuste kasutamise peamised eelised seisnevad järgnevas.

  1. Kuna korpuse tekstivalimid on valitud nii, et korpus oleks võimalikult representatiivne, võib nende valimite põhjal saadud tulemusi pidada üldiselt kehtivateks.
  2. Uurimismaterjal on kättesaadav vähesema jõu- ja eriti ajakuluga.
  3. Paljud korpused ei sisalda enam ainult puhtaid tekste, vaid tekstidele on lisatud mitmesugust grammtailist infot, seega saab päringutele täpsemaid vastuseid.
  4. Korpuse, eriti suulise korpuse keel on just selline, nagu seda tegelikult kasutatakse.

Tagasi peatüki algusse