Tagasi sisukorda   Järgmine teema


1. Mis on korpuslingvistika ja mis on korpus

Korpuslingvistika lihtsaim definitsioon on järgmine: see on keeleuurimismeetod, mis baseerub tegelikust keelekasutusest - s.o korpusest - pärit keelenäidetel. Korpuslingvistikaks nimetatakse distsipliini, mis tegeleb korpuste koostamispõhimõtete ja rakendusvõimalustega. Niisiis mõeldakse korpuslingvistika all tavaliselt arvutuslingvistika seda osa, mis tegeleb korpustega.

 

Mis on korpus?

Keeleteaduses on sõna korpus all tavaliselt mõeldud keeleainese kogumikku, mida kasutatakse uurimistöös materjalina. Oxford English Dictionary: The body of written or spoken material upon which a linguistic analysis is based.

David Cristal, Dictionary of Linguistics and phonetics: A collection of linguistic data, either written texts or a transcription of recorded speech, which can be used as a starting-point of linguistic transcription or as a means of verifying hypotheses about a language.’

Arvutiajastul on korpusena hakatud mõistma peamiselt polüfunktsionaalseid elektroonilisel kujul olevaid tekstikogusid.

Stig Johansson, COBUILDi korpuse projekti juht, defineerib korpust järgnevalt: A collection of naturally occurring language text, chosen to characterize a state or variety of a language

Seega mõeldakse tänapäeva arvutiajastul korpuse all peamiselt polüfunktsionaalseid elektroonilisel kujul olevaid tekstikogusid, millesse kuuluvad tekstid on valitud eesmärgipäraselt, nii et nendest koosnev tervik annaks tõepärase pildi kogu keelest.

Rangema definitsiooni järgi võib korpuseks nimetada vaid sellist arvutisse viidud tekstide kogumit, mis valitud teatud kindlate kriteeriumite alusel. Vabam tõlgendus lubab nimetada korpuseks igasugust elektroonilisel kujul esinevat tekstikogumit. Seda viimast võib nimetada ka tekstoteegiks või tekstiarhiiviks. Sellistesse tekstikogumitesse ei ole tekste valitud kindlaid põhimõtteid või eesmärke silmas pidades, vaid neid on kogutud selleks, et kasutaja võiks talletatud tekstide hulgast teha valikuid vastavalt oma vajadustele.

Vt ka Section two: What is a Corpus and what is in it by Tony McEnery and Andrew Wilson

 

Kus korpuseid kasutatakse?


Tagasi peatüki algusse