Eelmine teema   Tagasi sisukorda   Järgmine teema


4. Korpuslingvistika ajalugu

Korpus on 1950-ndate aastate strukturaallingvistika põhimõisteid. Siis mõeldi selle all vastava keele (allkeele, dialekti) kasutust esindavat tekstide kogu, millele kindlaid analüüsiprotseduure rakendades võis lingvist tuletada selle keele grammatika. Zelling Harris esines näiteks oma klassikalises raamatus Methods in Structural Linguistics, järgmise tuntuks saanud väitega: ‘Deskriptiivse lingvistika uurimistöö seisneb mingi dialekti lausungite kirjapanemises. Kirjapandud lausungite kogum moodustab andmete korpuse ja teostatav analüüs kujutab endast korpuse elementide distributsiooni kompaktset kirjeldust.’ Z. Harrisele ja tema kaasaegsetele strukturaallingvistidele oli korpus ainus arvessevõetav andmete allikas, millega võidi keelt kirjeldades opereerida. Ühelt poolt selline korpus ja teiselt poolt sama rangelt määratletud keelelise (põhiliselt distributiivse) analüüsi protseduurid, mille abil korpusest grammatikafaktid tuletati - see oli klassikalise strukturalismi alus.

Klassikaline strukturalism taandus keeleteaduse metodoloogiana generatiivse grammatika võidulepääsuga ja ühes sellega kaotas ka korpuse mõiste oma põhimõttelise rolli. Generatiivse grammatika järgi ei olnud keeleteaduse ülesandeks mitte keelekasutuse, vaid keelepädevuse kirjeldamine, see tähendab, et objektiks on inimese võime moodustada ja mõista oma emakeeles (lõputut) hulka lauseid. Niisuguse teoreetilise lähenemise korral ei saanud korpus kui toimunud suhtlusaktide lõplik registreerija mingit põhimõttelist rolli mängida.

Generatiivse grammatika looja Noam Chomsky seadis kahtluse alla korpuse rolli lingvistilises uurimistöös, sest tema sõnul on iga korpus puudulik s.o ei ole küllalt esinduslik. Chomsky arvates ei saa korpus kunagi olla lingvistile otstarbekaks tööriistaks, sest lingvist peaks pigem kirjeldama keelepädevust (language competence) kui keelekasutust (performance).

Chomsky väidetele on hiljem esitatud järgmiseid vastulauseid.

  1. (Korpusest) kogutud keelematerjal on kõigile uurimiseks kättesaadav. Introspektiivsel vaatlusel põhinevaid järeldusi on palju raskem tõestada.
  2. Introspektiivsed andmed on kunstlikud. Sampson (Sampson, G. (1992) "Probablistic parsing", in Svartvik, J. Directions in Corpus Linguistics, pp. 425-47. Berlin: Mouton de Gruyter.) väidab, et laused, mida kirjeldab introspektiivset meetodit kasutav lingvist erinevad suurel määral lausetest, mis tüüpiliselt esinevad korpuses.
  3. Inimestel on tavaliselt mingi sõna või konstruktsiooni esinemissagedusest ainult ähmane ettekujutus. Korpused on vaieldamatult parimad seda liiki teabe allikad.

 

Korpuslingvistika taassünd

Siiski ei tohi arvata, nagu oleks korpuslingvistika 1950ndatel maha maetud ja siis 1980ndate algul jälle ellu äratatud.

Just vahepealsel ajal kavandas Randolph Quirk (Quirk, R. (1960) "Towards a description of English usage", Transactions of the Philological Society, pp. 40-61) projekti nimega Survey of English Usage (SEU). (Projekti algus 1961) samal aastal alustasid Francis ja Kucera tööd nüüdseks klassikaks saanud Browni korpuse loomisel. 1975 hakati Jan Svartviki juhtimisel koostama London-Lundi korpust.

Sellel ajavahemikul hakati korpuslingvistikas kasutama arvuteid. Just arvutitehnoloogia areng paistab olevat põhjustanud korpuslingvistika tormilise arengu alates 80ndate aastate algusest.

 

Arvutikorpus (Machine readable corpus)

Tänapäeval on termin korpus peaaegu sünonüümne mõistega arvutikorpus. Vaatleme veidi lähemalt, kuidas saab lingvist arvutit ja korpust ära kasutada. Arvuti abil saab elektroonilisel kujul olemasolevast tekstist välja otsida vajalikku sõna, sõnade ühendit või ka kindlat sõnaliiki. Niisiis - kui meid huvitab mingi sõna (või sõnaühendi, grammatilise vormi jne) kasutus, laseme arvutil endale vajalikud näited välja otsida. See, et arvuti otsib tavaliselt sõnu kontekstis, on lingvistile suureks abiks. Arvuti abil saab samuti saadud andmeid sorteerida, sagedusi arvutada jne. Mitte juhuslikult pole konkordantsiprogramm lingvistide poolt kõige enam kasutatav abivahend korpusega töötamiseks.

Vt ka Web pages to be used to supplement the book "Corpus Linguistics". Tony McEnery and Andrew Wilson.Section one: Early corpus linguistics and the Chomskyan revolution.


Tagasi peatüki algusse