Eelmine teema   Tagasi sisukorda   Järgmine teema


2. Korpuste liigitamise võimalusi

Sue Atkins ja Jeremy Clear eristavad oma artiklis Corpus Design Criteria, (ajakirjas Literary and Linguistic Computing vol. 7 nr 1 1992) 4 liiki tekstikogusid (text collection).

  1. Tekstiarhiiv (text archive) - kogum tekste elektroonilisel kujul.
  2. Tekstoteek (electronic text library) - kogum tekste elektroonilisel kujul ühtses formaadis, mille valiku kriteeriumid pole kuigi ranged. Vahe nende kahe alaliigi vahel pole täpselt määratletav.
  3. Korpus (corpus) - tekstoteegi alaliik, koostatud kindlate printsiipide järgi kindlaid eesmärke silmas pidades.
  4. Allkorpus (subcorpus) - korpuse osa, kas mitmest tekstiliigist koosneva korpuse üks osa või kindlat eesmärki silmas pidades tehtud ühekordne valik suuremast korpusest.

Tekstikorpuseid võib liigitada ka suletud ja avatud korpusteks. Suletud korpus on selline, mille tekstide või tekstikatkete pikkus on kindel suurus ja kust ei saa tekste välja jätta ega juurde lisada - suletud korpusele on iseloomulik lõplik suurus. Sageli ei koosne korpus mitte terviktekstidest, vaid nende osadest, suletud korpusele on iseloomulik tekstikatkete kindel suurus. Tavaliselt on suletud korpust püütud koostada nii, et ta oleks piisavalt representatiivne, s.o et kõik (või mingi osa) antud kultuuris esinevatest (tavaliselt trükitud) tekstiliikidest oleks korpuses esindatud ja iga tekstiliigi osatähtsus korpuses oleks vastavuses tema osatähtsusega antud kultuuris.

Avatud tekstikorpus on selline, millest võib vajadusel osa tekste välja jätta, neid sinna juurde lisada või välja vahetada. Selliseid korpusi nimetatakse kirjanduses ka monitorkorpusteks, sest nende eesmärgiks on peegeldada keele muutumist. Suuruselt võivad korpused olla väga erinevad. On poolest miljonist sõnast koosnevaid korpusi, aga on ka mitmesajast miljonist sõnast koosnevaid korpusi. Suurtest korpustes võib vajaduse korral kasutada ainult nende teatud tekstitüüpidest koosnevaid osi, mida nimetatakse allkorpusteks. Korpused erinevad üksteisest ka selle poolest, et nad võivad sisaldada kas ainult tekste elektroonilisel kujul, mida siis nimetatakse puhtaks tekstiks või võivad korpused olla väga erineval moel märgendatud s.o varustatud mitmesuguse lisainfoga. Märgendada võib erineva taseme nähtusi tekstis. Näiteks nn tehnilise märgendamise korral märgendatakse teksti liigendatust peatükkideks, lõikudeks ja lauseteks, tuuakse esile pealkirjad, pärisnimed, lühendid jne. Tekstile saab lisada ka mitmesugust morfoloogilist ja süntaktilist infot jne. Areng toimub praegu üha suuremate ja üha põhjalikumalt analüüsitud korpuste suunas. Lähemalt vt teema 5

Korpusi võib jagada ka selle järgi, kas nad sisaldavad kirjalikke tekste või suulist kõnet transkribeeritud kujul. Rõhuv enamus olemasolevaid korpusi koosneb kirjutatud tekstidest.

Korpus võib olla ükskeelne, kakskeelne või mitmekeelne (viimased 2 võivad olla paralleelkorpused või koosneda tekstidest mitmes keeles samadel teemadel). Lähemalt vt teema 6: mitmekeelsed korpused.

Korpus võib olla diakrooniline või sünkrooniline. Siin kerkib küsimus, kui pikast ajavahemikust võivad korpuse tekstid pärit olla, et korpust võiks veel sünkrooniliseks või juba diakrooniliseks pidada. Lähemalt vt teema 6: Helsinki diakrooniline korpus.

Ka võib korpus püüda olla läbilõige kogu keelekasutusest mingil ajamomendil - keskenenud ainult ühele/mõnele allkeelele.


Tagasi peatüki algusse