Eelmine teema   Tagasi sisukorda   Järgmine teema


6. Erinevaid korpusi

I korpuste põlvkond - kuni 1 milj sõna - koostati peamiselt 60ndatel ja 70ndatel.

  1. Browni korpus koostati USAs Browni Ülikoolis 60ndate aastate algul, projekti juht W. Nelson Francis. Sisaldab 1 milj sõna kirjalikku Ameerika inglise keele teksti, kõik avaldatud 1961, iga text 2000 sõna, kokku 50 teksti.
  2. LOB: Lancaster - Oslo - Bergen korpus - 1 miljon sõna kirjalikku briti inglise keelt. LOB loodi 1970ndatel Browni korpuse briti vastena. Projekti juht: Geoffrey Leech Lancasteri Ülikoolist ja Stig Johansson Oslo Ülikoolist. Sisaldab 1961 aastal avaldatud tekste, ühe teksti suurus on 2000 sõna.
  3. The Kolhapur Corpus on India vaste Browni ja LOBi korpustele. Koostatud Shivaji Ülikoolis Kolhapuris. Projekti juht V. Shastri. Koosneb 500 tekstist, igas tekstis 2000 sõna. Tekstiliikide jaotust ja osakaalu korpuses on võrreldes Browni ja LOBiga mõneti muudetud.
  4. SUC - Stockholm-Umea corpus, sisaldab kirjalikku rootsi keelt. Põhikorpus e tuumkorpus on 1 milj sõna, lisaks sellele mitmesugused lisakorpused suurusega kokku veidi alla 7 milj sõna. Põhikorpus on tasakaalustatud, vastab Browni & LOBi printsiipidele.
  5. Eesti keele korpus on koostatud küll 90ndate alguses, aga struktuurilt kuulub pigem kokku nende korpustega. Täpsemalt sellest vt teema 7 või tutvuge Eesti keele korpus on koostatud küll 90ndate alguses, aga struktuurilt kuulub pigem kokku nende korpustega. Täpsemalt sellest vt teema 7 või tutvuge eesti keele korpuse interneti-versiooniga

 

II põlvkond koostati peamiselt 80ndatel aastatel: need korpused on suuremad, vähem süstematiseeritud, sageli avatud korpused.

  1. Bank of English (ka COBUILD Corpus) - Birminghami Ülikooli ja Collinsi kirjastuse ühisprojekt. 1996 aasta andmetel sisaldas 320 miljoni sõna. Sisaldab nii kirjalikku kui suulist tänapäeva inglise keelt. Koosneb pikematest tekstidest kui Browni korpus – ühe tekstikatke pikkus on 70 000 sõna või on korpusesse viidud terviktekst. Ka valiku põhimõte on teine – korpusesse on võetud need tekstid, mida palju loetakse.
  2. The International Corpus of English. 13 erinevas piirkonnas kasutatavad inglise keele variandid. Koosneb: tuumkorpused - 1 miljon sõna Browni korpuse põhimõtete järgi + võimalikud lisakorpused + võimalikud monitorkorpused. Märgendatud TEI standardite järgi.
  3. The Longman/Lancaster English Language Corpus. Koostaja Longman Dictionaries Division. 30 miljonit sõna briti, ameerika ja teisi inglise keele variante.
  4. British National Corpus koosneb 100 miljonist sõnast kirjalikust ja suulisest briti inglise keelest. Korpuseprojekti eesmärk on anda võimalikult igakülgne ülevaade tänapäeva inglise keelest.

 

ICAME

Põhiline ingliskeelsete korpuste jagaja ja koordineerija on ICAME (International Computer Archive of Modern English) ICAME ühendab seega lingviste ja arvutiteadlasi, kes töötavad ingliskeelsete elektrooniliste tekstidega. Organisatsiooni eesmärk on:

  1. Koguda ja jagada infot elektroonilisel kujul olemasoleva ingliskeelse keelematerjali kohta.
  2. Koguda ja jagada infot lingvistilise uurimistöö kohta, mida tehakse nende materjalide põhjal.
  3. Koostada ingliskeelsete tekstikorpuste arhiivi ja teha see materjal kättesaadavaks.

ICAME tekstikorpuste arhiiv asub Norwegian Computing Centre for the Humanities (NCCH) Bergen, Norra. Seal antakse välja ka ajakirja ICAME Journal, mis ilmub kord aastas ja sisaldab artikleid ja muud infot ingliskeelsete arvutikorpuste ja nende põhjal tehtud uurimistööde kohta.

Infot ICAME kohta saab: ICAME'i koduleheküljelt. Sealt saab ka lähemat infot ICAME arhiivis sisalduvate korpuste kohta.

ICAME ingliskeelsete korpuste kogu on saadaval ka CD-l.

Mõningate saksa keele korpuste kohta saab infot aadressil: https://www.ids-mannheim.de/ldv/cosmas/corpora-ges.html

 

Erikorpused

Suulise keele korpused

  1. The London-Lund Corpus sisaldab 100 teksti, igaüks koosneb u 5000 sõnast. Korpuse tekstid on ortograafilises transkriptsioonis detailse prosoodilise märgendusega. Tekstid esindavad selliseid suulise kõne kategooriaid nagu spontaanne vestlus, spontaanne kommentaar, spontaanne ja ettevalmistatud kõne. Lähemat infot saab ICAME www-aadressil.
  2. The Lancaster/IBM Spoken English Corpus (SEC). Koostatud Lancasteri Ülikoolis ja IBM UK Teaduskeskuses. Sisaldab 52 000 suulist (raadio) briti inglise keelt. Lähemat infot saab ICAME www-aadressil. Korpuse märgendusest saab ülevaate ICAME www-aadressil. Korpuse märgendusest saab ülevaate vastavalt leheküljelt.
  3. The Santa Barbara Corpus of Spoken American English sisaldab 200 000 sõna vahetuid vestlusi.

 

Paralleelkorpused võivad olla kas tõlkekorpused või paralleelkorpused, milles on tekstid samast ainevaldkonnast, kuid mitte tõlked.

Näiteks võib tutvuda Norra-Inglise paralleelkorpuse projektiga või Inglise-Soome kontrastiivse korpuseprojektiga. Ka eesti keel on esindatud projektis MULTEXT-EAST (Norra-Inglise paralleelkorpuse projektiga või Inglise-Soome kontrastiivse korpuseprojektiga. Ka eesti keel on esindatud projektis MULTEXT-EAST (teema 7).

 

Diakroonilised korpused

The Helsinki Corpus of English Texts: Diachronic Part

Koostatud Helsinki Ülikoolis. Projekti juht Matti Rissanen. Sisaldab kokku 1,5 milj sõna old, middle ja early modern English aastatest 750 - 1700. Helsinki korpuse teine osa on Inglise dialektide korpus.

 

Korpuste kohta võib lugeda ka Chapter 12: Language Resources. Rmt: Survey of the State of the Art in Human Language Technology (1996). Editorial Board: Ronald A. Cole, Editor in Chief, Joseph Mariani, Hans Uszkoreit, Annie Zaenen, Victor Zue. Managing Editors: Giovanni Battista Varile, Antonio Zampolli, University of Pisa, Italy.


Tagasi peatüki algusse