Eelmine teema   Tagasi sisukorda   Järgmine teema


5. Korpuste märgendamine

 

Mis on märgendamine?

Kui soovitakse, et korpus ei jääks ainult elektrooniliste tekstide arhiiviks, tuleb tekstidele lisada info nende ülesehituse kohta (peatükid, lõigud, pealkirjad jne), samuti andmed morfoloogilise ja süntaktilise analüüsi tulemuste kohta (kui need on tehtud). Iga teksti juurde tuleb lisada ka bibliograafilised andmed, tekstiklass, teksti pikkus jne.

Geoffrey Leech soovitab märgendamisel järgida järgmisi põhimõtteid. (Geoffrey Leech. Corpus Annotation Schemes. Literary and Linguistic Computing vol 8 nr 4)

  1. Alati peaks olema võimalik märgendid korpusest ‘välja visata’ ja saada tagasi tekstid esialgsel kujul.
  2. Vastavalt peaks olema võimalik ka märgendeid korpusest välja võtta nt ainult nendel baseeruva analüüsi jaoks.
  3. Märgendajate kasutatud märgendusjuhised peaksid olema lõppkasutajale kättesaadavad.
  4. Samuti peaks olema võimalik teada saada, kes ja kuidas selle konkreetese teksti märgendas.
  5. Pole alust väita, et kasutatud märgendussüsteem oleks see ainuõige. Pigem on see üks võimalus.
  6. Niipalju kui võimalik, tuleks püüda märgendussüsteemide aluseks võtta teoreetiliselt neutraalne andmete analüüs.
  7. Ükski märgendusviis ei saa ennast kuulutada standardiks, kuid standardid võivad siiski tekkida hõlbustamaks märgendatud korpuste võrdlust, vahetust jne.

 

Märgendamise (analüüsi) tasemed

  1. Tehnilise märgendamise käigus eraldatakse tekstiosad: peatükid, lõigud, laused, pealkirjad, allkirjad ja samuti märgendatakse nähtused, mis võivad käituda erinevalt kui tavalised sõnad (pärisnimed, lühendid, numbrid, kuupäevad jne)
  2. Ortograafiline märgendus on pigem interpretatiivne kui representatiivne: näiteks võib selguse mõttes asendada erinevates tekstides kasutatud erinevad jutumärgid ühetüübilistega. Samuti on kasulik defineerida suurtähe funktsiooni (lausealguline, pärisnimi, suurtähtlühend jms), punkti funktsiooni (lauselõpuline, lühend jne) ja (põhiliselt ingliskeelsetes tekstides) apostroofi funktsioone.
  3. Foneetiline transkriptsioon (suulise kõne korpuse puhul) - kõneuuringute ja kõnetehnoloogia tarvis.
  4. Prosoodiline (suulise kõne korpuse puhul) - rõhud, intonatsioon, pausid jne.
  5. Morfoloogiline märgendamine, (inglise keeles part-of-speech tagging) on kõige levinum korpuste märgendamise viis ja seda kahel põhjusel:

    a) vähemalt inglise keele puhul saab seda teha automaatselt ja
    b) selliselt märgendatud korpus leiab laialdast kasutamist, näiteks leksikograafias.

    Morfoloogilisel märgendamisel kasutatav märgendusskeem (annotation scheme) koosneb a) sõnaliiki näitavatest märgenditest (tagset), b) nende märgendite definitsioonidest ja c) märgendusjuhendist, mis kirjeldab märgendite tekstile lisamise protseduuri.

  6. Süntaktiline märgendamise (parsing) käigus lisatakse tekstile süntaktiline info. Süntaktilise märgendaja (parser) väljundiks võib olla lause fraasistruktuuri kujutus - puu (selliselt märgendatud korpusi tuntakse ka nime all treebank) - või ka lause, kus igale sõnale on lisatud märgend tema funktsiooni kohta lauses.
  7. Vt kursus Sissejuhatus arvutuslingvistikasse, teema Sissejuhatus arvutuslingvistikasse, teema Süntaktiline ühestamine

  8. Semantiline märgendamine võib olla üldjoontes 2 tüüpi:
    a) semantiliste suhete märgendamine tekstis, nt agent - patsient ja
    b) sõnade tähendusliku kuuluvuse märgendamine.
  9. Diskursuslik märgendus - seda terminit võib kasutada igasuguse märgenduse kohta, mis tegeleb lause tasandist üle ulatuvate nähtustega.

 

TEI

Tavaliselt on erinevates korpusprojektides kasutatud erinevaid märgendussüsteeme. Sellel ja veel mitmel muul põhjusel alustati 1987 aastal projektiga, mille eesmärgiks oli välja töötada selline tekstide märgendussüsteem, mis sobiks võimalikult paljudeks eesmärkideks ja oleks:

Projekti nimeks sai TEI - Text Encoding Initiative. Projekt on avaldanud Guidelines for Electronic Text Encoding and Interchange (TEI P3).

TEI on SGMLi (Standard Generalized Mark-up Language) alaliik.

 

Võimalikud märgendustehnikad

  1. Käsitsi (parimal juhul arvuti interaktiivse abiga).
  2. Automaatselt (väiksemate korpuste puhul võib ka käsitsi üle kontrollida). Vt ka kursuse Sissejuhatus arvutuslingvistikasse teemat Sissejuhatus arvutuslingvistikasse teemat "Süntaktiline ühestamine".
  3. Kombineeritult.

Tagasi peatüki algusse