English

Vigade paralleelkorpus 2006

korpus XML-kujul

korpuse DTD

Mitteärilistel eesmärkidel uurimistööks vabaks kasutuseks.

Sisu

Vigade paralleelkorpus on loodud 2004-2006 ja 2018-2019 Tartu Ülikoolis, rahastatuna Eesti keeletehnoloogia riikliku programmi poolt. Korpuse loomise algataja ja struktuuri (ja sellele vastava DTD) autor on Heiki-Jaan Kaalep. Korpuse loojad 2004-2006 olid Elle Vaimann, Raili Pool ja Ingrid Rummo. Nad sisestasid enda poolt parandatud üliõpilastöödes esinenud eksimusjuhtumid, mille puhul autor on eksinud mõne (või ka mitme) lause-ehitusliku printsiibi vastu (nt. vale vormivalik, sõnastus või rektsioon), s.t. eksimus on milleski muus kui üksiksõna õigekirjas ja tuleb esile alles lauset kui tervikut arvestades. 2018-2019 teisendas Katrin Tsepelina korpuse UTF-8 kodeeringusse, korrastas ja ühtlustas märgenduse.

Korpuses on 9005 juhtumit. Iga eksimusjuhtum on esitatud kontekstis, mis on vajalik tema mõistmiseks - minimaalselt terviklausena, aga mõnikord ka mitme lausena. Igal juhtumil on esitatud ka vastav õige lause (või laused). On ka võimalik, et algse lause asemel on paranduses mitu lauset, või vastupidi, mitmele algsele lausele vastab parandatuna üks. Eksimuse tüüpi ei ole määratud, s.t. vealiigitus puudub.

Näide ühest eksimusjuhust:

<eksimus emakeel="vene" id="EV2004_E17a_e0009" tase="kesk" tyyp="kirjand">
   <algne id="EV2004_E17a_e0009_a1">
      Haritud inimene võib olla ka elu mõttes. See inimene, kes oskab alati kasuliku tegevuse endale leida.<
   </algne>
   <parandus id="EV2004_E17a_e0009_p1">
      Haritud inimene võib olla ka elu mõttes. See on inimene, kes oskab endale alati kasuliku tegevuse leida.
   </parandus>
   <kommentaar id="EV2004_E17a_e0009_k1">
   </kommentaar>
</eksimus>

Iga juhtumi korral on kirjas algne lause (või laused), parandatud lause (või laused) ja kommentaar. Kommentaariks on midagi kirjutatud 54 juhul, nt. "Lause lõpp arusaamatu.". 105 eksimuse puhul on võimalik, et eksimust saab parandada mitmel eri moel; 104 juhul on alternatiive 2, ühel juhul 3. Sel juhul vastabki ühele <algne>-elemendile mitu <parandus>-elementi.

Algsetes lausetes on kokku 128343 sõna, parandatutes 129748 sõna.

Iga eksimuse korral on kirjas mõned iseloomulikud andmed: kirjutaja emakeel, keeleoskuse tase, kirjatöö tüüp ja lause identifikaator id; atribuut id kodeerib parandajat (nimetähtede kaudu - EV on Elle Vaimann, RP on Raili Pool, IR on Ingrid Rummo), korpuseteksti sisestamise aastaarvu, lause autori tähist ja tema poolt esitatud lause järjekorranumbrit selles korpuses.

Eksimuste autoreid on kokku 330

15 viljakaimat autorit on esindatud järgmise arvu eksimustega:

15 kõige vähem viljakamat autorit on esindatud 2-5 eksimusega

Eemakeele järgi jagunevad eksimusüksused järgmiselt:

Keeletaseme järgi jagunevad eksimusüksused järgmiselt:

Kirjatöö tüübi järgi jagunevad eksimusüksused järgmiselt:


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: N, 23. mai 2019 16:30 UTC.