UUE MEEDIA KORPUS: JUTUTOAD

Selles korpuses on internetijututubade salvestused aastatest 2003 ja 2006.

Korpuse suurus

300 faili, 7 miljonit sõna

Erinevalt teistest uue meedia korpustest (uudisgrupid, foorumid, kommentaarid) ei ole jututubade korpusest kahte versiooni - kordustega ja eemaldatud kordustega -, sest jututubade korpuses pole massiliselt kasutatud eelmise postituse tsiteerimist.

Korpuse ajalugu

2003 ja 2006 internetist salvestatud; esialgses versioonis teisendatud TEI SGML kujule;

2010 teisendatud TEI P5 XML kujule ja uuendatud päised.

Failide jagamine osadeks: div ehk alaosa, lõik, lause

Ühes failis on üks katkematu jututoasalvestus, mis on märgendatud kui <div1 type="jututoavestlus">.

Alaosi failis st vestluses ei ole. Jututoavestluse märgendamine lähtus tõdemusest, et jututoasalvestus on nagu näidendi üleskirjutus: tegelased tulevad lavale, esitavad oma repliigid ja lahkuvad sealt.

Kõigi sündmuste aeg on märgendatud märgendi <time> abil,

kõneleja on märgendatud kui <speaker>,

repliikide välised sündmused on märgendatud märgendi <stage> abil, nt:

<time> 12:53 </time> <sp><speaker> +kilgt; kilpkonn </speaker> midagi ütleb mulle et kraanat on vaja </sp>

<time> 17:45 </time> <stage> ( ühines) mamamia ( npi@xxxxx.ee ) </stage>

Tekstid on lausestamata, st teistes uue meedia korpustes esinevat märgendit <s> siin ei ole.

Jututubade korpuse selles versioonis, millele saab päringuid esitada korpuse kasutajaliidese kaudu, on säilitatud järgmine märgendus:

<speaker>Kõneleja</speaker><p>Kõneleja kirjutatu</p>

<stage>Kõneleja kommentaar oma tegevuse kohta, nt: billy läheb ploomimahla tooma</stage>

Allalaaditavas Jututubade korpuse versioonis on olemas ka automaatselt genereeritud kommentaarid, nt. vestlejate jututuppa sisenemise ja sealt lahkumise kohta, nt: <stage>* naga is now known as naga_eemal</stage>

Need on kasutajaliidese kaudu kasutatavas korpuse versioonis kustutatud.

Mitte-eestikeelsed lõigud on eemaldatud ja asendatud märgendiga <gap rend="võõrkeelne_tekst> Võõrkeelsed sõnad ja fraasid eestikeelse teksti sees on alles jäetud Keel on tuvastatud automaatselt.

Väljajätted

Välja on jäetud võõrkeelsed osad, mida on õnnestunud automaatselt tuvastada, hüperlingid, jms. Meiliaadressid on kõik teisendatud kujule nimi@xxxx.ee , st anonümiseeritud. Eemaldatud osade asemele on pandud märgend <gap, nt <gap reason="võõrkeelne_tekst"> <gap reason="hüperlilink">

Märgendus, kujundus, kirjaviis, sümbolid, koodid

Failid on märgendatud TEI P5 XML põhimõtete järgi. Kodeering on utf-8. Unicode'i asendussümbol (U+FFFD) tähistab märke, mille kuju kohta informatsioon puudub. Kasutajate kirjaviis on säilitatud muutumatuna, s.h. numbrite kasutamine täpitähtede asemel, kuid puuduolevaid tühikuid on kirjavahemärkide ümbruses lisatud, et nende kasutus sarnaneks kirjakeelele. Nii näiteks peab punktile järgnema tühik, alustavale jutumärgile eelnema tühik. Lisaks sellele on kirjavahemärgid tõstetud sõnadest lahku, v.a. juhul, kui nad moodustavad sõnaga terviku, nt 17" monitor, 1.2. v Jutumärgid on kujul " Poolitusmärk, mõttekriips jms, mis võivad olla esitatud eri koodidega on teisendatud miinusmärgiks - Tühikud on kõik ühekordsed, st kui kõrvuti on olnud mitu tühikut, on need asendatud ühega. Jututubades kasutatud kirjaviis erineb tunduvalt normeeritud kirjakeelest, seetõttu normeeritud kirjakeele jaoks väljatöötatud automaatanalüüsi vahendid (nt morfoloogiline analüüs) töötavad halvasti.

Emotikonid on säilitatud sellistena, nagu nad algses tekstis olid.