English

Segakorpus: Jututoad 2

Sisu

Selles korpuses on 162 + 1904 = 2066 jututoavestluse salvestust aastatest 2001 - 2004 ja 2007 - 2010.

Need tekstid on osa «Eesti keele koondkorpusest». Tekstide kogumist ja töötlemist on rahastatud riiklikust sihtprogrammist «Eesti keeletehnoloogia».

Kuidas seda kasutada saab?

Korpuse kasutusõiguse saamiseks kirjutage palun Kadri.Muischnek@ut.ee ja kirjeldage lühidalt oma uurimiseesmärki.

Allikmaterjal

Tekstid on pärit kahest jututoast (Zoneforum ja Planetforum), kokku 4067458 kasutaja poolt toodetud või stage-märgendite vahel esinevat sõna 948299 repliigis. Jututoas Planetforum esineb 804 erinevat kasutajanime, jututoas Zoneforum esineb 3117 erinevat kasutajanime.

Märgendus

Failid on märgendatud TEI P5 (XML) https://www.tei-c.org/Guidelines/P5/ põhimõtete järgi. Kodeering on utf-8.

Märgendamine lähtus tõdemusest, et jututoa salvestus on nagu näidendi üleskirjutus: tegelased tulevad lavale, esitavad oma repliigid ja lahkuvad sealt. Kõigi sündmuste aeg on märgendatud <time> abil; kõneleja on <speaker>; repliikide välised sündmused on .

Ühe katkematu jututoavestluse märgendiks on <div1 type="jututoavestlus"> vestlus </div1>.

Päeva, kuupäeva, kuu ja aasta märgendiks on <date> päeva nimetus kuupäev.kuu.aasta </date>.

Postituste kellaaegade märgendiks on <time> 00:00 </time>.

Märgend <sp> tekst </sp> tähistab ühe kasutaja postitust koos kasutajanimega.

Märgend <stage> sündmus </stage> tähistab kõiki sündmusi, mis ei kujuta endast jututoa kasutajate juttu.

Märgend <speaker> kasutaja </speaker> tähistab kõnelema hakkavat jututoa kasutajat.

Märgend <foreign> võõrkeelne tekst </foreign> tähistab automaatselt tuvastatud võõrkeelset repliiki.

Ühe kasutaja repliik, st üks postitus on märgendatud üheks lõiguks <p> postitus </p>.

Hüperlingid on eemaldatud ja asendatud märgendiga <gap rend="hüperlink"/>.

Meiliaadressid on asendatud stringiga meiliaadress@xxxxx.xxx.

Sümbol < on asendatud &lt;, sümbol > on asendatud &gt; ja sümbol & on asendatud olemiga &amp;.

Võõrkeelne tekst, mida õnnestus automaatselt tuvastada, on märgendatud märgendiga <foreign> võõrkeelne tekst </foreign>.

Päised

Erisümbolid

Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud olemeid ehk entiteete.


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: N, 03. jaanuar 2019 19:03 UTC.