English

Segakorpus: Riigikogu

Sisu

Selles korpuses on riigikogu stenogrammide toimetatud variandid, mis olid internetis saadaval aadressil http://www.riigikogu.ee/ems/plsql/ems.basdata

Need tekstid on osa tulevasest korpusest töönimega 'Eesti keele segakorpus'. Tekstide kogumist ja töötlemist on rahastatud riiklikust sihtprogrammist 'Eesti keel ja rahvuskultuur'.

Allikmaterjal ja märgendus

Tekstid on internetist automaatselt salvestatud ja teisendatud html-kujult sgml (tei) kujule. Vajalikud programmid kirjutas Kaarel Kaljurand.

Ühes failis on ühe kuu stenogrammid. Tekstides parandusi pole tehtud, sõnu ei poolitata. Šrifti muutuse algus on tähistatud märgendiga <hi rend='milline šrift'> ja lõpp märgendiga</hi>.

Iga faili alguses on päis <teiheader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms. Ühe kuu stenogramm on tähistatud märgendiga <div0>, ühe sistungjärgu stenogramm märgendiga <div1> ja üks päevakorrapunkt märgendiga <div2>.

Sõnavõtjad on tähistatud märgendiga <rs> ja on alati paksus kirjas <hi rend='bold'>.

Alustav jutumärk on olem &ldquo;; lõpetav jutumärk on olem &rdquo;.

Üks lõik so üksus märgendite <p> ja </p> vahel on üks rida. Lõigu sees on tekst lausestatud programmi estyhmm abil. Iga lause alguses on <s> ja lõpus </s>.

Sõnu kokku 1995. aasta märtsist kuni 2001. aasta lõpuni 13 miljonit

Aastate kaupa:

Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: R, 21. detsember 2018 21:22 UTC.