Eesti keele segakorpus: Seadused

Seadused XML-kujul
Seadustekstide SGML TEI P3 (ASCII+olemid) failid:eestiseadus.tar.gz euroseadus-1.tar.gz euroseadus-2.tar.gz

Sisu

Selles korpuses on:

Eesti seadused, 391 tk - pealkirjad ja failinimed
Euroopa Liidu õigusaktide eestikeelsed tõlked, 5432 tk - pealkirjad ja failinimed

Need tekstid on osa tulevasest korpusest töönimega 'Eesti keele segakorpus'. Tekstide kogumist ja töötlemist on rahastatud riiklikust sihtprogrammist 'Eesti keel ja rahvuskultuur'.

Allikmaterjal ja märgendus

Tekstid on pärit Eesti Õiguskeele Keskuse koduleheküljelt http://www.legaltext.ee seisuga 30.04.2002

Tekstid on internetist automaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Heiki-Jaan Kaalep

Ühes failis on üks seadus või määrus vms. Välja on jäetud mitte-tekstiline materjal, so pildid. EL tekstides on sageli mitte-eestikeelseid osi.

Kõik šrifti muutused (nt. kursiiv, rasvane kiri) on kaotatud. Üla- ja alaindeksid on vastavalt <hi rend="sup"> ja <hi rend="sub">. UNICODE-olemid kujul &#number; on teisendatud SGML-olemiteks. Susisevate tähtede, islandi ja paljude muude võõrtähtede esitamisel on arvatavasti palju vigu. Loendid (HTML-listid) on teisendatud tavaliseks nummerdatud või nummerdamata tekstiks; punktloendite puhul on punkti asemel -. Sõnu ei poolitata. Olem &quest; tähistab märke, mille kuju kohta informatsioon puudub. Alustav jutumärk on “, lõpetav jutumärk on ”.

Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Muidu pole teksti struktuur märgendatud: märgendamata on jaotised, osad, paragrahvid, pealkirjad, allkirjad, lisad, joonealused viited jpm.

Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms

Maht

Eesti seadused (1 791 653 sõna)

Euroopa Liidu õigusaktide eestikeelsed tõlked (9 582 698 sõna)

Sõnade hulka on loetud ka numbrid ja lühendid.

Erisümbolid

Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:

Æ - Æ (AE ligatuur)
&Aacgr; - Ά (kreeka suur alfa aktsendimärgiga)
Á - Á (ladina suur A akuudiga)
Â - Â(ladina suur A tsirkumfleksiga)
&Agr; - Α (kreeka suur alfa)
À - À (ladina suur A graavisega)
Å - Å (ladina suur A ülasõõriga)
Ã - Ã (ladina suur A tildega)
Ä - Ä
&Bgr; - Β (kreeka suur beeta)
Ç - Ç (ladina suur C sedii e. alakomaga)
&Dgr; - Δ (kreeka suur delta)
&EEgr; - Η (kreeka suur eeta)
Ð - Đ (ladina suur D keskel kriipsuga; Islandi suur eth)
&Eacgr; - Έ (kreeka suur epsilon aktsendimärgiga)
É - É (ladina suur E akuudiga)
Ê - Ê (ladina suur E tsirkumfleksi e. katusega)
&Ecy; - Э (kirillitsa suur E)
&Egr; - Ε (kreeka suur epsilon)
È - È (ladina suur E graavisega)
Ë - Ë (ladina suur E umlautiga)
&Ggr; - Γ (kreeka suur gamma)
Í - Í (ladina suur I akuudiga)
Î - Î (ladina suur I tsirkumfleksiga)
&Igr; - Ι (kreeka suur ioota)
Ì - Ì (ladina suur I graavisega)
Ï - Ï (ladina suur I umlautiga)
&KHgr; - Χ (kreeka suur hii)
&Kgr; - Κ (kreeka suur kappa)
&Lgr; - Λ (kreeka suur lambda)
&Lstrok; - Ł (L läbiva kaldjoonega)
&Mcy; - М (kirillitsa suur M)
&Mgr; - Μ (kreeka suur müü)
&Ngr; - Ν (kreeka suur nüü)
Ñ - Ñ(ladina suur N tildega)
&OElig; - Œ (ladina suur OE ligatuur)
&OHacgr; - Ό (kreeka suur oomega aktsendimärgiga)
&OHgr; - Ω (kreeka suur oomega)
Ó - Ó (ladina suur O akuudiga)
Ô - Ô (ladina suur O tsirkumfleksiga e. katusega)
&Ogr; - Ο (kreeka suur omikron)
Ò - Ò (ladina suur O graavisega)
Ø - Ø (ladina suur O kaldkriipsuga)
Õ - Õ
Ö - Ö
&PHgr; - Φ (kreeka suur fii)
&PSgr; - Ψ (kreeka suur psii)
&Pcy; - П (kirillitsa suur P)
&Pgr; - Π (kreeka suur pii)
&Rcaron; - Ř (ladina suur R karoniga)
&Rgr; - Ρ (kreeka suur roo)
&Scaron; - Š
&Sgr; - Σ (kreeka suur sigma)
&THgr; - Θ (kreeka suur theeta)
&Tgr; - Τ (kreeka suur tau)
Ú - Ú (ladina suur U akuudiga)
&Ugr; - Υ (kreeka suur üpsilon)
Ù - Ù (ladina suur U graavisega)
Ü - Ü
&Xgr; - Ξ (kreeka suur ksii)
Ý - Ý (ladina suur Y akuudiga)
&Zcaron; - Ž (Z katusega)
&Zgr; - Ζ (kreeka suur zeeta)
&aacgr; - ά (kreeka väike alfa aktsendimärgiga)
á - á (ladina väike a akuudiga)
â - â (ladina väike a tsirkumfleksiga)
&acy; - а (kirillitsa väike a)
æ - æ (ae ligatuur)
&agr; - α (kreeka väike alfa)
à -à (ladina väike a graavisega)
& - & (ampersand)
&aogon; - ą (ladina väike a alahaagiga)
å - å (ladina väike a ülasõõriga)
ã - ã (ladina väike a tildega)
ä - ä
&bgr; - β (kreeka väike beeta)
&ccaron; - (ladina väike c haagiga)
ç - ç (ladina väike c sediiga)
° - ° (kraadimärk)
&dgr; - δ (kreeka väike delta)
&dollar; - $ (dollar)
é - é (ladina väike e akuudiga)
ê - ê (ladina väike e tsirkumfleksiga)
&eeacgr; - έ (kreeka väike epsilon aktsendimärgiga)
&eegr; - η (kreeka väike eeta)
&egr; - ε (kreeka väike epsilon)
è - è (ladina väike e graavisega)
&eogon; - ę (ladina väike e alahaagiga)
ð - đ (ladina väike d keskel kriipsuga; Islandi väike eth)
ë - ë (ladina väike e umlaudiga)
€ - € (euro)
≥ - ≥ (suurem-või-võrdne-märk)
&ggr; - γ (kreeka väike gamma)
> - > (suurem)
&iacgr; - ί (kreeka väike ioota aktsendimärgiga)
í - í (ladina väike i akuudiga)
î - î (ladina väike i tsirkumfleksiga)
&icy; - и (kirillitsa väike i)
&idigr; - ϊ (kreeka väike ioota diereesiga)
&iecy; - е (kirillitsa väike je)
&igr; - ι (kreeka väike ioota)
ì - ì (ladina väike i graavisega )
ï - ï (ladina väike i umlaudiga)
&jcy; - й (kirillitsa väike i lühike)
&kcedil; - ķ (k cedii e. alakomaga)
&kcy; - к (kirillitsa väike k)
&kgr; - κ (kreeka väike kappa)
&khgr; - χ (kreeka väike hii)
“ - vasak kahekordne jutumärk ( või «)
≤ - ≤ (väiksem-või-võrdne-märk)
&lgr; - λ (kreeka väike lambda)
&lstrok; - ł (ladina väike l kaldjoonega)
< - < (väiksem)
&mgr; - μ (kreeka väike müü)
· - · (selline keskmine punkt)
&ncy; - н (kirillitsa väike n)
≠ - ≠ (mitte-võrdne)
&ngr; - ν (kreeka väike nüü)
ñ - ñ (ladina väike n tildega)
&oacgr; - ό (kreeka väike omikron aktsendimärgiga)
ó - ó (ladina väike o akuudiga)
ô - ô(ladina väike o ülasõõriga)
&ocy; - о (kirillitsa väike o)
&oelig; - œ (ladina väike oe ligatuur)
&ogr; - ο (kreeka väike omikron)
ò - ò (ladina väike o graavisega)
&ohacgr; - ώ (kreeka väike oomega aktsendimärgiga)
&ohgr; - ω (kreeka väike oomega)
º - º kraadimärk, millel kriips all
ø - ø (ladina väike o kaldkriipsuga)
õ - õ
ö - ö
&permil; - ‰ (promilli märk)
&pgr; - π (kreeka väike pii)
&phgr; - φ (kreeka väike fii)
± - ± (pluss-miinus)
£ - ₤ (naelsterling)
&psgr; - ψ (kreeka väike psii)
&quest; - tundmatu kujuga märk
" - ″ jutumärk
&rcaron; - ř (ladina väike r karoniga)
&rcy; - р (kirillitsa väike r)
” - parempoolne kahekordne jutumärk (või »)
&rgr; - ρ (kreeka väike roo)
&scaron; - š
&scy; - с (kirillitsa väike s)
§ - § (paragrahvi märk)
&sfgr; - ς (kreeka väike sigma lõputähena)
&sgr; - σ (kreeka väike sigma sõna keskel)
&squ; - □ (tühi ruut)
ß - ß (sz ligatuur)
&tcy; - т (kirillitsa väike t)
&tgr; - τ (kreeka väike tau)
&thgr; - θ (kreeka väike theeta)
þ - þ (ladina väike p pika kriipsuga; Islandi thorn)
&tilde; - ˜ (väike tilde)
× - × (korrutusmärk)
&uacgr; - ύ (kreeka väike üpsilon aktsendimärgiga)
ú - ú (ladina väike u akuudiga)
û - û (ladina väike u ülasõõriga)
&udigr; - ϋ (kreeka väike üpsilon diereesiga)
&ugr; - υ (kreeka väike üpsilon)
ù - ù (ladina väike u graavisega)
ü - ü
&vcy; - в (kirillitsa väike v)
&xgr; - ξ (kreeka väike ksii)
ý - ý (ladina väike y akuudiga)
&ycy; - ы (kirillitsa väike õ)
ÿ - ÿ (ladina väike y umlautiga)
&zcaron; - ž (ladina väike z karoniga)
&zgr; - ζ (kreeka väike zeeta)