English

Koondkorpus: Eesti Päevaleht

Sisu ja maht

Selles allkorpuses on Eesti Päevalehe lehenumbrid 18.10.1995 - 31.10.2007, (4065 numbrit 366862 artikliga), kokku 87,9 miljonit sõna 6,6 miljonis lauses.

aastanumbridartiklidlausedsõnad
199561187658493738037
1996292108673057553946465
1997286131693031034013049
1998331145463384724377783
1999310184814181575455466
20003295107093438012329581
200133863777106595214246608
2002356356666296468643510
2003364293665840897937521
2004364282965657347656749
2005365289775617827586399
2006365369875238897132934
2007304337842731433836326
Kokku:4065366862656259587900428

Need tekstid on osa eesti keele Koondkorpusest. Korpuse koostamist on finantseeritud riiklikust programmist „Eesti keele keeletehnoloogiline tugi“ projekti „Koondkorpus“ kaudu.

NB! Osa nendest tekstidest kuulub ka Tasakaalus korpuse koosseisu!

Allikmaterjal

Tekstid on pärit Eesti Päevalehe internetiarhiivist http://epl.ee.

Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Katrin Tsepelina.

Ăśhes failis on ĂĽks lehenumber. Välja on jäetud mitte-tekstiline materjal, so pildid (fotod, illustratsioonid, karikatuurid). Välja on jäetud ka valuutakursside tabelid, pankadevahelise rahaturu intressimäärade tabelid, saatekavad, edetabelid, sĂĽnnipäevaliste nimekirjad, rubriik "НаРусском", ilmateade ja horoskoop.

Märgendus

Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause

Ma nägin, et ta tuleb, ja ütlesin: "Tere!"

on korpuses kujul

Ma nägin , et ta tuleb , ja ütlesin : " Tere !"

Allalaaditavad failid on märgendatud TEI põhimõtete järgi.

Allalaaditavate korpuseversioonide struktuur on järgmine:

Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Artiklite pealkirjad ja autorid on märgendatud. Nii pealkiri kui autor võib artiklil ka puududa. Nii lausestuses kui ka autorite märgenduses võib esineda vigu.

Tekstides parandusi pole tehtud, sõnu ei poolitata.

Kasutatud on järgmisi märgendeid:

Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina märgendatud, kasutades atribuuti rend. Kui šrifti muutus hõlmab tervet lõiku, siis on atribuut rend antud lõigule, kui tervet loendi üksust <item>, siis sellele. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:

hi rend="rasvane", rend="kaldkiri", rend="rasvane_kaldkiri", rend="allajoonitud", rend="väike", rend="väike_värviline", rend="värviline", rend="värviline_allajoonitud", rend="alaindeks", rend="ülaindeks"

item rend="hüperlink", rend="kaldkiri", rend="rasvane", rend="vahepealkiri", rend="värviline"

p rend="allajoonitud", rend="hüperlink", rend="kaldkiri", rend="keskel_rasvane", rend="rasvane", rend="rasvane_allajoonitud", rend="rasvane_kaldkiri", "rasvane_värviline", rend="suur", rend="suur_hüperlink", rend="suur_kaldkiri", rend="suur_rasvane", rend="tekst_pildi_all", rend="vahepealkiri", rend="väike", rend="värviline"

Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.

Olemid

SGML-failides esinevad olemid on kirjas selles tabelis

Selle korpuse erimärgid

Esinemisi
Olem Märk Kirjeldus
46 &Aacute; Á ladina suur A akuudiga
1254 &aacute; á ladina väike a akuudiga
33 &acirc; â ladina väike a tsirkumfleksiga e. katusega
3 &Acirc; Â ladina suur A tsirkumfleksiga e. katusega
42 &AElig; Æ (AE ligatuur)
1508 &aelig; æ (ae ligatuur )
4 &Agrave; À ladina suur A graavisega
221 &agrave; à ladina väike a graavisega
55 &amacr; ā ladina väike a ulakriipsuga
9329 &amp; & ampersand
128 &Aring; Å ladina suur A ülasooriga
1260 &aring; å ladina väike a ülasooriga
70 &atilde; ã ladina väike a tildega
41881 &Auml; Ä A
6954694 &auml; ä a
71 &bull; ###
412 &cacute; ć ladina väike c akuudiga
3 &Ccaron; Č ladina suur C haagiga
13 &ccaron; č ladina väike c haagiga
107 &ccedil; ç ladina väike c sediiga
7 &Ccedil; Ç ladina suur C sediiga
64 &Ccirc; Ĉ ladina suur C tsirkumfleksiga e. katusega
490 &ccirc; ć ladina väike c tsirkumfleksiga e. katusega
29 &copy; © autoriõiguse märk
1 &dagger; ###
651 &deg; ° kraadimärk
17 &divide; ÷ jagamismärk
98 &Eacute; É ladina suur E akuudiga
4504 &eacute; é ladina väike e akuudiga
5 &ecirc; ê ladina väike e tsirkumfleksiga e. katusega
221 &egrave; è ladina väike e graavisega
10 &Emacr; Ē ladina suur e ulakriipsuga
113 &emacr; ē ladina väike e ulakriipsuga
575 &euml; ë ladina väike e umlautiga
7 &Euml; Ë ladina suur E umlautiga
25 &euro; euro märk
43 &frac12; ½ murd 1/2
18 &frac14; ¼ murd 1/4
4 &frac34; ¾ murd 3/4
1 &gacute; ǵ ladina väike g akuudiga
415 &gt; > suurem-kui-märk
817 &hellip; ###
203 &iacute; í ladina väike i akuudiga
2 &Iacute; Í ladina väike l akuudiga
3 &icirc; î ladina väike i tsirkumfleksiga e. katusega
3 &igrave; ì ladina väike i graavisega
41 &imacr; ī ladina väike i ulakriipsuga
32 &iuml; ï ladina väike i umlautiga
155 &kcedil; ķ ladina väike k sediiga
6 &Kcedil; Ķ ladina suur K sediiga
13 &lcedil; ļ ladina väike l sediiga
60 &lt; < vaiksem-kui-märk
2 &Nacute; Ń ladina suur N akuudiga
9 &nacute; ń ladina väike n akuudiga
26 &nbsp;   tuhik
36 &ncedil; ń ladina väike n sediiga
2 &ne; ei-võrdu-märk
180 &ntilde; ñ ladina väike n tildega
716 &oacute; ó ladina väike o akuudiga
16 &Oacute; Ó ladina suur O akuudiga
333 &ocirc; ô ladina väike o tsirkumfleksiga e. katusega
2 &oelig; œ (oe ligatuur)
3 &ograve; ò ladina väike o graavisega
3 &Omacr; Ō ladina suur O ulakriipsuga
56 &omacr; ō ladina väike o ulakriipsuga
1829 &oslash; ø ladina väike o labiva kaldkriipsuga
53 &Oslash; Ø ladina suur O labiva kaldkriipsuga
5816758 &otilde; õ õ
66638 &Otilde; Õ Õ
1746821 &ouml; ö ö
13594 &Ouml; Ö Ö
201 &permil; promilli märk
10 &plusmn; ± pluss-miinus
724 &quest; ? küsimärk
7 &rarr; paremale näitav nool
2 &rcaron; ř ladina väike r haagiga
44 &reg; ® registreeritud kaubamärk
6 &Sacute; Ś ladina suur S akuudiga
37 &sacute; ś ladina väike s akuudiga
102757 &scaron; ř š
19033 &Scaron; Š Š
14 &scedil; ş ladina väike s sediiga
22 &Scedil; Ş ladina suur S sediiga
2140 &sect; § paragrahvi märk
17 &sup1; ¹ ülaindeks 1
423 &sup2; ² ülaindeks 2
156 &sup3; ³ ülaindeks 3
44 &szlig; ß ladina väike sz
36 &times; × korrutusmärk
9 &trade; ###
32 &uacute; ú ladina väike u akuudiga
17 &Uacute; Ú ladina suur U akuudiga
5 &Ucirc; Û ladina suur U tsirkumfleksiga e. katusega
46 &ucirc; û ladina väike u tsirkumfleksiga e. katusega
5 &ugrave; ù ladina väike u graavisega
1 &Umacr; Ū ladina suur U ülakriipsuga
60 &umacr; ū ladina väike u ülakriipsuga
1 &uring; ů ladina väike u ülasooriga
1 &utilde; ũ ladina väike u tildega
193682 &Uuml; Ü Ü
3853548 &uuml; ü ü
12 &yacute; ý ladina väike y akuudiga
3 &Yacute; Ý ladina suur Y akuudiga
16 &yuml; ÿ ladina väike y umlautiga
44311 &zcaron; ž ž
2573 &Zcaron; Ž Ž
1 &#1041; Б ###
2 &#1042; В ###
1 &#1044; Д ###
1 &#1047; З ###
1 &#1048; И ###
1 &#1051; Л ###
2 &#1052; М ###
1 &#1054; О ###
1 &#1057; С ###
2 &#1058; Т ###
1 &#1063; Ч ###
1 &#1067; Ы ###
2 &#1069; Э ###
1 &#1070; Ю ###
4 &#1071; Я ###
15 &#1072; а ###
1 &#1074; в ###
4 &#1076; д ###
7 &#1077; е ###
2 &#1078; ж ###
1 &#1079; з ###
5 &#1080; и ###
1 &#1081; й ###
3 &#1082; к ###
3 &#1083; л ###
7 &#1085; н ###
5 &#1086; о ###
1 &#1087; п ###
6 &#1088; р ###
7 &#1089; с ###
13 &#1090; т ###
4 &#1091; у ###
1 &#1093; х ###
1 &#1095; ч ###
3 &#1096; ш ###
1 &#1100; ь ###
1 &#1101; э ###
1 &#1102; ю ###
2 &#1103; я ###
2 &#1492; ה ###
2 &#1493; ו ###
2 &#1495; ח ###
2 &#1499; כ ###
2 &#1504; נ ###

Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: R, 21. detsember 2018 16:35 UTC.