English

Koondkorpus: Lääne Elu

Sisu ja maht

Selles allkorpuses on ajalehe Lääne Elu lehenumbrid ajavahemikust 04.05.2000 - 01.11.2008, (1273 numbris 6407 artikliga), kokku 1 764 250 sõna 126 205 lauses.

Täpsema ülevaate korpuse jagunemisest aastati annab alljärgnev tabel:

AASTA
NUMBREID
ARTIKLEID
LAUSEID
SÕNU
2000
100 500 8279 117 156
2001
148 739 13 925 192 899
2002
149 788 16 113 217 046
2003
148 742 15 969 214 354
2004
150 753 15 853 219 954
2005
152 754 15 597 213 272
2006
151 755 14 490 210 013
2007
148 738 14 141 202 908
2008
127 638 11 838 176 648
KOKKU
1273 6407 126205 1764250

Need tekstid on osa eesti keele Koondkorpusest. Korpuse koostamist on finantseeritud riiklikust programmist „Eesti keele keeletehnoloogiline tugi“ projekti „Koondkorpus“ kaudu.

NB! Osa nendest tekstidest kuulub ka Tasakaalus korpuse koosseisu!

Allikmaterjal

Tekstid on pärit veebilehelt www.le.ee

Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Kristel Uiboaed

Ühes failis on üks lehenumber. Välja on jäetud mitte-tekstiline materjal, so pildid (fotod, illustratsioonid, karikatuurid). Välja on jäetud ka valuutakursside tabelid, pankadevahelise rahaturu intressimäärade tabelid, saatekavad, edetabelid, ilmateade ja horoskoop.

Märgendus

Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause

Ma nägin, et ta tuleb, ja ütlesin: "Tere!"

on korpuses kujul

Ma nägin , et ta tuleb , ja ütlesin : " Tere !"

Allalaaditavad failid on märgendatud TEI põhimõtete järgi.

Allalaaditavate korpuseversioonide struktuur on järgmine:

Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Artiklite pealkirjad ja autorid on märgendatud. Nii pealkiri kui autor võib artiklil ka puududa. Nii lausestuses kui ka autorite märgenduses võib esineda vigu.

Tekstides parandusi pole tehtud, sõnu ei poolitata.

Tekstides on kasutatud järgmisi märgendeid:

Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.

Olemid

SGML-failides esinevad olemid on kirjas selles tabelis


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: R, 21. detsember 2018 18:58 UTC.