Selles allkorpuses on ajalehe Lääne Elu lehenumbrid ajavahemikust 04.05.2000 - 01.11.2008, (1273 numbris 6407 artikliga), kokku 1 764 250 sõna 126 205 lauses.
Täpsema ülevaate korpuse jagunemisest aastati annab alljärgnev tabel:
AASTA |
NUMBREID |
ARTIKLEID |
LAUSEID |
SÕNU |
---|---|---|---|---|
2000 |
100 | 500 | 8279 | 117 156 |
2001 |
148 | 739 | 13 925 | 192 899 |
2002 |
149 | 788 | 16 113 | 217 046 |
2003 |
148 | 742 | 15 969 | 214 354 |
2004 |
150 | 753 | 15 853 | 219 954 |
2005 |
152 | 754 | 15 597 | 213 272 |
2006 |
151 | 755 | 14 490 | 210 013 |
2007 |
148 | 738 | 14 141 | 202 908 |
2008 |
127 | 638 | 11 838 | 176 648 |
KOKKU |
1273 | 6407 | 126205 | 1764250 |
Need tekstid on osa eesti keele Koondkorpusest. Korpuse koostamist on finantseeritud riiklikust programmist „Eesti keele keeletehnoloogiline tugi“ projekti „Koondkorpus“ kaudu.
NB! Osa nendest tekstidest kuulub ka Tasakaalus korpuse koosseisu!
Tekstid on pärit veebilehelt www.le.ee
Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Kristel Uiboaed
Ühes failis on üks lehenumber. Välja on jäetud mitte-tekstiline materjal, so pildid (fotod, illustratsioonid, karikatuurid). Välja on jäetud ka valuutakursside tabelid, pankadevahelise rahaturu intressimäärade tabelid, saatekavad, edetabelid, ilmateade ja horoskoop.
Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause
Ma nägin, et ta tuleb, ja ütlesin: "Tere!"
on korpuses kujul
Ma nägin , et ta tuleb , ja ütlesin : " Tere !"
Allalaaditavad failid on märgendatud TEI põhimõtete järgi.
Allalaaditavate korpuseversioonide struktuur on järgmine:
Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Artiklite pealkirjad ja autorid on märgendatud. Nii pealkiri kui autor võib artiklil ka puududa. Nii lausestuses kui ka autorite märgenduses võib esineda vigu.
Tekstides parandusi pole tehtud, sõnu ei poolitata.
Tekstides on kasutatud järgmisi märgendeid:
Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.
SGML-failides esinevad olemid on kirjas selles tabelis