English

Koondkorpus: Maaleht

Sisu ja maht

Siin korpuses on ajaleht "Maaleht" alates 2001 aasta numbrist 20 kuni 2004. aasta numbrini 20, kokku umbes 4,3 miljonit sõna. Kuidas need sõnad aastate vahel jaotuvad, saab vaadata järgnevast tabelist:

Aasta Sõnu
2001 850 176
2002 1 369 809
2003 1 477 490
2004 577 756

Need tekstid on osa eesti keele Koondkorpusest. Korpuse koostamist on finantseeritud riiklikust programmist „Eesti keel ja rahvuskultuur“.

NB! Osa nendest tekstidest kuulub ka Tasakaalus korpuse koosseisu!

Allikmaterjal

Tekstid on pärit "Maalehe" koduleheküljelt www.maaleht.ee

Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas ja teisendused tegi Øivind Rangøy.

Ühes failis on üks lehenumber. Välja on jäetud mitte-tekstiline materjal, so pildid (fotod, illustratsioonid, karikatuurid, koomiksid). Välja on jäetud ka igasugune reklaam ja kuulutused. Ajalehearhiivis esinenud topelt artiklid on samuti välja jäetud.

Märgendus

Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause

Ma nägin, et ta tuleb, ja ütlesin: "Tere!"

on korpuses kujul

Ma nägin , et ta tuleb , ja ütlesin : " Tere !"

Allalaaditavad failid on märgendatud TEI põhimõtete järgi.

Allalaaditavate korpuseversioonide struktuur on järgmine:

Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Artiklite pealkirjad ja autorid on märgendatud. Nii pealkiri kui autor võib artiklil ka puududa. Nii lausestuses kui ka autorite märgenduses võib esineda vigu.

Tekstides parandusi pole tehtud, sõnu ei poolitata.

Tekstides on kasutatud järgmisi märgendeid:

Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina märgendatud, kasutades atribuuti rend. Kui šrifti muutus hõlmab tervet lõiku, siis on atribuut rend antud lõigule. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:

<hi rend="rasvane", rend="kaldkiri" <p rend="rasvane"

Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.

Olemid

SGML-failides esinevad olemid on kirjas selles tabelis


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: R, 21. detsember 2018 19:01 UTC.