English

Koondkorpus: Maaleht

Sisu ja maht

Siin korpuses on ajaleht "Maaleht" alates 2001 aasta numbrist 20 kuni 2004. aasta numbrini 20, kokku umbes 4,3 miljonit sõna. Kuidas need sõnad ajalehenumbrite vahel jaotuvad, saab vaadata järgnevast tabelist:

Aasta Sõnu
2001 850 176
2002 1 369 809
2003 1 477 490
2004 577 756

Need tekstid on osa eesti keele Koondkorpusest. Korpuse koostamist on finantseeritud riiklikust programmist „Eesti keel ja rahvuskultuur“.

NB! Osa nendest tekstidest kuulub ka Tasakaalus korpuse koosseisu!

Kuidas seda kasutada saab?

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:

Allikmaterjal

Tekstid on pärit "Maalehe" koduleheküljelt www.maaleht.ee

Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas ja teisendused tegi Øivind Rangøy.

Ühes failis on üks lehenumber. Välja on jäetud mitte-tekstiline materjal, so pildid (fotod, illustratsioonid, karikatuurid, koomiksid). Välja on jäetud ka igasugune reklaam ja kuulutused. Ajalehearhiivis esinenud topelt artiklid on samuti välja jäetud.

Märgendus

Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause

Ma nägin, et ta tuleb, ja ütlesin: "Tere!"

on korpuses kujul

Ma nägin , et ta tuleb , ja ütlesin : " Tere !"

Allalaaditavad failid on märgendatud TEI põhimõtete järgi.

Allalaaditavate korpuseversioonide struktuur on järgmine:

Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Artiklite pealkirjad ja autorid on märgendatud. Nii pealkiri kui autor võib artiklil ka puududa. Nii lausestuses kui ka autorite märgenduses võib esineda vigu.

Tekstides parandusi pole tehtud, sõnu ei poolitata.

Tekstides on kasutatud järgmisi märgendeid:

Esiletõstmise eesmärgil tehtud ¨rifti muutused on reeglina märgendatud, kasutades atribuuti rend. Kui ¨rifti muutus hõlmab tervet lõiku, siis on atribuut rend antud lõigule. ¦rifti abil esiletõstmise võimalikud väärtused on järgmised:

<hi rend="rasvane", rend="kaldkiri" <p rend="rasvane"

Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.

Olemid

HTML-failides esinevad olemid on kirjas selles tabelis

Olem Märk Seletus
Aacute Áladina suur A akuudiga
Aring Åladina suur A ülasõõriga
Auml Äladina suur A täppidega
Ccaron Čladina suur C haagiga
Ccirc Ĉ###
Eacute Éladina suur E akuudiga
Ncedil Ņladina suur N sediiga
Omacr Ōladina suur O ülakriipsuga
Oslash Øladina suur O läbiva kaldkriipsuga
Otilde Õladina suur O tildega
Ouml Öladina suur O täppidega
Scaron Šladina suur S haagiga
Umacr Ūladina suur U ülakriipsuga
Uuml Üladina suur U täppidega
Zcaron Žladina suur Z haagiga
aacute áladina väike A akuudiga
acirc âladina väike A katusega
aelig æladina väike AE
agrave àladina väike A graavisega
amacr āladina väike A ülakriipsuga
amp &ja-märk (ampersand)
aring åladina väike A ülasõõriga
atilde ãladina väike A tildega
auml äladina väike A täppidega
bull ###
cacute ćladina väike C akuudiga
ccaron čladina väike C haagiga
ccedil çladina väike C sediiga
curren ¤###
dagger ###
deg °kraadimärk
eacute éladina väike E akuudiga
egrave èladina väike E graavisega
emacr ēladina väike E ülakriipsuga
eogon ęladina väike E pöördsediiga
euml ëladina väike E täppidega
euro euro
frac12 ½murd 1/2
frac14 ¼murd 1/4
frac34 ¾murd 3/4
gt >suurem-kui-märk
iacute íladina väike I akuudiga
imacr īladina väike I ülakriipsuga
kcedil ķladina väike K sediiga
lcedil ļladina väike L sediiga
ldquo vasak kahekordne jutumärk ( „ või «)
lt <väiksem-kui-märk
micro µ###
middot ·selline keskmine punkt
nacute ńladina väike N akuudiga
ncaron ňladina väike N haagiga
ncedil ņladina väike N sediiga
ntilde ñladina väike N tildega
oacute óladina väike O akuudiga
ograve òladina väike O graavisega
ohm ###
omacr ōladina väike O ülakriipsuga
oslash øladina väike O läbiva kaldkriipsuga
otilde õladina väike O tildega
ouml öladina väike O täppidega
permil promilli märk
plusmn ±pluss-miinus
pound £naelsterling
rarr ###
rcaron řladina väike R haagiga
rcedil ŗladina väike R sediiga
rdquo parempoolne kahekordne jutumärk (“ või »)
reg ®###
sacute śladina väike S akuudiga
scaron šladina väike S haagiga
sect §paragrahvimärk
sup1 ¹###
sup2 ²ülaindeks 2
sup3 ³ülaindeks 3
szlig ßladina väike SZ
times ×korrutusmärk
trade ###
uacute úladina väike U akuudiga
ucirc ûladina väike U katusega
ugrave ùladina väike U graavisega
umacr ūladina väike U ülakriipsuga
uuml üladina väike U täppidega
yacute ýladina väike Y akuudiga
zcaron žladina väike Z haagiga


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: Fri, 06. January 2012 15:49 EET.