English

Segakorpus: Agraarteadus

Sisu

Selles korpuses on tekstid põllumajandusalase ajakirja 'Agraarteadus' internetiarhiivist www.eau.ee/~aps/index.pp?AGRAARTEADUS (kokku ca  298 000 sõna). Korpuses on ajakirja numbrid perioodist 2001 – 2006. Korpusest puuduvad 2002. a nr 1 A. Tsahkna, 2002. a nr 3 A. Viltrop jt, 2003. a nr 1 M. Vadi jt, 2003. a nr 2 M. Vadi jt, 2003. a nr 2 V. Viljasoo ja I. Tomson, 2003. a nr 3 E. Nahkur jt ja  2003. a nr 3 P. Padrik ja Ü. Jaakma artiklid. Puudumise põhjuseks on tehnilised raskused vastavate artiklite teisendamisel.

aasta sõnu
2001 47 594
2002 85 374
2003 61 292
2004 58 559
2005 20 430
2006 25 125
Kokku 298 374

Allikmaterjal ja märgendus

Tekstid on teisendatud HTML-kujult TEI-kujule. Vajalikud programmid kirjutasid Kaarel Veskis ja Heiki-Jaan Kaalep.

Ühes failis on üks ajakirjanumber. Välja on jäetud mitte-tekstiline materjal so illustratsioonid ja joonised, samuti tabelid ja kirjanduse loetelud.

Tekstides parandusi pole tehtud, sõnu ei poolitata.

Märgendus

Tekstid on teisendatud PDF-kujult TEI kujule. Vajalikud programmid kirjutasid Kaarel Veskis ja Heiki-Jaan Kaalep.

Ühes failis on ühe aasta kõik ajakirjanumbrid. Välja on jäetud mitte-tekstiline materjal so illustratsioonid ja joonised, samuti valemid, tulbad, tabelid ja ingliskeelsed sisukokkuvõtted, kirjanduse loetelud, tabelite ja jooniste võõrkeelsed tõlked. Välja on jäänud ka üks venekeelne pealkiri.

Tekstides parandusi pole tehtud, sõnu ei poolitata. Alustav jutumärk on “ (“), « («)  lõpetav jutumärk on ” (”), » (»). Ühekordne alustav jutumärk on ‘ ja lõpetav jutumärk on ’. Šrifti muutusi pole TEI kujul olevas tekstis märgenditega tähistatud.

<div0> tähistab ühe aasta numbreid, <div1> tähistab ajakirja numbrit ja <div2> tähistab artiklit.

Tekst on jagatud artikliteks nagu algne PDF-fail ja automaatselt lausestatud. Pealkirjad ja autorid on märgendatud. Autori märgenduseks on <bibl> <author> <s>; autorit iseloomustav tekst on samas sees (näiteks <bibl> <author> <s> J. Kuum </s> </author> </bibl>). Reavahetusega seotud vead on tingitud PDF-formaadi teisendamise raskustest.

Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms.

Erisümbolid

Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: R, 21. detsember 2018 19:25 UTC.