This subcorpus contains the issues of Eesti Päevaleht, an Estonian daily 18.10.1995 - 31.10.2007, (4065 issues with 366862 articles), altogether 87,9 million words in 6,6 million sentences.
| year | issues | articles | sentences | tokens | 
|---|---|---|---|---|
| 1995 | 61 | 1876 | 58493 | 738037 | 
| 1996 | 292 | 10867 | 305755 | 3946465 | 
| 1997 | 286 | 13169 | 303103 | 4013049 | 
| 1998 | 331 | 14546 | 338472 | 4377783 | 
| 1999 | 310 | 18481 | 418157 | 5455466 | 
| 2000 | 329 | 51070 | 934380 | 12329581 | 
| 2001 | 338 | 63777 | 1065952 | 14246608 | 
| 2002 | 356 | 35666 | 629646 | 8643510 | 
| 2003 | 364 | 29366 | 584089 | 7937521 | 
| 2004 | 364 | 28296 | 565734 | 7656749 | 
| 2005 | 365 | 28977 | 561782 | 7586399 | 
| 2006 | 365 | 36987 | 523889 | 7132934 | 
| 2007 | 304 | 33784 | 273143 | 3836326 | 
| Summed: | 4065 | 366862 | 6562595 | 87900428 | 
The corpus is free for use for non-commercial purposes only.
Mark-up and annotation conform to the TEI-guidelines. One file contains one issue of the newspaper.
Every file begins with a header<teiheader> that contains information about file size, used tags etc.
    The non-textual material has been omitted from the text and replaced by a tag <gap desc=’description_of_the_omitted_material’>. By non-textual material we mean pictures (photos, drawings, diagrams etc), tables etc.
    In the corpus version one can access via our corpus query, all mark-up except the tags <gap> used for the omitted material have been deleted.
SGML-files contain entities listed in this table
The non-ASCII characters/symbols are presented using the following entities:
| 	 Frequency  | 
Entity | Symbol | Estonian description | 
|---|---|---|---|
| 46 | Á | Á | ladina suur A akuudiga | 
| 1254 | á | á | ladina väike a akuudiga | 
| 33 | â | â | ladina väike a tsirkumfleksiga e. katusega | 
| 3 | Â | Â | ladina suur A tsirkumfleksiga e. katusega | 
| 42 | Æ | Æ | (AE ligatuur) | 
| 1508 | æ | æ | (ae ligatuur ) | 
| 4 | À | À | ladina suur A graavisega | 
| 221 | à | à | ladina väike a graavisega | 
| 55 | ā | ā | ladina väike a ulakriipsuga | 
| 9329 | & | & | ampersand | 
| 128 | Å | Å | ladina suur A ülasooriga | 
| 1260 | å | å | ladina väike a ülasooriga | 
| 70 | ã | ã | ladina väike a tildega | 
| 41881 | Ä | Ä | A | 
| 6954694 | ä | ä | a | 
| 71 | • | • | ### | 
| 412 | ć | ć | ladina väike c akuudiga | 
| 3 | Č | Č | ladina suur C haagiga | 
| 13 | č | č | ladina väike c haagiga | 
| 107 | ç | ç | ladina väike c sediiga | 
| 7 | Ç | Ç | ladina suur C sediiga | 
| 64 | Ĉ | Ĉ | ladina suur C tsirkumfleksiga e. katusega | 
| 490 | ĉ | ć | ladina väike c tsirkumfleksiga e. katusega | 
| 29 | © | © | autoriõiguse märk | 
| 1 | † | † | ### | 
| 651 | ° | ° | kraadimärk | 
| 17 | ÷ | ÷ | jagamismärk | 
| 98 | É | É | ladina suur E akuudiga | 
| 4504 | é | é | ladina väike e akuudiga | 
| 5 | ê | ê | ladina väike e tsirkumfleksiga e. katusega | 
| 221 | è | è | ladina väike e graavisega | 
| 10 | Ē | Ē | ladina suur e ulakriipsuga | 
| 113 | ē | ē | ladina väike e ulakriipsuga | 
| 575 | ë | ë | ladina väike e umlautiga | 
| 7 | Ë | Ë | ladina suur E umlautiga | 
| 25 | € | € | euro märk | 
| 43 | ½ | ½ | murd 1/2 | 
| 18 | ¼ | ¼ | murd 1/4 | 
| 4 | ¾ | ¾ | murd 3/4 | 
| 1 | ǵ | ǵ | ladina väike g akuudiga | 
| 415 | > | > | suurem-kui-märk | 
| 817 | … | … | ### | 
| 203 | í | í | ladina väike i akuudiga | 
| 2 | Í | Í | ladina väike l akuudiga | 
| 3 | î | î | ladina väike i tsirkumfleksiga e. katusega | 
| 3 | ì | ì | ladina väike i graavisega | 
| 41 | ī | ī | ladina väike i ulakriipsuga | 
| 32 | ï | ï | ladina väike i umlautiga | 
| 155 | ķ | ķ | ladina väike k sediiga | 
| 6 | Ķ | Ķ | ladina suur K sediiga | 
| 13 | ļ | ļ | ladina väike l sediiga | 
| 60 | < | < | vaiksem-kui-märk | 
| 2 | Ń | Ń | ladina suur N akuudiga | 
| 9 | ń | ń | ladina väike n akuudiga | 
| 26 |   | tuhik | |
| 36 | ņ | ń | ladina väike n sediiga | 
| 2 | ≠ | ≠ | ei-võrdu-märk | 
| 180 | ñ | ñ | ladina väike n tildega | 
| 716 | ó | ó | ladina väike o akuudiga | 
| 16 | Ó | Ó | ladina suur O akuudiga | 
| 333 | ô | ô | ladina väike o tsirkumfleksiga e. katusega | 
| 2 | œ | œ | (oe ligatuur) | 
| 3 | ò | ò | ladina väike o graavisega | 
| 3 | Ō | Ō | ladina suur O ulakriipsuga | 
| 56 | ō | ō | ladina väike o ulakriipsuga | 
| 1829 | ø | ø | ladina väike o labiva kaldkriipsuga | 
| 53 | Ø | Ø | ladina suur O labiva kaldkriipsuga | 
| 5816758 | õ | õ | õ | 
| 66638 | Õ | Õ | Õ | 
| 1746821 | ö | ö | ö | 
| 13594 | Ö | Ö | Ö | 
| 201 | ‰ | ‰ | promilli märk | 
| 10 | ± | ± | pluss-miinus | 
| 724 | ? | ? | küsimärk | 
| 7 | → | → | paremale näitav nool | 
| 2 | ř | ř | ladina väike r haagiga | 
| 44 | ® | ® | registreeritud kaubamärk | 
| 6 | Ś | Ś | ladina suur S akuudiga | 
| 37 | ś | ś | ladina väike s akuudiga | 
| 102757 | š | ř | š | 
| 19033 | Š | Š | Š | 
| 14 | ş | ş | ladina väike s sediiga | 
| 22 | Ş | Ş | ladina suur S sediiga | 
| 2140 | § | § | paragrahvi märk | 
| 17 | ¹ | ¹ | ülaindeks 1 | 
| 423 | ² | ² | ülaindeks 2 | 
| 156 | ³ | ³ | ülaindeks 3 | 
| 44 | ß | ß | ladina väike sz | 
| 36 | × | × | korrutusmärk | 
| 9 | ™ | ™ | ### | 
| 32 | ú | ú | ladina väike u akuudiga | 
| 17 | Ú | Ú | ladina suur U akuudiga | 
| 5 | Û | Û | ladina suur U tsirkumfleksiga e. katusega | 
| 46 | û | û | ladina väike u tsirkumfleksiga e. katusega | 
| 5 | ù | ù | ladina väike u graavisega | 
| 1 | Ū | Ū | ladina suur U ülakriipsuga | 
| 60 | ū | ū | ladina väike u ülakriipsuga | 
| 1 | ů | ů | ladina väike u ülasooriga | 
| 1 | ũ | ũ | ladina väike u tildega | 
| 193682 | Ü | Ü | Ü | 
| 3853548 | ü | ü | ü | 
| 12 | ý | ý | ladina väike y akuudiga | 
| 3 | Ý | Ý | ladina suur Y akuudiga | 
| 16 | ÿ | ÿ | ladina väike y umlautiga | 
| 44311 | ž | ž | ž | 
| 2573 | Ž | Ž | Ž | 
| 1 | Б | Б | ### | 
| 2 | В | В | ### | 
| 1 | Д | Д | ### | 
| 1 | З | З | ### | 
| 1 | И | И | ### | 
| 1 | Л | Л | ### | 
| 2 | М | М | ### | 
| 1 | О | О | ### | 
| 1 | С | С | ### | 
| 2 | Т | Т | ### | 
| 1 | Ч | Ч | ### | 
| 1 | Ы | Ы | ### | 
| 2 | Э | Э | ### | 
| 1 | Ю | Ю | ### | 
| 4 | Я | Я | ### | 
| 15 | а | а | ### | 
| 1 | в | в | ### | 
| 4 | д | д | ### | 
| 7 | е | е | ### | 
| 2 | ж | ж | ### | 
| 1 | з | з | ### | 
| 5 | и | и | ### | 
| 1 | й | й | ### | 
| 3 | к | к | ### | 
| 3 | л | л | ### | 
| 7 | н | н | ### | 
| 5 | о | о | ### | 
| 1 | п | п | ### | 
| 6 | р | р | ### | 
| 7 | с | с | ### | 
| 13 | т | т | ### | 
| 4 | у | у | ### | 
| 1 | х | х | ### | 
| 1 | ч | ч | ### | 
| 3 | ш | ш | ### | 
| 1 | ь | ь | ### | 
| 1 | э | э | ### | 
| 1 | ю | ю | ### | 
| 2 | я | я | ### | 
| 2 | ה | ה | ### | 
| 2 | ו | ו | ### | 
| 2 | ח | ח | ### | 
| 2 | כ | כ | ### | 
| 2 | נ | נ | ### |