English

Silbitatud korpused

Pakitud korpused failis korpused.zip on järgmised:

Liik sõnade arv päritolu
Ilukirjandus (eesti autorid) 104 000 https://cl.ut.ee/korpused/morfkorpus/
Ajakirjandus 111 000 https://cl.ut.ee/korpused/morfkorpus/
Suuline kõne 100 000 https://cl.ut.ee/korpused/morfkorpus/
Jututoad 94 000 https://cl.ut.ee/korpused/jutumorf/
CHILDES hoidjakeel 400 000 https://childes.talkbank.org/access/Other/

Silbitamine toimus kahe-astmelisena:

  1. liitsõna osade eristamine Filosofti morfoloogilise analüsaatoriga https://github.com/Filosoft/vabamorf, käsurealipuga -a (s.t. ei lemmatiseeri)
  2. silbitamine hfst-xfst muunduriga silbita.xfscript

Kooditabeliks on utf-8. Liitsõnasisest sõnapiiri tähistab alakriips "_" ja silbipiiri tähistab punkt "."

Korpuste alusel leitud CV-struktuurid on siin: CVstruktuurid.zip


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: T, 28. september 2021 12:53 UTC.