Algusesse Inimesed Korpused Ressursid

Morfoloogiliselt ühestatud jututubade korpus

Korpuse maht on 94 000 sõna pluss kirjavahemärgid ja kasutajanimed. Korpus on väljavõte jututubade korpusest . ESTMORFi abil automaatselt analüüsitud tekstid ühestas-parandas käsitsi Dage Särg aastal 2012 oma magistritöö Internetikeele süntaktiline analüüs kitsenduste grammatikaga. Tartu 2015 tarvis.

Formaat

Failiformaat on peaaegu samasugune kui morfoloogiliselt ühestatud korpusel, kuid

Täpitähed on utf8 kodeeringus
Morfoloogiliste kategooriatena on kasutusel

Pakitud failide failid_fs.zip puhul Filosofti kategooriad,
Pakitud failide failid_gt.zip puhul Giellatekno kategooriad, mis on kasutusel ka keeleveebi korpuste märgendusena

Lisaks eristatakse veel järgmisi sõnaliike:

B - lausepartikkel, nt. "noh"
E - emotikon
Q - sõna osaks olev, kuid eraldi trükitud osa, nt. "magasid ki"