Skip to content

TartuNLP/ak_kaasaegseks_LT4HALA

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Asutava Kogu (1919-1920) protokollide korpuse teisendamine kaasaegseks (2026)

Projekt: „Infoeraldus ajalooliste institutsioonide protokollide (1880–1940) näitel“ EKKD-TA10

Terve korpuse teisendamiseks tee cd skriptid; ./teisenda_ak_nyydseks.sh

Eeldab paketi HFST olemasolu.

Failinimed

Failinimed eri kataloogides on vast iseseletuvad ja omavahel kergesti kokku viidavad.

Kataloogid

tokyo

See korpus on koostatud veebruaris 2009 Jaapanis Tokio ülikoolis prof Kazuto Matsumura juhendamisel.

Korpuse maht: 170 protokolli, kokku u kaks miljonit sõna. utf-8 kodeeringus, märgendus on esitatud xml-s .

Tekst on jagatud lõikudeks (märgend<p>) ja lauseteks (<s>). Laused on nummerdatud.

Failid on pärit TÜ arvutilingvistika rühma veebilehelt https://cl.ut.ee/korpused/baaskorpus/akp/

Täpsem nimekiri

tokyo_nyydne

See on kaasajastatud sõnavormidega versioon tokyo korpusest; failid tekitab skript teisenda_ak_nyydseks.sh

skriptid

Vt. README.md

About

Converting the corpus of Asutav Kogu (1919-1920) to contemporary Estonian (2026)

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors