Projekt: „Infoeraldus ajalooliste institutsioonide protokollide (1880–1940) näitel“ EKKD-TA10
Terve korpuse teisendamiseks tee cd skriptid; ./teisenda_ak_nyydseks.sh
Eeldab paketi HFST olemasolu.
Failinimed eri kataloogides on vast iseseletuvad ja omavahel kergesti kokku viidavad.
See korpus on koostatud veebruaris 2009 Jaapanis Tokio ülikoolis prof Kazuto Matsumura juhendamisel.
Korpuse maht: 170 protokolli, kokku u kaks miljonit sõna. utf-8 kodeeringus, märgendus on esitatud xml-s .
Tekst on jagatud lõikudeks (märgend<p>) ja lauseteks (<s>).
Laused on nummerdatud.
Failid on pärit TÜ arvutilingvistika rühma veebilehelt https://cl.ut.ee/korpused/baaskorpus/akp/
Täpsem nimekiri
See on kaasajastatud sõnavormidega versioon tokyo korpusest; failid tekitab skript teisenda_ak_nyydseks.sh
Vt. README.md