でKyotoCorpus4.0.tar.gzをダウンロードして解凍してREADME通りに実行.
でもMac OS X 10.7.5だとそのままコーパスをつくろうとすると
euc-jp "\xA4" does not map to Unicode at ./src/dupli.pl line 9,みたいなエラーが出ちゃう.そこで以下の手順でちょっと手を加えます.line 163.
1. 同じフォルダにmai1995.txtをコピー.毎日新聞1995年版CD-ROMのファイルはmai1995.txt (Oct 6, 2011 11:37AM)でした.
2. 文字コードと改行コードとファイル名の変換
nkf -s -Lu mai1995.txt > mai95.txt
3. src/format.plとsrc/num2KNP.plについてuse open ":std";を追加
...
use open IO => ':encoding(euc-jp)';
use open ":std";
...
4. 実行
./auto_conv -d .
参考
- mizlog 京都大学テキストコーパス on Lion