January 13, 2012

青空文庫のルビのマイニングをやり直した

################

「ヶケ」を漢字として扱っていなかったため,下のファイルでも取り切れていないようです.(bunさんにご指摘頂きました.ありがとうございます.)

################

ついカッとなって青空文庫からルビをマイニングしてみたものの

上のエントリでマイニングしたデータを少しちゃんと見たら,恥ずかしながらちゃんとルビが取れていないところがあったのでやり直しました.ごめんなさい.今度はあってるといいけど.ついでに"ファイル名\t文字\tルビ\n"だと後々使いにくいそうなので,
作品ID\t人物ID\t文字\tルビ\n
って形式にしました.

https://github.com/downloads/satomacoto/Playground/ruby_rev.zip

UTF-8.凡例含む出てきた順.被りあり.

################

「々仝〆〇ヶ」と「ケ」を漢字扱いにしてルビを抜き出しました.「ヶ原 はら」のような余計なものまで入っているので後処理が必要.

https://github.com/downloads/satomacoto/Playground/ruby_rev3.zip

################


% head ruby_rev.txt
046658 001257 倦怠 けんたい
046658 001257 玩味 がんみ
046658 001257 倦怠 けんたい
046658 001257 窪地 くぼち
046658 001257 鶉 うずら
046658 001257 啄木鳥 きつつき
046658 001257 叩 たた
046658 001257 漲 みな
046658 001257 栗鼠射 りすう
046658 001257 胡桃 くるみ
% wc ruby_rev.txt
 2212232 9099124 66071554 ruby_rev.txt

どうも
  • 青空文庫では漢字扱いの「々」が抜けてた
  • 注釈つきの文字(「※[#「火+稲のつくり」、第4水準2-79-87]みたいなの)」が取れてなかった
っぽいので,ルビを抜き出す正規表現を
((※[[^]]+?]|[一-龠々])+?|(?<=|)([^|]+?))《([^》]+?)》
としました.

どうなんだろうまだ微妙なのかな…正規表現ェ…