「ヶケ」を漢字として扱っていなかったため,下のファイルでも取り切れていないようです.(bunさんにご指摘頂きました.ありがとうございます.)
################
ついカッとなって青空文庫からルビをマイニングしてみたものの
上のエントリでマイニングしたデータを少しちゃんと見たら,恥ずかしながらちゃんとルビが取れていないところがあったのでやり直しました.ごめんなさい.今度はあってるといいけど.ついでに"ファイル名\t文字\tルビ\n"だと後々使いにくいそうなので,
作品ID\t人物ID\t文字\tルビ\nって形式にしました.
https://github.com/downloads/satomacoto/Playground/ruby_rev.zip
UTF-8.凡例含む出てきた順.被りあり.
################
「々仝〆〇ヶ」と「ケ」を漢字扱いにしてルビを抜き出しました.「ヶ原 はら」のような余計なものまで入っているので後処理が必要.
https://github.com/downloads/satomacoto/Playground/ruby_rev3.zip
################
% head ruby_rev.txt 046658 001257 倦怠 けんたい 046658 001257 玩味 がんみ 046658 001257 倦怠 けんたい 046658 001257 窪地 くぼち 046658 001257 鶉 うずら 046658 001257 啄木鳥 きつつき 046658 001257 叩 たた 046658 001257 漲 みな 046658 001257 栗鼠射 りすう 046658 001257 胡桃 くるみ % wc ruby_rev.txt 2212232 9099124 66071554 ruby_rev.txt
どうも
- 青空文庫では漢字扱いの「々」が抜けてた
- 注釈つきの文字(「※[#「火+稲のつくり」、第4水準2-79-87]みたいなの)」が取れてなかった
((※[[^]]+?]|[一-龠々])+?|(?<=|)([^|]+?))《([^》]+?)》としました.
どうなんだろうまだ微妙なのかな…正規表現ェ…
Thanks foor a great read
ReplyDelete