November 8, 2009

Webstemmer使い方抜粋

  1. 学習用ページの取得

    textcrawler.py -o nikkei http://www.nikkei.co.jp/

  2. 学習

    analyze.py nikkei.2009xxxxxxxx.zip > nikkei.pat

  3. 抽出用ページの取得

    textcrawler.py -o nikkei http://www.nikkei.co.jp/

  4. 抽出

    extract.py -Ceuc-jp nikkei.pat nikkei.2009yyyyyyyy.zip > nikkei.txt