satomacoto: 02/2015

February 25, 2015

Yahoo!競馬の情報から直近5走のデータを取得して縦馬柱をipython notebookで表示する

ipythonとpandasとlxmlをインストールしておいてipython notebookを起動

pip install ipython\[all\]
pip install pandas
pip install lxml
ipython notebook

でnotebook上で

to_htmlでclassも設定できるのでhtmlファイルに吐き出した後cssつければ見やすくできるかも．表示だけじゃなくてpandasでデータ処理して色々すればおもしろいか．勝馬予想するとかdoc2vec使って名前で配合するとか．

February 4, 2015

doc2vecに類似ラベル・ワードを探すメソッドの追加

word2vecはワードに対してベクトルを割り当てるが、doc2vec(aka paragraph2vec, aka sentence embeddings)は各ドキュメントに付けられたラベルに対してもベクトルを割り当てる。

gensimのdoc2vecはword2vecの拡張としてDistributed Representations of Sentences and Documentsの実装されている。チュートリアルはこれ。

似ているワードやドキュメントを取ってくるmost_similarというメソッドがあるが、ワードなのかラベルなのかは区別されない。そこで元のプロジェクトをフォークして限定して取得できるようにした。

satomacoto/gensim

フォーク先のブランチからインストールためにはzipを使ってpip install。

追記 2015/2/5

negativeオプションが効かなかったのを修正。

$ pip install -U https://github.com/satomacoto/gensim/archive/doc2vec-mostSimilarWordsAndLabels.zip

追加したメソッドはmost_similar_labelsとmost_similar_words。またワードのリストのリストをドキュメント群としてみなすためにLabeledListSentenceクラスを追加。各ドキュメントには順番にSENT_0, SENT_1…とラベルが振られる。ラベルは複数振ることができるのでクラスは自分で書いたほうがいいかも。実装はこれ。

以下サンプル。

SENT_0と一番に似てるのはSENT_7ということだが…

February 3, 2015

VagrantにPylearn2の環境を作りipython notebookで使う

Pylearn2のOther methodsにあるようにVagrant, VirtualBox
を使って試せるようにする。そしてipythonのすべてをインストール。

git clone git@github.com:ironchief/pylearn2_vagrant.git
cd pylearn2_vagrant
vagrant up
vagrant ssh -- -L 8888:localhost:8888
sudo pip install ipython\[all\]
ipython notebook

あるいはsshで入れるようにするときはVagrantfileに

config.vm.network "forwarded_port", guest: 8888, host: 8888

を記述してvagrant upかvagrant reloadして

vagrant ssh
ipython notebook --ip=0.0.0.0

とする。
起動が確認できたらブラウザから http://localhost:8888 にアクセスする。