python

Dentoo.LT #2で発表してきました。

発表内容は、 "APIを作ってみた"です。 イベント当日の朝、TOEICの受験会場に行く前に少し時間が出来たので、 その場の勢いで資料を作ってしまいました。R Advent Calendar2012で紹介した内容なので、以前にブログで紹介しています。 Dentoo.LT #2が、参加登…

geplotの裏側 (R Advent Calendar2012の続き)

google chart apiのようなものをR言語を利用して再現してみる(R Advent Calendar2012) の話の続きです。twitter上で、サーバサイドのコードも見たいという話が上がったので、公開します。 https://github.com/gepuro/geplot に公開してあります。 綺麗なコー…

第5回 集合知プログラミング勉強会 で発表してきました。

僕の担当は、5章最適化の前半部分で、ランダムサーチ、ヒルクライム、疑似アニーリング、遺伝的アルゴリズムについて紹介しました。 以下が、その時に利用した資料です。 集合知プログラミング5章前半 from gepuro

シェルスクリプトでお手軽並列処理

大規模な分散処理をする必要はなくても、並列処理を行なって手早く結果が欲しいケースがよくある。 そんな時にシェルスクリプトを使って、お手軽に並列処理をしてみるのが便利なのではないか。 パイプ処理を活用する。 $ cat hoge.csv | python a.py | pytho…

unicode文字列のエスケープをデコードする

時々、入手したテキスト内にある文字列がエスケープされていることがある。 これをデコードして、元の文字列にする方法を調べたので、メモを残しておく。 #!/usr/bin/python # -*- coding:utf-8 -*- import sys for line in sys.stdin: print line.decode('u…

編集距離を求めるライブラリpylevenshteinの紹介

日頃の生活の中で、2つの文字列の編集距離を求めたいなあっと思うことは、しばしばあると思います。 そんな時に、手軽に使用することができるライブラリがpylevenshteinです。C言語で書かれていて、高速で処理することができるそうです。 ライブラリは、htt…

pyevolveの使い方メモ

ニコニコ動画にアップロードされている【人工知能】物理エンジンで人工生命つくって学習させたをみて、遺伝的アルゴリズムに興味を持ったので、pythonで遺伝的アルゴリズムを利用することができるpyevolveを試してみました。ドキュメントは、こちらにありま…

CaboChaによってXMLで出力されたファイルをパースする。

cabochaを用いて $ cabocha -f 3 hoge.txt > hoge.xml として出力されたXMLファイルはそのままでは、パースする事ができない。そのため、一手間加えてあげる必要がある。(事前に、一行毎に改行をしている必要あり) #!/usr/bin/python # -*- coding:utf-8 -…

pandas0.40の使い方メモ

pythonでデータをR言語の時のように扱いたい。行列演算がしたいなどのような望みを叶えてくれるpandasというpythonのライブラリーについて、初歩的な使い方についてのメモ インストールに必要な物 バージョン1.40以上のNumpy バージョン1.5のpython-dateutil…

大波の検定、小波の検定を実装してみた

2つの変数が正規分布に従っていない時や、外れ値の影響を無視することが出来無い時に、相関を調べる手法として、大波の検定や小波の検定がある。これらを用いると、外れ値等の影響を受けにくいという利点がある。 これらは、符号検定という考え方に基づいて…

はてなダイアリーからコーパスとなるテキストデータを収集する

はてなダイアリーの更新順ダイアリー一覧からアドレスを取得してブログを巡回するプログラム 一度取得したサイトは、取得した日に再び更新されないようにしてあります。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re relo…

さくさくテキストマイニング勉強会第二回

NLTKを使っての条件付き確立分布の表示について発表してきました。 こちらが、その時に使用した発表資料です。 Frequency with nltk View more presentations from gepuro ツイッターからパブリックタイムラインと自身のフォローしているユーザのタイムライ…

ipythonのヒストリーの行番号を消すスクリプト

#!/usr/local/bin/python # coding: UTF-8 import sys argvs = sys.argv argc = len(argvs) print argvs if (argc != 2): quit() f = open(argvs[1]) line = f.readline() word = [] while line: flag = 0 for w in line: if flag: word.append(w) if w == "…

タグ付きコーパスからタグを削除

mecabで形態素解析を行うと次のようなテキストを得ることができる input.txt すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,…