2011-04-01から1ヶ月間の記事一覧

さくさくテキストマイニング勉強会第二回

NLTKを使っての条件付き確立分布の表示について発表してきました。 こちらが、その時に使用した発表資料です。 Frequency with nltk View more presentations from gepuro ツイッターからパブリックタイムラインと自身のフォローしているユーザのタイムライ…

ipythonのヒストリーの行番号を消すスクリプト

#!/usr/local/bin/python # coding: UTF-8 import sys argvs = sys.argv argc = len(argvs) print argvs if (argc != 2): quit() f = open(argvs[1]) line = f.readline() word = [] while line: flag = 0 for w in line: if flag: word.append(w) if w == "…

タグ付きコーパスからタグを削除

mecabで形態素解析を行うと次のようなテキストを得ることができる input.txt すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,…