2011-01-01から1年間の記事一覧

第6回 さくさくテキストマイニング勉強会で発表しました。

遅くなりましたが、報告です。 12月17日に行ったさくさくテキストマイニング勉強会で発表した時に使用した資料です。 clustering of user View more presentations from gepuro

RからWekaのSimpleKMeansを使う

R

R Advent Calendar 2011 の21日目担当の @gepuro です。R言語から、Javaで記述されているWekaというデータマイニングツールを使用する方法を紹介します。ここでは、WekaにあるSimpleKMeansを使ってみます。 > help(SimpleKmeans) を参考にして、 > install.p…

第2回 Japan.Rに行って来ました。

遅くなりましたが、Japan.Rに参加した報告です。 今年はLT大会とブースセッション、Rの入門セッションと盛り沢山の内容でした。 LT大会に参加したので、その時に使用した資料を公開します。 Introduction of RMeCab View more presentations from gepuro

第15回 データマイニング+WEB @東京 ( #TokyoWebmining 15th)−統計・ビジネス活用 祭り−で発表してきました。

2ch View more presentations from gepuro 次は、複合語を考慮してやろうかな。

相関係数をブラウザ上でお手軽に計算

相関係数計算機なるものを気づいたら、作ってた。javascriptで書いてるので、ブラウザで有効にしてからお使いくださいませ。 ちなみに、相関係数は、2変数の相関関係を知るための統計量で、-1から1の値を取ります。1に近いほど正の相関が強く、-1に近いほ…

[python][テキストマイニング] 第5回 さくさくテキストマイニング勉強会で発表してきました。

QaA View more presentations from gepuro 書いたプログラムにバグがチラホラ・・・。例外処理の部分をほとんど書いてないのが原因なのは分かっているが直していない。 また、質問文の品詞を本文とパターンマッチして、探し出すと良いかもしれないと言うアド…

CaboChaによってXMLで出力されたファイルをパースする。

cabochaを用いて $ cabocha -f 3 hoge.txt > hoge.xml として出力されたXMLファイルはそのままでは、パースする事ができない。そのため、一手間加えてあげる必要がある。(事前に、一行毎に改行をしている必要あり) #!/usr/bin/python # -*- coding:utf-8 -…

pandas0.40の使い方メモ

pythonでデータをR言語の時のように扱いたい。行列演算がしたいなどのような望みを叶えてくれるpandasというpythonのライブラリーについて、初歩的な使い方についてのメモ インストールに必要な物 バージョン1.40以上のNumpy バージョン1.5のpython-dateutil…

大波の検定、小波の検定を実装してみた

2つの変数が正規分布に従っていない時や、外れ値の影響を無視することが出来無い時に、相関を調べる手法として、大波の検定や小波の検定がある。これらを用いると、外れ値等の影響を受けにくいという利点がある。 これらは、符号検定という考え方に基づいて…

[python][機械学習] 第4回 さくさくテキストマイニング勉強会で発表しました。

機械学習について何も知らない人向けに発表しました。 発表した自分自身も機械学習については、あまり知りませんでしたが、これを機会に理解を深めることが出来ました。 近いうちに、機械学習を使って、テキストの分類をしようかと思います。 Machine learni…

[python][cgi][テキストマイニング] ブラウザからtf-idfで特徴語抽出ができるプログラムを書きました

http://future.ddo.jp/cgi-bin/tm.cgiに置いてあります。シンプルな構成になっています。 操作方法は、 分析したいテキストデータをアップロードする。 特徴語抽出をクリックする。 です。 現在は、tf-idfによる分析しか出来ませんが、随時増やしていく予定…

[python] htmlファイルから、日本語のテキストを取り出す

#!/usr/bin/python # coding: UTF-8 import sys import MeCab reload(sys) sys.setdefaultencoding('utf-8') def japanese(tl): try: tl.encode("ISO8859") return 0 except: try: tl.encode("shift-jis") return 1 except: return 0 argvs = sys.argv argc …

[python][テキストマイニング] 2chからテキストデータを収集する。

取得するカテゴリを選択して、現行スレの一覧の値をurlという変数に代入して使う。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re import feedparser reload(sys) sys.setdefaultencoding('shift_jis') os.chdir("2ch") ur…

[python][テキストマイニング] googleニュースをRSSから取得する。

#!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re import feedparser reload(sys) sys.setdefaultencoding('utf-8') os.chdir("googlenews") url = "http://news.google.com/news?ned=us&ie=UTF-8&oe=UTF-8&q=&output=atom&nu…

はてなダイアリーからコーパスとなるテキストデータを収集する

はてなダイアリーの更新順ダイアリー一覧からアドレスを取得してブログを巡回するプログラム 一度取得したサイトは、取得した日に再び更新されないようにしてあります。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re relo…

ubuntuにYjdnJlpパッケージをインストールしてみた

ubuntu上のRで、 install.packages("YjdnJlp") としたら、 警告メッセージ: 1: In install.packages("YjdnJlp") : パッケージ 'XML' のインストールは、ゼロでない終了値をもちました 2: In install.packages("YjdnJlp") : パッケージ 'RCurl' のインストー…

Rによるグラフの保存に日本語を使う

ubuntuなどのLinuxでR言語を使用している時に、グラフを出力した時に日本語を含む場合に、正しく表示されないことがある。これを回避する方法を備忘録として残しておく。 plot(1:10,xlab="x軸",ylab="y軸") dev.copy(pdf,file="hoge.pdf",family="Japan1Ryum…

さくさくテキストマイニング勉強会第二回

NLTKを使っての条件付き確立分布の表示について発表してきました。 こちらが、その時に使用した発表資料です。 Frequency with nltk View more presentations from gepuro ツイッターからパブリックタイムラインと自身のフォローしているユーザのタイムライ…

ipythonのヒストリーの行番号を消すスクリプト

#!/usr/local/bin/python # coding: UTF-8 import sys argvs = sys.argv argc = len(argvs) print argvs if (argc != 2): quit() f = open(argvs[1]) line = f.readline() word = [] while line: flag = 0 for w in line: if flag: word.append(w) if w == "…

タグ付きコーパスからタグを削除

mecabで形態素解析を行うと次のようなテキストを得ることができる input.txt すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,…