第６回　さくさくテキストマイニング勉強会で発表しました。

遅くなりましたが、報告です。１２月１７日に行ったさくさくテキストマイニング勉強会で発表した時に使用した資料です。 clustering of user View more presentations from gepuro

2011-12-21

RからWekaのSimpleKMeansを使う

R

R Advent Calendar 2011 の21日目担当の @gepuro です。R言語から、Javaで記述されているWekaというデータマイニングツールを使用する方法を紹介します。ここでは、WekaにあるSimpleKMeansを使ってみます。 > help(SimpleKmeans) を参考にして、 > install.p…

2011-11-29

第２回 Japan.Rに行って来ました。

R mecab テキストマイニング勉強会

遅くなりましたが、Japan.Rに参加した報告です。今年はLT大会とブースセッション、Rの入門セッションと盛り沢山の内容でした。 LT大会に参加したので、その時に使用した資料を公開します。 Introduction of RMeCab View more presentations from gepuro

2011-11-08

第15回データマイニング+WEB ＠東京　( #TokyoWebmining 15th)−統計・ビジネス活用祭り−で発表してきました。

テキストマイニング R 勉強会

2ch View more presentations from gepuro 次は、複合語を考慮してやろうかな。

2011-11-03

相関係数をブラウザ上でお手軽に計算

javascript 統計

相関係数計算機なるものを気づいたら、作ってた。javascriptで書いてるので、ブラウザで有効にしてからお使いくださいませ。ちなみに、相関係数は、２変数の相関関係を知るための統計量で、-1から1の値を取ります。１に近いほど正の相関が強く、-1に近いほ…

2011-10-20

[python][テキストマイニング] 第５回　さくさくテキストマイニング勉強会で発表してきました。

QaA View more presentations from gepuro 書いたプログラムにバグがチラホラ・・・。例外処理の部分をほとんど書いてないのが原因なのは分かっているが直していない。また、質問文の品詞を本文とパターンマッチして、探し出すと良いかもしれないと言うアド…

2011-10-14

CaboChaによってXMLで出力されたファイルをパースする。

python cabocha

cabochaを用いて $ cabocha -f 3 hoge.txt > hoge.xml として出力されたXMLファイルはそのままでは、パースする事ができない。そのため、一手間加えてあげる必要がある。（事前に、一行毎に改行をしている必要あり） #!/usr/bin/python # -*- coding:utf-8 -…

2011-09-14

pandas0.40の使い方メモ

python pandas

pythonでデータをR言語の時のように扱いたい。行列演算がしたいなどのような望みを叶えてくれるpandasというpythonのライブラリーについて、初歩的な使い方についてのメモインストールに必要な物バージョン1.40以上のNumpy バージョン1.5のpython-dateutil…

2011-09-02

大波の検定、小波の検定を実装してみた

python 統計

２つの変数が正規分布に従っていない時や、外れ値の影響を無視することが出来無い時に、相関を調べる手法として、大波の検定や小波の検定がある。これらを用いると、外れ値等の影響を受けにくいという利点がある。これらは、符号検定という考え方に基づいて…

2011-07-17

[python][機械学習] 第4回さくさくテキストマイニング勉強会で発表しました。

機械学習について何も知らない人向けに発表しました。発表した自分自身も機械学習については、あまり知りませんでしたが、これを機会に理解を深めることが出来ました。近いうちに、機械学習を使って、テキストの分類をしようかと思います。 Machine learni…

2011-07-12

[python][cgi][テキストマイニング] ブラウザからtf-idfで特徴語抽出ができるプログラムを書きました

http://future.ddo.jp/cgi-bin/tm.cgiに置いてあります。シンプルな構成になっています。操作方法は、分析したいテキストデータをアップロードする。特徴語抽出をクリックする。です。現在は、tf-idfによる分析しか出来ませんが、随時増やしていく予定…

2011-06-04

[python] htmlファイルから、日本語のテキストを取り出す

#!/usr/bin/python # coding: UTF-8 import sys import MeCab reload(sys) sys.setdefaultencoding('utf-8') def japanese(tl): try: tl.encode("ISO8859") return 0 except: try: tl.encode("shift-jis") return 1 except: return 0 argvs = sys.argv argc …

2011-06-04

[python][テキストマイニング] 2chからテキストデータを収集する。

取得するカテゴリを選択して、現行スレの一覧の値をurlという変数に代入して使う。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re import feedparser reload(sys) sys.setdefaultencoding('shift_jis') os.chdir("2ch") ur…

2011-06-04

[python][テキストマイニング] googleニュースをRSSから取得する。

#!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re import feedparser reload(sys) sys.setdefaultencoding('utf-8') os.chdir("googlenews") url = "http://news.google.com/news?ned=us&ie=UTF-8&oe=UTF-8&q=&output=atom&nu…

2011-06-04

はてなダイアリーからコーパスとなるテキストデータを収集する

python テキストマイニング

はてなダイアリーの更新順ダイアリー一覧からアドレスを取得してブログを巡回するプログラム一度取得したサイトは、取得した日に再び更新されないようにしてあります。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re relo…

2011-05-15

ubuntuにYjdnJlpパッケージをインストールしてみた

R テキストマイニング

ubuntu上のRで、 install.packages("YjdnJlp") としたら、警告メッセージ： 1: In install.packages("YjdnJlp") : パッケージ 'XML' のインストールは、ゼロでない終了値をもちました 2: In install.packages("YjdnJlp") : パッケージ 'RCurl' のインストー…

2011-05-02

Rによるグラフの保存に日本語を使う

R ubuntu

ubuntuなどのLinuxでR言語を使用している時に、グラフを出力した時に日本語を含む場合に、正しく表示されないことがある。これを回避する方法を備忘録として残しておく。 plot(1:10,xlab="x軸",ylab="y軸") dev.copy(pdf,file="hoge.pdf",family="Japan1Ryum…

2011-04-19

さくさくテキストマイニング勉強会第二回

python nltk テキストマイニング

NLTKを使っての条件付き確立分布の表示について発表してきました。こちらが、その時に使用した発表資料です。 Frequency with nltk View more presentations from gepuro ツイッターからパブリックタイムラインと自身のフォローしているユーザのタイムライ…

2011-04-11

ipythonのヒストリーの行番号を消すスクリプト

python

#!/usr/local/bin/python # coding: UTF-8 import sys argvs = sys.argv argc = len(argvs) print argvs if (argc != 2): quit() f = open(argvs[1]) line = f.readline() word = [] while line: flag = 0 for w in line: if flag: word.append(w) if w == "…

2011-04-11

タグ付きコーパスからタグを削除

python mecab

mecabで形態素解析を行うと次のようなテキストを得ることができる input.txt すもも名詞,一般,*,*,*,*,すもも,スモモ,スモモも助詞,係助詞,*,*,*,*,も,モ,モもも名詞,一般,*,*,*,*,もも,モモ,モモも助詞,係助詞,*,*,*,*,も,モ,モもも名詞,一般,*,*,…

gepuroの日記

2011-01-01から1年間の記事一覧

第６回　さくさくテキストマイニング勉強会で発表しました。

RからWekaのSimpleKMeansを使う

第２回 Japan.Rに行って来ました。

第15回データマイニング+WEB ＠東京　( #TokyoWebmining 15th)−統計・ビジネス活用祭り−で発表してきました。

相関係数をブラウザ上でお手軽に計算

[python][テキストマイニング] 第５回　さくさくテキストマイニング勉強会で発表してきました。

CaboChaによってXMLで出力されたファイルをパースする。

pandas0.40の使い方メモ

大波の検定、小波の検定を実装してみた

[python][機械学習] 第4回さくさくテキストマイニング勉強会で発表しました。

[python][cgi][テキストマイニング] ブラウザからtf-idfで特徴語抽出ができるプログラムを書きました

[python] htmlファイルから、日本語のテキストを取り出す

[python][テキストマイニング] 2chからテキストデータを収集する。

[python][テキストマイニング] googleニュースをRSSから取得する。

はてなダイアリーからコーパスとなるテキストデータを収集する

ubuntuにYjdnJlpパッケージをインストールしてみた

Rによるグラフの保存に日本語を使う

さくさくテキストマイニング勉強会第二回

ipythonのヒストリーの行番号を消すスクリプト

タグ付きコーパスからタグを削除