2011-01-01から1年間の記事一覧
遅くなりましたが、報告です。 12月17日に行ったさくさくテキストマイニング勉強会で発表した時に使用した資料です。 clustering of user View more presentations from gepuro
R Advent Calendar 2011 の21日目担当の @gepuro です。R言語から、Javaで記述されているWekaというデータマイニングツールを使用する方法を紹介します。ここでは、WekaにあるSimpleKMeansを使ってみます。 > help(SimpleKmeans) を参考にして、 > install.p…
遅くなりましたが、Japan.Rに参加した報告です。 今年はLT大会とブースセッション、Rの入門セッションと盛り沢山の内容でした。 LT大会に参加したので、その時に使用した資料を公開します。 Introduction of RMeCab View more presentations from gepuro
2ch View more presentations from gepuro 次は、複合語を考慮してやろうかな。
相関係数計算機なるものを気づいたら、作ってた。javascriptで書いてるので、ブラウザで有効にしてからお使いくださいませ。 ちなみに、相関係数は、2変数の相関関係を知るための統計量で、-1から1の値を取ります。1に近いほど正の相関が強く、-1に近いほ…
QaA View more presentations from gepuro 書いたプログラムにバグがチラホラ・・・。例外処理の部分をほとんど書いてないのが原因なのは分かっているが直していない。 また、質問文の品詞を本文とパターンマッチして、探し出すと良いかもしれないと言うアド…
cabochaを用いて $ cabocha -f 3 hoge.txt > hoge.xml として出力されたXMLファイルはそのままでは、パースする事ができない。そのため、一手間加えてあげる必要がある。(事前に、一行毎に改行をしている必要あり) #!/usr/bin/python # -*- coding:utf-8 -…
pythonでデータをR言語の時のように扱いたい。行列演算がしたいなどのような望みを叶えてくれるpandasというpythonのライブラリーについて、初歩的な使い方についてのメモ インストールに必要な物 バージョン1.40以上のNumpy バージョン1.5のpython-dateutil…
2つの変数が正規分布に従っていない時や、外れ値の影響を無視することが出来無い時に、相関を調べる手法として、大波の検定や小波の検定がある。これらを用いると、外れ値等の影響を受けにくいという利点がある。 これらは、符号検定という考え方に基づいて…
機械学習について何も知らない人向けに発表しました。 発表した自分自身も機械学習については、あまり知りませんでしたが、これを機会に理解を深めることが出来ました。 近いうちに、機械学習を使って、テキストの分類をしようかと思います。 Machine learni…
http://future.ddo.jp/cgi-bin/tm.cgiに置いてあります。シンプルな構成になっています。 操作方法は、 分析したいテキストデータをアップロードする。 特徴語抽出をクリックする。 です。 現在は、tf-idfによる分析しか出来ませんが、随時増やしていく予定…
#!/usr/bin/python # coding: UTF-8 import sys import MeCab reload(sys) sys.setdefaultencoding('utf-8') def japanese(tl): try: tl.encode("ISO8859") return 0 except: try: tl.encode("shift-jis") return 1 except: return 0 argvs = sys.argv argc …
取得するカテゴリを選択して、現行スレの一覧の値をurlという変数に代入して使う。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re import feedparser reload(sys) sys.setdefaultencoding('shift_jis') os.chdir("2ch") ur…
#!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re import feedparser reload(sys) sys.setdefaultencoding('utf-8') os.chdir("googlenews") url = "http://news.google.com/news?ned=us&ie=UTF-8&oe=UTF-8&q=&output=atom&nu…
はてなダイアリーの更新順ダイアリー一覧からアドレスを取得してブログを巡回するプログラム 一度取得したサイトは、取得した日に再び更新されないようにしてあります。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re relo…
ubuntu上のRで、 install.packages("YjdnJlp") としたら、 警告メッセージ: 1: In install.packages("YjdnJlp") : パッケージ 'XML' のインストールは、ゼロでない終了値をもちました 2: In install.packages("YjdnJlp") : パッケージ 'RCurl' のインストー…
ubuntuなどのLinuxでR言語を使用している時に、グラフを出力した時に日本語を含む場合に、正しく表示されないことがある。これを回避する方法を備忘録として残しておく。 plot(1:10,xlab="x軸",ylab="y軸") dev.copy(pdf,file="hoge.pdf",family="Japan1Ryum…
NLTKを使っての条件付き確立分布の表示について発表してきました。 こちらが、その時に使用した発表資料です。 Frequency with nltk View more presentations from gepuro ツイッターからパブリックタイムラインと自身のフォローしているユーザのタイムライ…
#!/usr/local/bin/python # coding: UTF-8 import sys argvs = sys.argv argc = len(argvs) print argvs if (argc != 2): quit() f = open(argvs[1]) line = f.readline() word = [] while line: flag = 0 for w in line: if flag: word.append(w) if w == "…
mecabで形態素解析を行うと次のようなテキストを得ることができる input.txt すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,…