[python][機械学習] 第4回さくさくテキストマイニング勉強会で発表しました。

機械学習について何も知らない人向けに発表しました。発表した自分自身も機械学習については、あまり知りませんでしたが、これを機会に理解を深めることが出来ました。近いうちに、機械学習を使って、テキストの分類をしようかと思います。 Machine learni…

2011-07-12

[python][cgi][テキストマイニング] ブラウザからtf-idfで特徴語抽出ができるプログラムを書きました

http://future.ddo.jp/cgi-bin/tm.cgiに置いてあります。シンプルな構成になっています。操作方法は、分析したいテキストデータをアップロードする。特徴語抽出をクリックする。です。現在は、tf-idfによる分析しか出来ませんが、随時増やしていく予定…

2011-06-04

[python] htmlファイルから、日本語のテキストを取り出す

#!/usr/bin/python # coding: UTF-8 import sys import MeCab reload(sys) sys.setdefaultencoding('utf-8') def japanese(tl): try: tl.encode("ISO8859") return 0 except: try: tl.encode("shift-jis") return 1 except: return 0 argvs = sys.argv argc …

2011-06-04

[python][テキストマイニング] 2chからテキストデータを収集する。

取得するカテゴリを選択して、現行スレの一覧の値をurlという変数に代入して使う。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re import feedparser reload(sys) sys.setdefaultencoding('shift_jis') os.chdir("2ch") ur…

2011-06-04

[python][テキストマイニング] googleニュースをRSSから取得する。

#!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re import feedparser reload(sys) sys.setdefaultencoding('utf-8') os.chdir("googlenews") url = "http://news.google.com/news?ned=us&ie=UTF-8&oe=UTF-8&q=&output=atom&nu…

2011-06-04

はてなダイアリーからコーパスとなるテキストデータを収集する

python テキストマイニング

はてなダイアリーの更新順ダイアリー一覧からアドレスを取得してブログを巡回するプログラム一度取得したサイトは、取得した日に再び更新されないようにしてあります。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re relo…

2011-05-15

ubuntuにYjdnJlpパッケージをインストールしてみた

R テキストマイニング

ubuntu上のRで、 install.packages("YjdnJlp") としたら、警告メッセージ： 1: In install.packages("YjdnJlp") : パッケージ 'XML' のインストールは、ゼロでない終了値をもちました 2: In install.packages("YjdnJlp") : パッケージ 'RCurl' のインストー…

2011-05-02

Rによるグラフの保存に日本語を使う

R ubuntu

ubuntuなどのLinuxでR言語を使用している時に、グラフを出力した時に日本語を含む場合に、正しく表示されないことがある。これを回避する方法を備忘録として残しておく。 plot(1:10,xlab="x軸",ylab="y軸") dev.copy(pdf,file="hoge.pdf",family="Japan1Ryum…

2011-04-19

さくさくテキストマイニング勉強会第二回

python nltk テキストマイニング

NLTKを使っての条件付き確立分布の表示について発表してきました。こちらが、その時に使用した発表資料です。 Frequency with nltk View more presentations from gepuro ツイッターからパブリックタイムラインと自身のフォローしているユーザのタイムライ…

2011-04-11

ipythonのヒストリーの行番号を消すスクリプト

python

#!/usr/local/bin/python # coding: UTF-8 import sys argvs = sys.argv argc = len(argvs) print argvs if (argc != 2): quit() f = open(argvs[1]) line = f.readline() word = [] while line: flag = 0 for w in line: if flag: word.append(w) if w == "…

2011-04-11

タグ付きコーパスからタグを削除

python mecab

mecabで形態素解析を行うと次のようなテキストを得ることができる input.txt すもも名詞,一般,*,*,*,*,すもも,スモモ,スモモも助詞,係助詞,*,*,*,*,も,モ,モもも名詞,一般,*,*,*,*,もも,モモ,モモも助詞,係助詞,*,*,*,*,も,モ,モもも名詞,一般,*,*,…