[python][機械学習] 第4回 さくさくテキストマイニング勉強会で発表しました。

機械学習について何も知らない人向けに発表しました。 発表した自分自身も機械学習については、あまり知りませんでしたが、これを機会に理解を深めることが出来ました。 近いうちに、機械学習を使って、テキストの分類をしようかと思います。 Machine learni…

[python][cgi][テキストマイニング] ブラウザからtf-idfで特徴語抽出ができるプログラムを書きました

http://future.ddo.jp/cgi-bin/tm.cgiに置いてあります。シンプルな構成になっています。 操作方法は、 分析したいテキストデータをアップロードする。 特徴語抽出をクリックする。 です。 現在は、tf-idfによる分析しか出来ませんが、随時増やしていく予定…

[python] htmlファイルから、日本語のテキストを取り出す

#!/usr/bin/python # coding: UTF-8 import sys import MeCab reload(sys) sys.setdefaultencoding('utf-8') def japanese(tl): try: tl.encode("ISO8859") return 0 except: try: tl.encode("shift-jis") return 1 except: return 0 argvs = sys.argv argc …

[python][テキストマイニング] 2chからテキストデータを収集する。

取得するカテゴリを選択して、現行スレの一覧の値をurlという変数に代入して使う。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re import feedparser reload(sys) sys.setdefaultencoding('shift_jis') os.chdir("2ch") ur…

[python][テキストマイニング] googleニュースをRSSから取得する。

#!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re import feedparser reload(sys) sys.setdefaultencoding('utf-8') os.chdir("googlenews") url = "http://news.google.com/news?ned=us&ie=UTF-8&oe=UTF-8&q=&output=atom&nu…

はてなダイアリーからコーパスとなるテキストデータを収集する

はてなダイアリーの更新順ダイアリー一覧からアドレスを取得してブログを巡回するプログラム 一度取得したサイトは、取得した日に再び更新されないようにしてあります。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re relo…

ubuntuにYjdnJlpパッケージをインストールしてみた

ubuntu上のRで、 install.packages("YjdnJlp") としたら、 警告メッセージ: 1: In install.packages("YjdnJlp") : パッケージ 'XML' のインストールは、ゼロでない終了値をもちました 2: In install.packages("YjdnJlp") : パッケージ 'RCurl' のインストー…

Rによるグラフの保存に日本語を使う

ubuntuなどのLinuxでR言語を使用している時に、グラフを出力した時に日本語を含む場合に、正しく表示されないことがある。これを回避する方法を備忘録として残しておく。 plot(1:10,xlab="x軸",ylab="y軸") dev.copy(pdf,file="hoge.pdf",family="Japan1Ryum…

さくさくテキストマイニング勉強会第二回

NLTKを使っての条件付き確立分布の表示について発表してきました。 こちらが、その時に使用した発表資料です。 Frequency with nltk View more presentations from gepuro ツイッターからパブリックタイムラインと自身のフォローしているユーザのタイムライ…

ipythonのヒストリーの行番号を消すスクリプト

#!/usr/local/bin/python # coding: UTF-8 import sys argvs = sys.argv argc = len(argvs) print argvs if (argc != 2): quit() f = open(argvs[1]) line = f.readline() word = [] while line: flag = 0 for w in line: if flag: word.append(w) if w == "…

タグ付きコーパスからタグを削除

mecabで形態素解析を行うと次のようなテキストを得ることができる input.txt すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,…