2011-06-01から1ヶ月間の記事一覧

[python] htmlファイルから、日本語のテキストを取り出す

#!/usr/bin/python # coding: UTF-8 import sys import MeCab reload(sys) sys.setdefaultencoding('utf-8') def japanese(tl): try: tl.encode("ISO8859") return 0 except: try: tl.encode("shift-jis") return 1 except: return 0 argvs = sys.argv argc …

[python][テキストマイニング] 2chからテキストデータを収集する。

取得するカテゴリを選択して、現行スレの一覧の値をurlという変数に代入して使う。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re import feedparser reload(sys) sys.setdefaultencoding('shift_jis') os.chdir("2ch") ur…

[python][テキストマイニング] googleニュースをRSSから取得する。

#!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re import feedparser reload(sys) sys.setdefaultencoding('utf-8') os.chdir("googlenews") url = "http://news.google.com/news?ned=us&ie=UTF-8&oe=UTF-8&q=&output=atom&nu…

はてなダイアリーからコーパスとなるテキストデータを収集する

はてなダイアリーの更新順ダイアリー一覧からアドレスを取得してブログを巡回するプログラム 一度取得したサイトは、取得した日に再び更新されないようにしてあります。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re relo…