[python] htmlファイルから、日本語のテキストを取り出す

#!/usr/bin/python # coding: UTF-8 import sys import MeCab reload(sys) sys.setdefaultencoding('utf-8') def japanese(tl): try: tl.encode("ISO8859") return 0 except: try: tl.encode("shift-jis") return 1 except: return 0 argvs = sys.argv argc …

2011-06-04

[python][テキストマイニング] 2chからテキストデータを収集する。

取得するカテゴリを選択して、現行スレの一覧の値をurlという変数に代入して使う。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re import feedparser reload(sys) sys.setdefaultencoding('shift_jis') os.chdir("2ch") ur…

2011-06-04

[python][テキストマイニング] googleニュースをRSSから取得する。

#!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re import feedparser reload(sys) sys.setdefaultencoding('utf-8') os.chdir("googlenews") url = "http://news.google.com/news?ned=us&ie=UTF-8&oe=UTF-8&q=&output=atom&nu…

2011-06-04

はてなダイアリーからコーパスとなるテキストデータを収集する

python テキストマイニング

はてなダイアリーの更新順ダイアリー一覧からアドレスを取得してブログを巡回するプログラム一度取得したサイトは、取得した日に再び更新されないようにしてあります。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re relo…

gepuroの日記

2011-06-01から1ヶ月間の記事一覧

[python] htmlファイルから、日本語のテキストを取り出す

[python][テキストマイニング] 2chからテキストデータを収集する。

[python][テキストマイニング] googleニュースをRSSから取得する。

はてなダイアリーからコーパスとなるテキストデータを収集する