テキストマイニング

共立出版のコーパスとテキストマイニングを頂きました

共著の方の一人から、本を頂きました。 この本は、様々な分野でテキストマイニングを用いた実例が多く掲載されており、実際に自分自身で実施する際に非常に参考になるかと思います。目次は、次のようになっています。 1.コーパスとテキストマイニング 2.金融…

2chのゆるゆり板を使って、共起グラフを書いてみた

今日は、こんなグラフを作ってみました。 やったことを下に箇条書きで書いていく。 ゆるゆり♪♪\298アッカリーン/ の過去ログを1まで辿りテキストを収集した。 htmlを解析して、発言のみを取り出した。 今回重要な当順人物の名前の辞書を作成した。 また、…

"言語処理のための機械学習入門"の一章を読んで

本書の一章では、機会学習を学んでいくにあたって必要な数学の知識が記されている。節としては、 準備と本書における約束事 最適化問題 確率 連続確率変数 パラメータ推定 情報理論 この章のまとめ がある。記述されている言葉は、平易で読みやすく書かれて…

編集距離を求めるライブラリpylevenshteinの紹介

日頃の生活の中で、2つの文字列の編集距離を求めたいなあっと思うことは、しばしばあると思います。 そんな時に、手軽に使用することができるライブラリがpylevenshteinです。C言語で書かれていて、高速で処理することができるそうです。 ライブラリは、htt…

第6回 さくさくテキストマイニング勉強会で発表しました。

遅くなりましたが、報告です。 12月17日に行ったさくさくテキストマイニング勉強会で発表した時に使用した資料です。 clustering of user View more presentations from gepuro

第2回 Japan.Rに行って来ました。

遅くなりましたが、Japan.Rに参加した報告です。 今年はLT大会とブースセッション、Rの入門セッションと盛り沢山の内容でした。 LT大会に参加したので、その時に使用した資料を公開します。 Introduction of RMeCab View more presentations from gepuro

第15回 データマイニング+WEB @東京 ( #TokyoWebmining 15th)−統計・ビジネス活用 祭り−で発表してきました。

2ch View more presentations from gepuro 次は、複合語を考慮してやろうかな。

はてなダイアリーからコーパスとなるテキストデータを収集する

はてなダイアリーの更新順ダイアリー一覧からアドレスを取得してブログを巡回するプログラム 一度取得したサイトは、取得した日に再び更新されないようにしてあります。 #!/usr/bin/python # coding: UTF-8 import sys,lxml.html,re,urllib2,time,os,re relo…

ubuntuにYjdnJlpパッケージをインストールしてみた

ubuntu上のRで、 install.packages("YjdnJlp") としたら、 警告メッセージ: 1: In install.packages("YjdnJlp") : パッケージ 'XML' のインストールは、ゼロでない終了値をもちました 2: In install.packages("YjdnJlp") : パッケージ 'RCurl' のインストー…

さくさくテキストマイニング勉強会第二回

NLTKを使っての条件付き確立分布の表示について発表してきました。 こちらが、その時に使用した発表資料です。 Frequency with nltk View more presentations from gepuro ツイッターからパブリックタイムラインと自身のフォローしているユーザのタイムライ…