Blogを引越しました

折角、自分のドメインを取っているのに、あまり有効活用ができていなかったり、はてなダイアリーは数式が弱いなどの理由で、ブログを引越しました。アドレスは、http://blog.gepuro.net です。これからも、よろしくお願いします。

Dentoo.LT #2で発表してきました。

発表内容は、 "APIを作ってみた"です。 イベント当日の朝、TOEICの受験会場に行く前に少し時間が出来たので、 その場の勢いで資料を作ってしまいました。R Advent Calendar2012で紹介した内容なので、以前にブログで紹介しています。 Dentoo.LT #2が、参加登…

geplotの裏側 (R Advent Calendar2012の続き)

google chart apiのようなものをR言語を利用して再現してみる(R Advent Calendar2012) の話の続きです。twitter上で、サーバサイドのコードも見たいという話が上がったので、公開します。 https://github.com/gepuro/geplot に公開してあります。 綺麗なコー…

google chart apiのようなものをR言語を利用して再現してみる(R Advent Calendar2012)

R

R Advent Calendar2012、18日目です。 google chart apiは、パラメータを指定してリクエストを送るとpng画像としてグラフを作成してくれる。 例えば、 <img src="http://chart.apis.google.com/chart?chs=300x300&chd=t:10,20,30|40,50,60&cht=s">のようにhtml内に記述すれば、 と表示してくれる。これらは非常に便利なのだが、R言語を使う人ならば、 …

共立出版のコーパスとテキストマイニングを頂きました

共著の方の一人から、本を頂きました。 この本は、様々な分野でテキストマイニングを用いた実例が多く掲載されており、実際に自分自身で実施する際に非常に参考になるかと思います。目次は、次のようになっています。 1.コーパスとテキストマイニング 2.金融…

第5回 集合知プログラミング勉強会 で発表してきました。

僕の担当は、5章最適化の前半部分で、ランダムサーチ、ヒルクライム、疑似アニーリング、遺伝的アルゴリズムについて紹介しました。 以下が、その時に利用した資料です。 集合知プログラミング5章前半 from gepuro

シェルスクリプトでお手軽並列処理

大規模な分散処理をする必要はなくても、並列処理を行なって手早く結果が欲しいケースがよくある。 そんな時にシェルスクリプトを使って、お手軽に並列処理をしてみるのが便利なのではないか。 パイプ処理を活用する。 $ cat hoge.csv | python a.py | pytho…

2chのゆるゆり板を使って、共起グラフを書いてみた

今日は、こんなグラフを作ってみました。 やったことを下に箇条書きで書いていく。 ゆるゆり♪♪\298アッカリーン/ の過去ログを1まで辿りテキストを収集した。 htmlを解析して、発言のみを取り出した。 今回重要な当順人物の名前の辞書を作成した。 また、…

Zansa第7回勉強会で発表してきました!

Zansa7-信頼性工学と統計 View more presentations from gepuro 予想以上に質問等の発言が多くて、盛り上がりました。

"言語処理のための機械学習入門"の一章を読んで

本書の一章では、機会学習を学んでいくにあたって必要な数学の知識が記されている。節としては、 準備と本書における約束事 最適化問題 確率 連続確率変数 パラメータ推定 情報理論 この章のまとめ がある。記述されている言葉は、平易で読みやすく書かれて…

第22回R勉強会@東京(#TokyoR)に参加&LTしてきました。

今回は、「らくがき!」というタイトルで緩い発表をしました。LT時間は5分でありましたが、3分程度しか場が持ちませんでした。後の懇親会では、発表の仕方のアドバイスなどを頂き、感謝です。 らくがき! View more presentations from gepuro 以下、汚いRの…

他大学の研究室のゼミ資料でお勉強

茨城大学の新納浩幸のホームページに、研究室で行ってるゼミの資料が公開されていたので、 僕もその資料を読んで、こっそりと勉強をさせてもらおうと思う。今年度に読んでいる本が2冊あるようで、Rで学ぶベイズ統計学入門(ゼミ資料)と、カーネル多変量解析(…

ベイズの定理

はてダで数式を書く練習も兼ねて、ベイズの定理の証明を。 条件付き確率は、 と定義されている。 定義より、 であり、 より、 が成り立つ。

UEC合同新歓を開催しました

電気通信大学で、新入生に向けてのサークルの合同新歓を行いました。 1. 開会の挨拶 2. 団体紹介 TeRes なんでもやってるサークルです。折り紙もやってるよ! 工学研究部 ゲームを通じて、工研をデモ体験。クオリティ高い! MMA サーバ構築、プログラミング…

unicode文字列のエスケープをデコードする

時々、入手したテキスト内にある文字列がエスケープされていることがある。 これをデコードして、元の文字列にする方法を調べたので、メモを残しておく。 #!/usr/bin/python # -*- coding:utf-8 -*- import sys for line in sys.stdin: print line.decode('u…

情報処理学会 第74回全国大会に参加して

一年ほど前より、都内で開かれている勉強を中心に参加をしてきて、私自身が発表する機会も何度も頂いてきた。 しかしながら、学会に参加するというのは初めての経験で、刺激的な会でした。参加する一番の動機づけとなったのは、私的勉強会と学会の未来 [パ…

R言語でデータを縦に結合させる

R

Rには、rbindという関数があるのだが、データフレームを結合する時に、列が揃っていないと怒られてしまう。 Rでsetにあるように、SASではsetという関数が用意されているが、Rには無いようです。 ここに掲載されているソースコードは、2つのデータフレー…

2011年度 S-PLUS学生研究奨励賞に投稿して

特別賞してから少し経っていますが、投稿したものがweb上に掲載れているのを確認したので報告します。 2011年度 S-PLUS学生研究奨励賞 結果発表に掲載されています。 投稿したものは、「インターネット掲示板の特定スレッドにおける時系列テキストデータに対…

Zansa 第四回に参加してきました。

以前から気になっていたZansaの会に参加しました。 おしゃスタで出会った学生さんが主催しています。Zansa データマイニングは、学問は実務から生まれたもの 自己紹介は、一人15秒!! 最近の"一語"を絡めた自己紹介 重回帰分析 回帰分析とは 単回帰分析 結…

編集距離を求めるライブラリpylevenshteinの紹介

日頃の生活の中で、2つの文字列の編集距離を求めたいなあっと思うことは、しばしばあると思います。 そんな時に、手軽に使用することができるライブラリがpylevenshteinです。C言語で書かれていて、高速で処理することができるそうです。 ライブラリは、htt…

pyevolveの使い方メモ

ニコニコ動画にアップロードされている【人工知能】物理エンジンで人工生命つくって学習させたをみて、遺伝的アルゴリズムに興味を持ったので、pythonで遺伝的アルゴリズムを利用することができるpyevolveを試してみました。ドキュメントは、こちらにありま…

第6回 さくさくテキストマイニング勉強会で発表しました。

遅くなりましたが、報告です。 12月17日に行ったさくさくテキストマイニング勉強会で発表した時に使用した資料です。 clustering of user View more presentations from gepuro

RからWekaのSimpleKMeansを使う

R

R Advent Calendar 2011 の21日目担当の @gepuro です。R言語から、Javaで記述されているWekaというデータマイニングツールを使用する方法を紹介します。ここでは、WekaにあるSimpleKMeansを使ってみます。 > help(SimpleKmeans) を参考にして、 > install.p…

第2回 Japan.Rに行って来ました。

遅くなりましたが、Japan.Rに参加した報告です。 今年はLT大会とブースセッション、Rの入門セッションと盛り沢山の内容でした。 LT大会に参加したので、その時に使用した資料を公開します。 Introduction of RMeCab View more presentations from gepuro

第15回 データマイニング+WEB @東京 ( #TokyoWebmining 15th)−統計・ビジネス活用 祭り−で発表してきました。

2ch View more presentations from gepuro 次は、複合語を考慮してやろうかな。

相関係数をブラウザ上でお手軽に計算

相関係数計算機なるものを気づいたら、作ってた。javascriptで書いてるので、ブラウザで有効にしてからお使いくださいませ。 ちなみに、相関係数は、2変数の相関関係を知るための統計量で、-1から1の値を取ります。1に近いほど正の相関が強く、-1に近いほ…

[python][テキストマイニング] 第5回 さくさくテキストマイニング勉強会で発表してきました。

QaA View more presentations from gepuro 書いたプログラムにバグがチラホラ・・・。例外処理の部分をほとんど書いてないのが原因なのは分かっているが直していない。 また、質問文の品詞を本文とパターンマッチして、探し出すと良いかもしれないと言うアド…

CaboChaによってXMLで出力されたファイルをパースする。

cabochaを用いて $ cabocha -f 3 hoge.txt > hoge.xml として出力されたXMLファイルはそのままでは、パースする事ができない。そのため、一手間加えてあげる必要がある。(事前に、一行毎に改行をしている必要あり) #!/usr/bin/python # -*- coding:utf-8 -…

pandas0.40の使い方メモ

pythonでデータをR言語の時のように扱いたい。行列演算がしたいなどのような望みを叶えてくれるpandasというpythonのライブラリーについて、初歩的な使い方についてのメモ インストールに必要な物 バージョン1.40以上のNumpy バージョン1.5のpython-dateutil…

大波の検定、小波の検定を実装してみた

2つの変数が正規分布に従っていない時や、外れ値の影響を無視することが出来無い時に、相関を調べる手法として、大波の検定や小波の検定がある。これらを用いると、外れ値等の影響を受けにくいという利点がある。 これらは、符号検定という考え方に基づいて…