2chのゆるゆり板を使って、共起グラフを書いてみた

今日は、こんなグラフを作ってみました。

やったことを下に箇条書きで書いていく。

  • ゆるゆり♪♪\298アッカリーン/ の過去ログを1まで辿りテキストを収集した。
  • htmlを解析して、発言のみを取り出した。
  • 今回重要な当順人物の名前の辞書を作成した。
  • また、同時に表記のブレに対応するための辞書を作成した。

例:

あかり	あかり
あかり	アカリ
あかり	あかりん
あかり	あっかり〜ん
あかり	アッカリ〜ン
  • MeCabを利用して、単語を切り出した。
  • その後、一つの発言毎に共起語を求めて、出現回数をカウントした。
  • 単語毎にカウントの合計を求め、割合を求めた。

例:

あかり	ちなつ	2298
あかり	京子	1553
あかり	綾乃	1466
京子	綾乃	5022
京子	ちなつ	1910
京子	あかり	1728

というデータがあったら、

あかり	ちなつ	0.38191
あかり	京子	0.258102
あかり	綾乃	0.243643
京子	綾乃	0.5799076
京子	ちなつ	0.2205543
京子	あかり	0.1995381

という風に計算した。
あかり、ちなつの場合では、

2298 / (2298 + 1553 + 1446)

となる。

  • この方法では、あかり,京子などのペアは2つ出来てしまうので、値が大きい方のみ利用するようにした。
  • R言語のigraphパッケージを利用して共起グラフを作成した。この時に、割合の値を調節しながら、見やすいグラフとなる閾値を探していった。今回は、0.12となった。

今回は、コーパスとして2chゆるゆり板を使ったわけだが、2chであっても実況板やtwitterの情報を利用する方がより良いグラフが得られるかもしれないと感じた。公式サイトに載っている登場人物の相関図を作成するのが目標だったりした。