2chのゆるゆり板を使って、共起グラフを書いてみた
やったことを下に箇条書きで書いていく。
- ゆるゆり♪♪\298アッカリーン/ の過去ログを1まで辿りテキストを収集した。
- htmlを解析して、発言のみを取り出した。
- 今回重要な当順人物の名前の辞書を作成した。
- また、同時に表記のブレに対応するための辞書を作成した。
例:
あかり あかり あかり アカリ あかり あかりん あかり あっかり〜ん あかり アッカリ〜ン
- MeCabを利用して、単語を切り出した。
- その後、一つの発言毎に共起語を求めて、出現回数をカウントした。
- 単語毎にカウントの合計を求め、割合を求めた。
例:
あかり ちなつ 2298 あかり 京子 1553 あかり 綾乃 1466 京子 綾乃 5022 京子 ちなつ 1910 京子 あかり 1728
というデータがあったら、
あかり ちなつ 0.38191 あかり 京子 0.258102 あかり 綾乃 0.243643 京子 綾乃 0.5799076 京子 ちなつ 0.2205543 京子 あかり 0.1995381
という風に計算した。
あかり、ちなつの場合では、
2298 / (2298 + 1553 + 1446)
となる。
- この方法では、あかり,京子などのペアは2つ出来てしまうので、値が大きい方のみ利用するようにした。
- R言語のigraphパッケージを利用して共起グラフを作成した。この時に、割合の値を調節しながら、見やすいグラフとなる閾値を探していった。今回は、0.12となった。
今回は、コーパスとして2chのゆるゆり板を使ったわけだが、2chであっても実況板やtwitterの情報を利用する方がより良いグラフが得られるかもしれないと感じた。公式サイトに載っている登場人物の相関図を作成するのが目標だったりした。