タグ付きコーパスからタグを削除
mecabで形態素解析を行うと次のようなテキストを得ることができる
input.txt
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ EOS
タグを削除するプログラム
#! /usr/bin/python # coding: UTF-8 import sys reload(sys) sys.setdefaultencoding('utf-8') input = open("input.txt") output = open("output.txt","w") line = input.readline() while line: word = [] for w in line: word.append(w) if w == '\t': word.pop() word.append("\n") text = "".join(map(str,word)) output.write(text) line = input.readline() break if word == ['E','O','S']: line = input.readline() break input.close() output.close()
output.txt
すもも も もも も もも の うち
タグ付きコーパスからタグを削除してみました。
せっかくタグが付いているのに消すなんて勿体ない感がありますが、テキスト処理の良い練習になりました。