タグ付きコーパスからタグを削除

mecab形態素解析を行うと次のようなテキストを得ることができる
input.txt

すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS

タグを削除するプログラム

#! /usr/bin/python
# coding: UTF-8

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

input = open("input.txt")
output = open("output.txt","w")

line = input.readline()
while line:
	word = []
	for w in line:
		word.append(w)

		if w == '\t':
			word.pop()
			word.append("\n")
			text = "".join(map(str,word))
			output.write(text)
			line = input.readline()
			break

		if word == ['E','O','S']:
			line = input.readline()
			break

input.close()
output.close()


output.txt

すもも
も
もも
も
もも
の
うち

タグ付きコーパスからタグを削除してみました。
せっかくタグが付いているのに消すなんて勿体ない感がありますが、テキスト処理の良い練習になりました。