![]() |
ノート/テキストマイニング/oregano4https://pepper.is.sci.toho-u.ac.jp:443/pepper/index.php?%A5%CE%A1%BC%A5%C8%2F%A5%C6%A5%AD%A5%B9%A5%C8%A5%DE%A5%A4%A5%CB%A5%F3%A5%B0%2Foregano4 |
![]() |
ノート/テキストマイニング
訪問者数 2215 最終更新 2010-10-12 (火) 13:32:33
>>ノート/テキストマイニング/oregano
>>ノート/テキストマイニング/oregano5
2009/03/01 一部(yumを使ったMeCabインストール)追記(2010/10/12)
参考資料 MeCab、 スクリプト言語のバインディング
MeCab本体
% tar zxfv mecab-0.97.tar.gz % cd mecab-0.97 % ./configure % make % make check % su # make install
次に、辞書(ipadic)
% tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz % cd mecab-ipadic-2.7.0-20070801 % ./configure --with-charset=utf8 << UTF-8でインストール % make % su # make install
oreganoの新バージョンはyumベースで管理しているので、
yum install mecab.x86_64 yum install python-mecab.x86_64 yum install mecab-ipadic.x86_64
で出来る。
最後に、Pythonのインターフェース(バインディング)。インストールはここにはなくて、ダウンロードファイル中のREADME参照。
途中でエラーが出た(LIBのパスが通っていない)。面倒なので、/usr/local/lib/libmecab.so.1を/usr/lib/libmecab.so.1にリンク。
% tar zxfv mecab-python-0.97.tar.gz % cd mecab-python-0.97 % python setup.py build % su # python setup.py install
テストは、パッケージ中のtest.pyがうまくいかない??
ここにあるサンプル
import sys import MeCab m = MeCab.Tagger ("-Ochasen") print m.parse ("今日もしないとね")
を試したら動く。
サンプルを作ってみよう。
#!/usr/bin/env python # encoding: utf-8 # -*- coding: utf-8 -*- ## ## To run with Kanji properly, the Python default encoding should be set to utf-8. ## This is done by including the file /usr/lib/python2.5/site-packages/sitecustomize.py ## with such lines as ## #!/usr/bin/env python ## import sys ## sys.setdefaultencoding('utf-8') ## To check this is properly set, start python and issue ## import sys ## sys.getdefaultencoding() ## which should reply with utf-8. ## See http://python.matrix.jp/tips/string/encoding.html ## import sys import MeCab import codecs ### A magic for printing UTF-8 characters sys.stdout = codecs.getwriter('utf_8')(sys.stdout) infile = open('./sample_article.txt', 'r') s = infile.read() m = MeCab.Tagger ("-Ochasen") t = m.parse (s) print t infile.close()
これで動作を確認。OKのようである。
このサンプルでは、出力オプションとしてchasenを使ったので、chasenと同じ形式で出力する。出力オプションは-Oyomi (ヨミ付与)、-Ochasen (ChaSen互換)、-Odump (全情報を出力)の他、自分で定義で切るらしいので、後で考えよう。[ここ参照:http://mecab.sourceforge.net/#parse]]
サンプル出力は
企業 キギョウ 企業 名詞-一般 から カラ から 助詞-格助詞-一般 いったん イッタン いったん 副詞-一般 内定 ナイテイ 内定 名詞-サ変接続 を ヲ を 助詞-格助詞-一般 得 エ 得る 動詞-自立 一段 連用形 た タ た 助動詞 特殊・タ 基本形 ものの モノノ ものの 助詞-接続助詞 取り消さ トリケサ 取り消す 動詞-自立 五段・サ行 未然形 れ レ れる 動詞-接尾 一段 連用形 た タ た 助動詞 特殊・タ 基本形 高校生 コウコウセイ 高校生 名詞-一般 が ガ が 助詞-格助詞-一般 今月 コンゲツ 今月 名詞-副詞可能 6 ロク 6 名詞-数 日 ニチ 日 名詞-接尾-助数詞 時点 ジテン 時点 名詞-一般 で デ で 助詞-格助詞-一般 2 ニ 2 名詞-数 6 ロク 6 名詞-数 9 キュウ 9 名詞-数 人 ニン 人 名詞-接尾-助数詞 に ニ に 助詞-格助詞-一般 上る ノボル 上る 動詞-自立 五段・ラ行 基本形 こと コト こと 名詞-非自立-一般 が ガ が 助詞-格助詞-一般 2 ニ 2 名詞-数 0 ゼロ 0 名詞-数 日 ニチ 日 名詞-接尾-助数詞 、 、 、 記号-読点 文部 モンブ 文部 名詞-一般 科学 カガク 科学 名詞-一般 省 ショウ 省 名詞-接尾-一般 が ガ が 助詞-格助詞-一般 公表 コウヒョウ 公表 名詞-サ変接続 し シ する 動詞-自立 サ変・スル 連用形 た タ た 助動詞 特殊・タ 基本形 調査 チョウサ 調査 名詞-サ変接続 結果 ケッカ 結果 名詞-副詞可能 で デ で 助詞-格助詞-一般 明らか アキラカ 明らか 名詞-形容動詞語幹 に ニ に 助詞-格助詞-一般 なっ ナッ なる 動詞-自立 五段・ラ行 連用タ接続 た タ た 助動詞 特殊・タ 基本形 。 。 。 記号-句点 1月 イチガツ 1月 名詞-副詞可能 5 ゴ 5 名詞-数 日 ニチ 日 名詞-接尾-助数詞 時点 ジテン 時点 名詞-一般 の ノ の 助詞-連体化 前回 ゼンカイ 前回 名詞-一般 調査 チョウサ 調査 名詞-サ変接続 より ヨリ より 助詞-格助詞-一般 8 ハチ 8 名詞-数 3 サン 3 名詞-数 人 ニン 人 名詞-接尾-助数詞 増え フエ 増える 動詞-自立 一段 連用形 て テ て 助詞-接続助詞 おり オリ おる 動詞-非自立 五段・ラ行 連用形 、 、 、 記号-読点 3 サン 3 名詞-数 分の ブンノ 分の 名詞-接尾-助数詞 1 イチ 1 名詞-数 は ハ は 助詞-係助詞 今 イマ 今 名詞-副詞可能 も モ も 助詞-係助詞 就職 シュウショク 就職 名詞-サ変接続 活動 カツドウ 活動 名詞-サ変接続 中 チュウ 中 名詞-接尾-副詞可能 だ ダ だ 助動詞 特殊・ダ 基本形 と ト と 助詞-格助詞-引用 いう イウ いう 動詞-自立 五段・ワ行促音便 基本形 。 。 。 記号-句点