[[ノート/テキストマイニング]]~
訪問者数 &counter(); 最終更新 &lastmod();~
>>[[ノート/テキストマイニング/oregano]]~
>>[[ノート/テキストマイニング/oregano5]]
**テキストマイニング@Oregano MeCab in Oreganoの設定 [#k853338d]
2009/03/01
2009/03/01 一部(yumを使ったMeCabインストール)追記(2010/10/12)
参考資料 [[MeCab:http://mecab.sourceforge.net/]]、 [[スクリプト言語のバインディング>http://mecab.sourceforge.net/bindings.html]]
***まずは、書いてある通りにインストール [#v835b2b6]
MeCab本体
% tar zxfv mecab-0.97.tar.gz
% cd mecab-0.97
% ./configure
% make
% make check
% su
# make install
次に、辞書(ipadic)
% tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz
% cd mecab-ipadic-2.7.0-20070801
% ./configure --with-charset=utf8 << UTF-8でインストール
% make
% su
# make install
oreganoの新バージョンはyumベースで管理しているので、
yum install mecab.x86_64
yum install python-mecab.x86_64
yum install mecab-ipadic.x86_64
で出来る。
最後に、Pythonのインターフェース(バインディング)。インストールは[[ここ:http://mecab.sourceforge.net/bindings.html]]にはなくて、ダウンロードファイル中のREADME参照。~
途中でエラーが出た(LIBのパスが通っていない)。面倒なので、/usr/local/lib/libmecab.so.1を/usr/lib/libmecab.so.1にリンク。
% tar zxfv mecab-python-0.97.tar.gz
% cd mecab-python-0.97
% python setup.py build
% su
# python setup.py install
テストは、パッケージ中のtest.pyがうまくいかない??
[[ここ:http://mecab.sourceforge.net/bindings.html]]にあるサンプル
import sys
import MeCab
m = MeCab.Tagger ("-Ochasen")
print m.parse ("今日もしないとね")
を試したら動く。
サンプルを作ってみよう。
#!/usr/bin/env python
# encoding: utf-8
# -*- coding: utf-8 -*-
##
## To run with Kanji properly, the Python default encoding should be set to utf-8.
## This is done by including the file /usr/lib/python2.5/site-packages/sitecustomize.py
## with such lines as
## #!/usr/bin/env python
## import sys
## sys.setdefaultencoding('utf-8')
## To check this is properly set, start python and issue
## import sys
## sys.getdefaultencoding()
## which should reply with utf-8.
## See http://python.matrix.jp/tips/string/encoding.html
##
import sys
import MeCab
import codecs
### A magic for printing UTF-8 characters
sys.stdout = codecs.getwriter('utf_8')(sys.stdout)
infile = open('./sample_article.txt', 'r')
s = infile.read()
m = MeCab.Tagger ("-Ochasen")
t = m.parse (s)
print t
infile.close()
これで動作を確認。OKのようである。
このサンプルでは、出力オプションとしてchasenを使ったので、chasenと同じ形式で出力する。出力オプションは-Oyomi (ヨミ付与)、-Ochasen (ChaSen互換)、-Odump (全情報を出力)の他、自分で定義で切るらしいので、後で考えよう。[ここ参照:http://mecab.sourceforge.net/#parse]]
サンプル出力は
企業 キギョウ 企業 名詞-一般
から カラ から 助詞-格助詞-一般
いったん イッタン いったん 副詞-一般
内定 ナイテイ 内定 名詞-サ変接続
を ヲ を 助詞-格助詞-一般
得 エ 得る 動詞-自立 一段 連用形
た タ た 助動詞 特殊・タ 基本形
ものの モノノ ものの 助詞-接続助詞
取り消さ トリケサ 取り消す 動詞-自立 五段・サ行 未然形
れ レ れる 動詞-接尾 一段 連用形
た タ た 助動詞 特殊・タ 基本形
高校生 コウコウセイ 高校生 名詞-一般
が ガ が 助詞-格助詞-一般
今月 コンゲツ 今月 名詞-副詞可能
6 ロク 6 名詞-数
日 ニチ 日 名詞-接尾-助数詞
時点 ジテン 時点 名詞-一般
で デ で 助詞-格助詞-一般
2 ニ 2 名詞-数
6 ロク 6 名詞-数
9 キュウ 9 名詞-数
人 ニン 人 名詞-接尾-助数詞
に ニ に 助詞-格助詞-一般
上る ノボル 上る 動詞-自立 五段・ラ行 基本形
こと コト こと 名詞-非自立-一般
が ガ が 助詞-格助詞-一般
2 ニ 2 名詞-数
0 ゼロ 0 名詞-数
日 ニチ 日 名詞-接尾-助数詞
、 、 、 記号-読点
文部 モンブ 文部 名詞-一般
科学 カガク 科学 名詞-一般
省 ショウ 省 名詞-接尾-一般
が ガ が 助詞-格助詞-一般
公表 コウヒョウ 公表 名詞-サ変接続
し シ する 動詞-自立 サ変・スル 連用形
た タ た 助動詞 特殊・タ 基本形
調査 チョウサ 調査 名詞-サ変接続
結果 ケッカ 結果 名詞-副詞可能
で デ で 助詞-格助詞-一般
明らか アキラカ 明らか 名詞-形容動詞語幹
に ニ に 助詞-格助詞-一般
なっ ナッ なる 動詞-自立 五段・ラ行 連用タ接続
た タ た 助動詞 特殊・タ 基本形
。 。 。 記号-句点
1月 イチガツ 1月 名詞-副詞可能
5 ゴ 5 名詞-数
日 ニチ 日 名詞-接尾-助数詞
時点 ジテン 時点 名詞-一般
の ノ の 助詞-連体化
前回 ゼンカイ 前回 名詞-一般
調査 チョウサ 調査 名詞-サ変接続
より ヨリ より 助詞-格助詞-一般
8 ハチ 8 名詞-数
3 サン 3 名詞-数
人 ニン 人 名詞-接尾-助数詞
増え フエ 増える 動詞-自立 一段 連用形
て テ て 助詞-接続助詞
おり オリ おる 動詞-非自立 五段・ラ行 連用形
、 、 、 記号-読点
3 サン 3 名詞-数
分の ブンノ 分の 名詞-接尾-助数詞
1 イチ 1 名詞-数
は ハ は 助詞-係助詞
今 イマ 今 名詞-副詞可能
も モ も 助詞-係助詞
就職 シュウショク 就職 名詞-サ変接続
活動 カツドウ 活動 名詞-サ変接続
中 チュウ 中 名詞-接尾-副詞可能
だ ダ だ 助動詞 特殊・ダ 基本形
と ト と 助詞-格助詞-引用
いう イウ いう 動詞-自立 五段・ワ行促音便 基本形
。 。 。 記号-句点
>>[[ノート/テキストマイニング/oregano]]~
>>[[ノート/テキストマイニング/oregano5]]