ノート/テキストマイニング
訪問者数 2215      最終更新 2010-10-12 (火) 13:32:33

>>ノート/テキストマイニング/oregano
>>ノート/テキストマイニング/oregano5

テキストマイニング@Oregano MeCab in Oreganoの設定

2009/03/01   一部(yumを使ったMeCabインストール)追記(2010/10/12)

参考資料 MeCab、  スクリプト言語のバインディング

まずは、書いてある通りにインストール

MeCab本体

% tar zxfv mecab-0.97.tar.gz
% cd mecab-0.97
% ./configure 
% make
% make check
% su
# make install

次に、辞書(ipadic)

% tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz
% cd mecab-ipadic-2.7.0-20070801
% ./configure --with-charset=utf8      << UTF-8でインストール
% make
% su
# make install

oreganoの新バージョンはyumベースで管理しているので、

yum install mecab.x86_64
yum install python-mecab.x86_64
yum install mecab-ipadic.x86_64

で出来る。

最後に、Pythonのインターフェース(バインディング)。インストールはここにはなくて、ダウンロードファイル中のREADME参照。
途中でエラーが出た(LIBのパスが通っていない)。面倒なので、/usr/local/lib/libmecab.so.1を/usr/lib/libmecab.so.1にリンク。

% tar zxfv mecab-python-0.97.tar.gz
% cd mecab-python-0.97
% python setup.py build
% su
# python setup.py install

テストは、パッケージ中のtest.pyがうまくいかない??

ここにあるサンプル

import sys
import MeCab
m = MeCab.Tagger ("-Ochasen")
print m.parse ("今日もしないとね")

を試したら動く。

サンプルを作ってみよう。

#!/usr/bin/env python
# encoding: utf-8
# -*- coding: utf-8 -*-
##
## To run with Kanji properly, the Python default encoding should be set to utf-8.
##   This is done by including the file /usr/lib/python2.5/site-packages/sitecustomize.py
##   with such lines as
##     #!/usr/bin/env python
##     import sys
##     sys.setdefaultencoding('utf-8')
##   To check this is properly set, start python and issue
##     import sys
##     sys.getdefaultencoding()
##   which should reply with utf-8.
##   See http://python.matrix.jp/tips/string/encoding.html
##
import sys
import MeCab
import codecs

### A magic for printing UTF-8 characters
sys.stdout = codecs.getwriter('utf_8')(sys.stdout)

infile = open('./sample_article.txt', 'r')
s = infile.read()
m = MeCab.Tagger ("-Ochasen")
t = m.parse (s)
print t

infile.close()

これで動作を確認。OKのようである。

このサンプルでは、出力オプションとしてchasenを使ったので、chasenと同じ形式で出力する。出力オプションは-Oyomi (ヨミ付与)、-Ochasen (ChaSen互換)、-Odump (全情報を出力)の他、自分で定義で切るらしいので、後で考えよう。[ここ参照:http://mecab.sourceforge.net/#parse]]

サンプル出力は

企業    キギョウ        企業    名詞-一般
から    カラ    から    助詞-格助詞-一般
いったん        イッタン        いったん        副詞-一般
内定    ナイテイ        内定    名詞-サ変接続
を      ヲ      を      助詞-格助詞-一般
得      エ      得る    動詞-自立       一段    連用形
た      タ      た      助動詞  特殊・タ        基本形
ものの  モノノ  ものの  助詞-接続助詞
取り消さ        トリケサ        取り消す        動詞-自立       五段・サ行      未然形
れ      レ      れる    動詞-接尾       一段    連用形
た      タ      た      助動詞  特殊・タ        基本形
高校生  コウコウセイ    高校生  名詞-一般
が      ガ      が      助詞-格助詞-一般
今月    コンゲツ        今月    名詞-副詞可能
6      ロク    6      名詞-数
日      ニチ    日      名詞-接尾-助数詞
時点    ジテン  時点    名詞-一般
で      デ      で      助詞-格助詞-一般
2      ニ      2      名詞-数
6      ロク    6      名詞-数
9      キュウ  9      名詞-数
人      ニン    人      名詞-接尾-助数詞
に      ニ      に      助詞-格助詞-一般
上る    ノボル  上る    動詞-自立       五段・ラ行      基本形
こと    コト    こと    名詞-非自立-一般
が      ガ      が      助詞-格助詞-一般
2      ニ      2      名詞-数
0      ゼロ    0      名詞-数
日      ニチ    日      名詞-接尾-助数詞
、      、      、      記号-読点
文部    モンブ  文部    名詞-一般
科学    カガク  科学    名詞-一般
省      ショウ  省      名詞-接尾-一般
が      ガ      が      助詞-格助詞-一般
公表    コウヒョウ      公表    名詞-サ変接続
し      シ      する    動詞-自立       サ変・スル      連用形
た      タ      た      助動詞  特殊・タ        基本形
調査    チョウサ        調査    名詞-サ変接続
結果    ケッカ  結果    名詞-副詞可能
で      デ      で      助詞-格助詞-一般
明らか  アキラカ        明らか  名詞-形容動詞語幹
に      ニ      に      助詞-格助詞-一般
なっ    ナッ    なる    動詞-自立       五段・ラ行      連用タ接続
た      タ      た      助動詞  特殊・タ        基本形
。      。      。      記号-句点
1月    イチガツ        1月    名詞-副詞可能
5      ゴ      5      名詞-数
日      ニチ    日      名詞-接尾-助数詞
時点    ジテン  時点    名詞-一般
の      ノ      の      助詞-連体化
前回    ゼンカイ        前回    名詞-一般
調査    チョウサ        調査    名詞-サ変接続
より    ヨリ    より    助詞-格助詞-一般
8      ハチ    8      名詞-数
3      サン    3      名詞-数
人      ニン    人      名詞-接尾-助数詞
増え    フエ    増える  動詞-自立       一段    連用形
て      テ      て      助詞-接続助詞
おり    オリ    おる    動詞-非自立     五段・ラ行      連用形
、      、      、      記号-読点
3      サン    3      名詞-数
分の    ブンノ  分の    名詞-接尾-助数詞
1      イチ    1      名詞-数
は      ハ      は      助詞-係助詞
今      イマ    今      名詞-副詞可能
も      モ      も      助詞-係助詞
就職    シュウショク    就職    名詞-サ変接続
活動    カツドウ        活動    名詞-サ変接続
中      チュウ  中      名詞-接尾-副詞可能
だ      ダ      だ      助動詞  特殊・ダ        基本形
と      ト      と      助詞-格助詞-引用
いう    イウ    いう    動詞-自立       五段・ワ行促音便        基本形
。      。      。      記号-句点

>>ノート/テキストマイニング/oregano
>>ノート/テキストマイニング/oregano5


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-10-12 (火) 13:32:33 (4551d)