[[ノート/テキストマイニング]]~
訪問者数 &counter();      最終更新 &lastmod();~

>>[[ノート/テキストマイニング/oregano]]~
>>[[ノート/テキストマイニング/oregano5]]

**テキストマイニング@Oregano MeCab in Oreganoの設定 [#k853338d]
2009/03/01
2009/03/01   一部(yumを使ったMeCabインストール)追記(2010/10/12)

参考資料 [[MeCab:http://mecab.sourceforge.net/]]、  [[スクリプト言語のバインディング>http://mecab.sourceforge.net/bindings.html]]

***まずは、書いてある通りにインストール [#v835b2b6]
MeCab本体
 % tar zxfv mecab-0.97.tar.gz
 % cd mecab-0.97
 % ./configure 
 % make
 % make check
 % su
 # make install
次に、辞書(ipadic)
 % tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz
 % cd mecab-ipadic-2.7.0-20070801
 % ./configure --with-charset=utf8      << UTF-8でインストール
 % make
 % su
 # make install
oreganoの新バージョンはyumベースで管理しているので、
 yum install mecab.x86_64
 yum install python-mecab.x86_64
 yum install mecab-ipadic.x86_64
で出来る。

最後に、Pythonのインターフェース(バインディング)。インストールは[[ここ:http://mecab.sourceforge.net/bindings.html]]にはなくて、ダウンロードファイル中のREADME参照。~
途中でエラーが出た(LIBのパスが通っていない)。面倒なので、/usr/local/lib/libmecab.so.1を/usr/lib/libmecab.so.1にリンク。
 % tar zxfv mecab-python-0.97.tar.gz
 % cd mecab-python-0.97
 % python setup.py build
 % su
 # python setup.py install

テストは、パッケージ中のtest.pyがうまくいかない??

[[ここ:http://mecab.sourceforge.net/bindings.html]]にあるサンプル
 import sys
 import MeCab
 m = MeCab.Tagger ("-Ochasen")
 print m.parse ("今日もしないとね")
を試したら動く。

サンプルを作ってみよう。
 #!/usr/bin/env python
 # encoding: utf-8
 # -*- coding: utf-8 -*-
 ##
 ## To run with Kanji properly, the Python default encoding should be set to utf-8.
 ##   This is done by including the file /usr/lib/python2.5/site-packages/sitecustomize.py
 ##   with such lines as
 ##     #!/usr/bin/env python
 ##     import sys
 ##     sys.setdefaultencoding('utf-8')
 ##   To check this is properly set, start python and issue
 ##     import sys
 ##     sys.getdefaultencoding()
 ##   which should reply with utf-8.
 ##   See http://python.matrix.jp/tips/string/encoding.html
 ##
 import sys
 import MeCab
 import codecs
 
 ### A magic for printing UTF-8 characters
 sys.stdout = codecs.getwriter('utf_8')(sys.stdout)
 
 infile = open('./sample_article.txt', 'r')
 s = infile.read()
 m = MeCab.Tagger ("-Ochasen")
 t = m.parse (s)
 print t
 
 infile.close()
これで動作を確認。OKのようである。

このサンプルでは、出力オプションとしてchasenを使ったので、chasenと同じ形式で出力する。出力オプションは-Oyomi (ヨミ付与)、-Ochasen (ChaSen互換)、-Odump (全情報を出力)の他、自分で定義で切るらしいので、後で考えよう。[ここ参照:http://mecab.sourceforge.net/#parse]]

サンプル出力は
 企業    キギョウ        企業    名詞-一般
 から    カラ    から    助詞-格助詞-一般
 いったん        イッタン        いったん        副詞-一般
 内定    ナイテイ        内定    名詞-サ変接続
 を      ヲ      を      助詞-格助詞-一般
 得      エ      得る    動詞-自立       一段    連用形
 た      タ      た      助動詞  特殊・タ        基本形
 ものの  モノノ  ものの  助詞-接続助詞
 取り消さ        トリケサ        取り消す        動詞-自立       五段・サ行      未然形
 れ      レ      れる    動詞-接尾       一段    連用形
 た      タ      た      助動詞  特殊・タ        基本形
 高校生  コウコウセイ    高校生  名詞-一般
 が      ガ      が      助詞-格助詞-一般
 今月    コンゲツ        今月    名詞-副詞可能
 6      ロク    6      名詞-数
 日      ニチ    日      名詞-接尾-助数詞
 時点    ジテン  時点    名詞-一般
 で      デ      で      助詞-格助詞-一般
 2      ニ      2      名詞-数
 6      ロク    6      名詞-数
 9      キュウ  9      名詞-数
 人      ニン    人      名詞-接尾-助数詞
 に      ニ      に      助詞-格助詞-一般
 上る    ノボル  上る    動詞-自立       五段・ラ行      基本形
 こと    コト    こと    名詞-非自立-一般
 が      ガ      が      助詞-格助詞-一般
 2      ニ      2      名詞-数
 0      ゼロ    0      名詞-数
 日      ニチ    日      名詞-接尾-助数詞
 、      、      、      記号-読点
 文部    モンブ  文部    名詞-一般
 科学    カガク  科学    名詞-一般
 省      ショウ  省      名詞-接尾-一般
 が      ガ      が      助詞-格助詞-一般
 公表    コウヒョウ      公表    名詞-サ変接続
 し      シ      する    動詞-自立       サ変・スル      連用形
 た      タ      た      助動詞  特殊・タ        基本形
 調査    チョウサ        調査    名詞-サ変接続
 結果    ケッカ  結果    名詞-副詞可能
 で      デ      で      助詞-格助詞-一般
 明らか  アキラカ        明らか  名詞-形容動詞語幹
 に      ニ      に      助詞-格助詞-一般
 なっ    ナッ    なる    動詞-自立       五段・ラ行      連用タ接続
 た      タ      た      助動詞  特殊・タ        基本形
 。      。      。      記号-句点
 1月    イチガツ        1月    名詞-副詞可能
 5      ゴ      5      名詞-数
 日      ニチ    日      名詞-接尾-助数詞
 時点    ジテン  時点    名詞-一般
 の      ノ      の      助詞-連体化
 前回    ゼンカイ        前回    名詞-一般
 調査    チョウサ        調査    名詞-サ変接続
 より    ヨリ    より    助詞-格助詞-一般
 8      ハチ    8      名詞-数
 3      サン    3      名詞-数
 人      ニン    人      名詞-接尾-助数詞
 増え    フエ    増える  動詞-自立       一段    連用形
 て      テ      て      助詞-接続助詞
 おり    オリ    おる    動詞-非自立     五段・ラ行      連用形
 、      、      、      記号-読点
 3      サン    3      名詞-数
 分の    ブンノ  分の    名詞-接尾-助数詞
 1      イチ    1      名詞-数
 は      ハ      は      助詞-係助詞
 今      イマ    今      名詞-副詞可能
 も      モ      も      助詞-係助詞
 就職    シュウショク    就職    名詞-サ変接続
 活動    カツドウ        活動    名詞-サ変接続
 中      チュウ  中      名詞-接尾-副詞可能
 だ      ダ      だ      助動詞  特殊・ダ        基本形
 と      ト      と      助詞-格助詞-引用
 いう    イウ    いう    動詞-自立       五段・ワ行促音便        基本形
 。      。      。      記号-句点

>>[[ノート/テキストマイニング/oregano]]~
>>[[ノート/テキストマイニング/oregano5]]

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS