ノート/テキストマイニング
訪問者数 2850      最終更新 2008-11-26 (水) 19:24:12
> ノート/テキストマイニング
> ノート/テキストマイニング/テキストマイニングとシソーラス
> ノート/テキストマイニング/PubMed解析
> ノート/テキストマイニング/MeSH

POS Tagger ポインタ

POS (Part of Speech) Taggingとは (Wikipediaの概訳)

別名 gramatical tagging
テキスト中の語を、文の特定部分と対応付けて(たとえば品詞として)タグ付けすること
昔は人手で行っていたが、1980年代半ばから隠れマルコフモデルを使って抽出する方法(教師あり)が開拓され、その後さまざまな進んだ方法(CLAWSなど)が考案されている。
1987年にSteve DeRoseとKen Churchは独立に、動的計画法(Dynamic Programming)により高速にこの計算を行う方法を開発した。
上記の方法は人手によるCorpusを教師としたsupervised methodであり、たとえばBrown Corpusが使われているのに対し、教師無し(unsupervised)の方法も考えられている。
いずれの方法でも、rule-based, stocastic, neural approachなどの基本原理が使われる。現在のメジャーなアルゴリズムとして、Viterbi algorithm, Brill Tagger, Baum-Welch algorithmなどがある。隠れマルコフも見えるマルコフも、いずれもViterbi algorithmを用いて実装できる。

taggingを試してみる

鶴岡先生のtaggerを試してみる。

WindowsバージョンをCygwin環境で実行。入力例として

This paper presents a bidirectional inference
algorithm for sequence labeling
problems such as part-of-speech tagging,
named entity recognition and text
chunking. The algorithm can enumerate
all possible decomposition structures and
find the highest probability sequence together
with the corresponding decomposition
structure in polynomial time. We also
present an efficient decoding algorithm
based on the easiest-first strategy, which
gives comparably good performance to
full bidirectional inference with significantly
lower computational cost. Experimental
results of part-of-speech tagging
and text chunking show that the proposed
bidirectional inference methods consistently
outperform unidirectional inference
methods and bidirectional MEMMs give
comparable performance to that achieved
by state-of-the-art learning algorithms including
kernel support vector machines.

これに対する出力は

This/DT paper/NN presents/VBZ a/DT bidirectional/NN inference/NN
algorithm/NN for/IN sequence/NN labeling/NN
problems/NNS such/JJ as/IN part-of-speech/NN tagging/VBG ,/,
named/VBN entity/NN recognition/NN and/CC text/NN
chunking./VB The/DT algorithm/NN can/MD enumerate/VB
all/DT possible/JJ decomposition/NN structures/NNS and/CC
find/VB the/DT highest/JJS probability/NN sequence/NN together/RB
with/IN the/DT corresponding/NN decomposition/NN
structure/NN in/IN polynomial/JJ time./NN We/PRP also/RB
present/VB an/DT efficient/JJ decoding/NN algorithm/NN
based/VBN on/IN the/DT easiest-first/JJ strategy/NN ,/, which/WDT
gives/NNS comparably/RB good/JJ performance/NN to/TO
full/JJ bidirectional/JJ inference/NN with/IN significantly/RB
lower/JJR computational/JJ cost./NN Experimental/NNP
results/NNS of/IN part-of-speech/NN tagging/VBG
and/CC text/NN chunking/NN show/VBP that/IN the/DT proposed/VBN
bidirectional/JJ inference/NN methods/NNS consistently/RB
outperform/JJ unidirectional/JJ inference/NN
methods/NNS and/CC bidirectional/JJ MEMMs/NNS give/VBP
comparable/JJ performance/NN to/TO that/DT achieved/VBD
by/IN state-of-the-art/JJ learning/NN algorithms/NNS including/VBG
kernel/NN support/NN vector/NN machines/NNS ./.

英文のキーワード抽出


添付ファイル: fileemnlp05bidir.pdf 929件 [詳細]

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2008-11-26 (水) 19:24:12 (3248d)