![]() |
ノート/テキストマイニング/taggerhttp://pepper.is.sci.toho-u.ac.jp/pepper/index.php?%A5%CE%A1%BC%A5%C8%2F%A5%C6%A5%AD%A5%B9%A5%C8%A5%DE%A5%A4%A5%CB%A5%F3%A5%B0%2Ftagger |
![]() |
ノート/テキストマイニング
訪問者数 4006 最終更新 2008-11-26 (水) 19:24:12
> ノート/テキストマイニング
> ノート/テキストマイニング/テキストマイニングとシソーラス
> ノート/テキストマイニング/PubMed解析
> ノート/テキストマイニング/MeSH
別名 gramatical tagging
テキスト中の語を、文の特定部分と対応付けて(たとえば品詞として)タグ付けすること
昔は人手で行っていたが、1980年代半ばから隠れマルコフモデルを使って抽出する方法(教師あり)が開拓され、その後さまざまな進んだ方法(CLAWSなど)が考案されている。
1987年にSteve DeRoseとKen Churchは独立に、動的計画法(Dynamic Programming)により高速にこの計算を行う方法を開発した。
上記の方法は人手によるCorpusを教師としたsupervised methodであり、たとえばBrown Corpusが使われているのに対し、教師無し(unsupervised)の方法も考えられている。
いずれの方法でも、rule-based, stocastic, neural approachなどの基本原理が使われる。現在のメジャーなアルゴリズムとして、Viterbi algorithm, Brill Tagger, Baum-Welch algorithmなどがある。隠れマルコフも見えるマルコフも、いずれもViterbi algorithmを用いて実装できる。
鶴岡先生のtaggerを試してみる。
WindowsバージョンをCygwin環境で実行。入力例として
This paper presents a bidirectional inference algorithm for sequence labeling problems such as part-of-speech tagging, named entity recognition and text chunking. The algorithm can enumerate all possible decomposition structures and find the highest probability sequence together with the corresponding decomposition structure in polynomial time. We also present an efficient decoding algorithm based on the easiest-first strategy, which gives comparably good performance to full bidirectional inference with significantly lower computational cost. Experimental results of part-of-speech tagging and text chunking show that the proposed bidirectional inference methods consistently outperform unidirectional inference methods and bidirectional MEMMs give comparable performance to that achieved by state-of-the-art learning algorithms including kernel support vector machines.
これに対する出力は
This/DT paper/NN presents/VBZ a/DT bidirectional/NN inference/NN algorithm/NN for/IN sequence/NN labeling/NN problems/NNS such/JJ as/IN part-of-speech/NN tagging/VBG ,/, named/VBN entity/NN recognition/NN and/CC text/NN chunking./VB The/DT algorithm/NN can/MD enumerate/VB all/DT possible/JJ decomposition/NN structures/NNS and/CC find/VB the/DT highest/JJS probability/NN sequence/NN together/RB with/IN the/DT corresponding/NN decomposition/NN structure/NN in/IN polynomial/JJ time./NN We/PRP also/RB present/VB an/DT efficient/JJ decoding/NN algorithm/NN based/VBN on/IN the/DT easiest-first/JJ strategy/NN ,/, which/WDT gives/NNS comparably/RB good/JJ performance/NN to/TO full/JJ bidirectional/JJ inference/NN with/IN significantly/RB lower/JJR computational/JJ cost./NN Experimental/NNP results/NNS of/IN part-of-speech/NN tagging/VBG and/CC text/NN chunking/NN show/VBP that/IN the/DT proposed/VBN bidirectional/JJ inference/NN methods/NNS consistently/RB outperform/JJ unidirectional/JJ inference/NN methods/NNS and/CC bidirectional/JJ MEMMs/NNS give/VBP comparable/JJ performance/NN to/TO that/DT achieved/VBD by/IN state-of-the-art/JJ learning/NN algorithms/NNS including/VBG kernel/NN support/NN vector/NN machines/NNS ./.
英文のキーワード抽出