[[ノート/テキストマイニング]]~
訪問者数 &counter();      最終更新 &lastmod();~
> [[ノート/テキストマイニング]]~
> [[ノート/テキストマイニング/テキストマイニングとシソーラス]]~
> [[ノート/テキストマイニング/PubMed解析]]~
> [[ノート/テキストマイニング/MeSH]]

***POS Tagger ポインタ [#p79fb9a4]
-[[Part-of-speech tagging (from Wikipedia) :http://en.wikipedia.org/wiki/Part-of-speech_tagging]]
-[[POS Tagger (from Statistical natural language processing and corpus-based computational linguistics: An annotated list of resources) :http://www-nlp.stanford.edu/links/statnlp.html#Taggers]]
-[[Brill's speech tagger (Eric Brill's HP) :http://research.microsoft.com/~brill/]]、  [[説明(Wikipedia):http://en.wikipedia.org/wiki/Brill_tagger]]、  [[コード(BrillのJones HopkinsのHPはなくなっておりこれはミラー):http://www.tech.plym.ac.uk/soc/staff/guidbugm/software/RULE_BASED_TAGGER_V.1.14.tar.Z]]
-[[CLAWS POS tagger:http://ucrel.lancs.ac.uk/claws/]]
-[[Tsujii-Lab, Tsuruoka's POS tagger (2005):http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/postagger/]]、 参照論文 &ref(emnlp05bidir.pdf,,Bidirectional Inference with the Easiest-First Strategy for Tagging Sequence Data);

***POS (Part of Speech) Taggingとは (Wikipediaの概訳) [#xd4b3927]
別名 gramatical tagging~
テキスト中の語を、文の特定部分と対応付けて(たとえば品詞として)タグ付けすること~
昔は人手で行っていたが、1980年代半ばから隠れマルコフモデルを使って抽出する方法(教師あり)が開拓され、その後さまざまな進んだ方法(CLAWSなど)が考案されている。~
1987年にSteve DeRoseとKen Churchは独立に、動的計画法(Dynamic Programming)により高速にこの計算を行う方法を開発した。~
上記の方法は人手によるCorpusを教師としたsupervised methodであり、たとえばBrown Corpusが使われているのに対し、教師無し(unsupervised)の方法も考えられている。~
いずれの方法でも、rule-based, stocastic, neural approachなどの基本原理が使われる。現在のメジャーなアルゴリズムとして、Viterbi algorithm, Brill Tagger, Baum-Welch algorithmなどがある。隠れマルコフも見えるマルコフも、いずれもViterbi algorithmを用いて実装できる。

***taggingを試してみる [#r0ca89b3]
[[鶴岡先生のtagger:http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/postagger/]]を試してみる。

WindowsバージョンをCygwin環境で実行。入力例として
 This paper presents a bidirectional inference
 algorithm for sequence labeling
 problems such as part-of-speech tagging,
 named entity recognition and text
 chunking. The algorithm can enumerate
 all possible decomposition structures and
 find the highest probability sequence together
 with the corresponding decomposition
 structure in polynomial time. We also
 present an efficient decoding algorithm
 based on the easiest-first strategy, which
 gives comparably good performance to
 full bidirectional inference with significantly
 lower computational cost. Experimental
 results of part-of-speech tagging
 and text chunking show that the proposed
 bidirectional inference methods consistently
 outperform unidirectional inference
 methods and bidirectional MEMMs give
 comparable performance to that achieved
 by state-of-the-art learning algorithms including
 kernel support vector machines.

これに対する出力は
 This/DT paper/NN presents/VBZ a/DT bidirectional/NN inference/NN
 algorithm/NN for/IN sequence/NN labeling/NN
 problems/NNS such/JJ as/IN part-of-speech/NN tagging/VBG ,/,
 named/VBN entity/NN recognition/NN and/CC text/NN
 chunking./VB The/DT algorithm/NN can/MD enumerate/VB
 all/DT possible/JJ decomposition/NN structures/NNS and/CC
 find/VB the/DT highest/JJS probability/NN sequence/NN together/RB
 with/IN the/DT corresponding/NN decomposition/NN
 structure/NN in/IN polynomial/JJ time./NN We/PRP also/RB
 present/VB an/DT efficient/JJ decoding/NN algorithm/NN
 based/VBN on/IN the/DT easiest-first/JJ strategy/NN ,/, which/WDT
 gives/NNS comparably/RB good/JJ performance/NN to/TO
 full/JJ bidirectional/JJ inference/NN with/IN significantly/RB
 lower/JJR computational/JJ cost./NN Experimental/NNP
 results/NNS of/IN part-of-speech/NN tagging/VBG
 and/CC text/NN chunking/NN show/VBP that/IN the/DT proposed/VBN
 bidirectional/JJ inference/NN methods/NNS consistently/RB
 outperform/JJ unidirectional/JJ inference/NN
 methods/NNS and/CC bidirectional/JJ MEMMs/NNS give/VBP
 comparable/JJ performance/NN to/TO that/DT achieved/VBD
 by/IN state-of-the-art/JJ learning/NN algorithms/NNS including/VBG
 kernel/NN support/NN vector/NN machines/NNS ./.

英文のキーワード抽出
-[[http://citeseer.comp.nus.edu.sg/cache/papers/cs/31300/http:zSzzSzwww.worldscinet.comzSzijaitzSz13zSz1301zSz..zSzpreserved-docszSz1301zSzS0218213004001466.pdf/matsuo04keyword.pdf]]
-[[http://acl.ldc.upenn.edu/acl2003/emnlp/pdf/Hulth.pdf]]
-[[GNU libextractor:http://gnunet.org/libextractor/]], Gnu libExtractorの記事:http://www.linuxjournal.com/article/7552]]
-


トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS