[[ノート/マイニング]]~
訪問者数 &counter();      最終更新 &lastmod();~
まとめページ~
  [[ノート/テキストマイニング/英文の文法によるテキストマイニングの精度向上]]~
  [[ノート/テキストマイニング/和文のテキストマイニングの応用]]~


> [[ノート/テキストマイニング/テキストマイニングとシソーラス]]~
> [[ノート/テキストマイニング/PubMed解析]]~
> [[ノート/テキストマイニング/MeSH]]~
> [[ノート/テキストマイニング/NLTK]]~
> [[ノート/テキストマイニング/tagger]]~
> [[ノート/テキストマイニング/論文の処理1]]~
> [[ノート/テキストマイニング/Stanfordパーザー]]~
> [[ノート/テキストマイニング/Stanfordパーザーを使ってみる1]]~
> [[ノート/テキストマイニング/Stanfordパーザーを使ってみる2]]~
> [[ノート/テキストマイニング/Stanfordパーザーの細かい点]]

> [[ノート/テキストマイニング/剽窃1]] (2010/02/04)~
> [[ノート/テキストマイニング/剽窃2]] (2010/05/28)~
> [[ノート/テキストマイニング/Bing検索]] (2010/05)
> [[ノート/テキストマイニング/Bing検索]] (2010/05/09)


**テキストマイニング(TM)とは [#w522597d]
参考資料
-人工知能学会のHPの「私のブックマーク」にある
長谷川 隆明氏(NTTサイバースペース研究所)
のページ~
  http://www.ai-gakkai.or.jp/jsai/journal/mybookmark/16-6.html~
に、かなり総括的でよく整理されたポインタのリストがある。

-野村総研のTRUE TELLERシステムをベースにした解説。~
  (全体を細かく解説) http://www.thinkit.co.jp/free/article/0611/10/1/~
  (特徴を説明した記事) http://www.itmedia.co.jp/survey/articles/0408/27/news001.html~
   特徴は、キーワードの出現頻度統計だけでなく、構文解析をして単語のつながりを分析し、何がよいのか何が悪いのかを読み取ること。

-イントロしか未だ書かれていないが、全体像を簡潔に描写した説明。~
  http://www.geocities.co.jp/WallStreet/7166/txt/p2.htm

-termmi: 言選Webの技術を使ったテキストマイニングツール~
  http://gensen.dl.itc.u-tokyo.ac.jp/termmi.html~
  ベクトル空間法による文献の類似度計算 vector_space.pl が付いているらしい。~
  「通常であれば、類似度の計算は各語についてのTF*IDF法による重みか、頻度を用いるところです。"termmi"では、隣接情報に基づいた独自の重要度を出しますので、その値を用いています。」

-[[「茶筌とMUSASHIで純和風テキストマイニング」:http://journal.mycom.co.jp/column/yetanother/046/index.html]]~
例題は、「テキストの中に表れる名詞だけを抽出してその出現回数を数える」~
~
[[KH Coderとコーディング・ルール」:http://journal.mycom.co.jp/column/yetanother/050/index.html]]~
KH Coderは茶筌を使って文を形態素解析しMySQLに格納すると同時に統計が取れるらしい。~
ここでやろうとしているのは、(以下引用)~
しかし、これだけの材料でそう決めつけるのはちょっと早計すぎる気もする。なぜなら、実際の「言葉」では、ホテルに関する問い合わせだからといって、ホテルという単語を使用するとは限らないからだ。問い合わせの文章が自由形式である以上、ホテルを「宿」と書く人もいるだろうし、「部屋」「ルーム」といった言葉も使われるだろう。一方で「航空券」の予約に関する問い合わせには「チケット」や「空港」「フライト」などの言葉が使われるはずだ。顧客のニーズが「ホテル」にあるのか、「航空券」にあるのかを知りたければ、単語そのものの出現頻度を数えるだけでは不十分で、それぞれの「概念」的な集合を考慮して集計を行う必要がある。~
~
KH Coderには、こういった概念的、カテゴリ的な集計を行うための「コーディング・ルール」と呼ばれるルールを作成する機能が用意されている。コーディング・ルールは、テキストファイルに以下のような簡単な形式で記述するだけで作成できる。(引用終り)

-金明哲氏のRに関する連載  http://www1.doshisha.ac.jp/~mjin/R/

-(フリーソフト)[[TTM: TinyTextMining:http://fieldmining.com/~matumura/ttm/]]~
TTMはテキストマイニングの前処理のためのソフトウェアです.TTMの出力ファイルを加工して,自分独自の分析に役立ててください.「タグ付きテキスト」は様々な角度からの分析を可能にします.表計算ソフトの置換,削除,集計,グラフなどの機能を使うだけでもいろんなことができますし,多変量解析や機械学習への応用も難しくありません.~
形態素解析にMeCabを使っている。

-長岡技科大自然言語処理研究室 http://nlp.nagaokaut.ac.jp

-ベクトル空間法とか --http://www.forest.eis.ynu.ac.jp/~mori/MExperiment/2003/FNLP-2003-09-2.pdf
--http://www.ep.u-tokai.ac.jp/~kikn/IR2006/IR3-KMP2.pdf 初めの数ページ
--http://www.google.co.jp/url?sa=t&ct=res&cd=28&url=http%3A%2F%2Fwiki.livedoor.jp%2Ftani_masaru%2Fd%2FSearch4&ei=Q3czSJ6CCY_c6QPE3KH6Bg&usg=AFQjCNGNv4qtnDdsvuMy9uePKTqKGJL29g&sig2=pad0MNgvN7HNPv0D6NcTbQ
一言で言うと...


-修士論文:ベクトル空間法を用いてゲノムデータベース全体から関連性を抽出する手法に関する研究~
http://www.jaist.ac.jp/library/thesis/ks-master-2000/paper/tkataoka/paper.pdf

-技術資料 単語意味属性を使用したベクトル空間法~
http://unicorn.ike.tottori-u.ac.jp/murakami/paper/JOURNAL/NLP_2003_04/main/~
従来,ベクトル空間法において,ベクトルの基底数を削減するため,ベクトルの基軸を変換する方法が提案されている.この方法の問題点として,計算量が多く,大規模なデータベースへの適用が困難であることが挙げられる.~
~
これに対して,本論文では,特性ベクトルの基底として,単語の代わりに単語の意味属性(「日本語語彙大系」で規定された約2,710種類)を使用する方法を提案する.この方法は,意味属性間の包含関係に基づいた汎化が可能で計算コストもきわめて少なく,容易にベクトルの次元数を圧縮できることが期待される.また,単語の表記上の揺らぎに影響されず,同義語,類義語も考慮されるため,従来の単語を基底とする文書ベクトル空間法に比べて,検索漏れを減少させることが期待される.~
~
BMIR-J2の新聞記事検索(文書数約5,000件)に適用した実験結果によれば,提案した方法は,次元数の削減に強い方法であり,検索精度をあまり落とすことなく,文書ベクトルの基底数を300〜600程度まで削減できることが分かった.また,単語を基底とした文書ベクトルの方法と比べて高い再現率が得られることから,キーワード検索におけるKW拡張と同等の効果のあることが分かった. 

-「計量的テキスト解析ツール」東工大授業資料 http://www.valdes.titech.ac.jp/cgi-bin/dpwiki/wiki.cgi/09DP?action=ATTACH&page=%C0%EE%C5%E708&file=os_resume080610.pdf&ei=QCd-S53yH8qLkAWOlsjAAQ&usg=AFQjCNGxUEj9F3Y_EbQLrBsdO0wtv4sgaQ&sig2=zSj3n7onE_xxKy3gd79FLg

-[[Mark Dixon: An Overview of Document Mining Technology, 1997:http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.5351]].  本文は[[ここ:http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=5A7805DB02B86D5B76C959B17BF349C7?doi=10.1.1.56.5351&rep=rep1&type=pdf]]


-面白い記事
--[[「U30世代が求める情報のカタチ」チームラボ猪子社長・推奨エンジンに挑む人々(2):http://it.nikkei.co.jp/internet/news/index.aspx?n=MMITbe000021052008&landing=Next]]
、  [[チームラボ、お薦め動画次々表示・キーワード検索、手間省く:http://it.nikkei.co.jp/internet/news/index.aspx?n=AS1D210E7%2022022008]]
--[[サイジニア、複雑系理論でおすすめ抽出・推奨エンジンに挑む人々(1):http://it.nikkei.co.jp/internet/news/index.aspx?n=MMITbe000014052008]]
、  [[和製新型検索エンジン、採用相次ぐ――サイジニアが開発:http://it.nikkei.co.jp/internet/news/index.aspx?n=AS1D2105U%2021032008]]
--[[文道:http://www.seedwin.co.jp/bundou/gaiyou.html]]
--[[情報処理学会研究報告. 人文科学とコンピュータ研究会報告 IPSJ SIG Notes Vol.2002, No.73(20020726) pp. 25-32 2002-CH-55-4 多国語新聞記事の大河ターム分析(その2):http://ci.nii.ac.jp/naid/110002930159/]]



目的
-
-

具体的な応用
-
-

技術
-
-

***言選Webの技術 [#ba675b50]
http://gensen.dl.itc.u-tokyo.ac.jp/paper/kanjibunken-gensen.pdfより
-形態素解析は名詞句をキーワードより細かく分割しすぎる。たとえば~
 漢字文献情報処理研究 ⇒ ~
   漢字(名詞,一般)、文献(名詞,一般)、情報処理(名詞,一般)、研究(名詞,サ変接続)~
これは困るので、まとめる必要がある。~
その基本ルールは、名詞の形態素(単名詞)が連続した場合に、それをまとめて
複合名詞とみなすこと~
-英文の場合は、~
単語が区切られているので、品詞のタグ付けのみ必要(Brill's Tagger
というPOS Tagger をフリーで入手できる。)~
「まとめるルールは日本語と比べて複雑になるが、基本的な考えは同じである。」

-キーワード以外の語の除去~
一般語をストップワードとして登録しておき、除去する。登録は人手?

-重要度のランク付け 〜 よく使われるのはTF-IDF法~
TF = Term Frequency, IDF = Inverted Document Frequency。~
多く出てくる語は重要だが、一般的な語は除外する、という考え方。~
多く出てくる語 ⇒ 文献中での出現回数をカウント~
一般的な語 ⇒ 複数の文献を対象にし、その語が出てくる文献数が多いと「一般的」~
 具体的には、(その語を含む文献数)/(総文献数)が大きいほど一般的~
 重要度としては、その逆数を取る。逆数が大きいほど特殊つまり重要度が高い。~
 但し扱いが悪いので、対数を取る(10000/1と10000/2のどちらも特殊だが値が2倍も違う)~
 更に対数だと、全ての文献に含まれるときlog(1/1)=0で具合が悪いので、1を加える。~
 つまり、TF-IDF = (出現頻度) * ( log( (総文献数)/(その語を含む文献数) ) + 1 )

-重要度のランク付け・言選Web 〜 FLR法~
Frequency-Left-Right法。出現頻度に左と右の語の連接情報を組み合わせる。~
基本的に、重要語(用語)は単名詞そのものか複数の単名詞を組み合わせた複合語である。~
他の単名詞と連結して複合語をなすことが多い単名詞ほど、文書中で重要な概念を示すと考える。(これがこの方法の前提の仮説)~
具体的な数値としては、たとえば漢字・文献・情報・処理・研究という複合語に対して、~
それぞれの単名詞が前の語に連接する頻度回数スコア、後の語に連接する頻度回数スコア(計10個の数字)~
の(相乗)平均を用いている。相乗平均がよいらしい。

-名詞間の連接の回数のスコア 〜 パープレキシティ(=中川先生オリジナル)~
直感的な方法としては、連接の出現回数、連接の種類数(異なり語数)だが...~
パープレキシティは、エントロピーを2のべき乗した数値。多様性を表す。~
 例A  漢字・文献(1/2)、漢字・情報(1/4)、漢字・研究(1/4)の出現頻度~
 例B  漢字・文献(1/3)、漢字・情報(1/3)、漢字・研究(1/3)の出現頻度~
とすると、Bの方が多様性が大きい。~
  Perplexity = 2^(H(p)) = 2^(-Σp(x)logp(x))  但しΣはxについての総和~
  http://en.wikipedia.org/wiki/Perplexity~

-重要度の学習について~
単名詞の連接関係の情報を学習することが出来る。TermExtractでは学習機能をOnできる。~
但し、分野混在の文集を学習させると、一般的な用語の重要度が高くなる。特定分野での学習に限るべきである。~

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS