[[ノート/テキストマイニング]]~
訪問者数 &counter();      最終更新 &lastmod();~
> [[ノート/テキストマイニング]]~
> [[ノート/テキストマイニング/PubMed解析]]~
> [[ノート/テキストマイニング/MeSH]]~
> [[ノート/テキストマイニング/NLTK]]~

**テキストマイニングとシソーラスについて考えて見たい [#d701f610]
***出発点は [#h89e22e0]
キーワード頻度を座標軸としたベクトル空間法から考える。~
キーワードについて、シソーラス(ここでは概念辞書を想定、つまり概念の上下関係ie
包含関係)を持っているとする。~
具体例としては、Pubmedの文献についてベクトル空間法をするとき、シソーラスMeSHを使うようなことを考える。

疑問は何かというと、上下関係にあるキーワードを、全て異なるキーワードとしてつまり
別次元として扱って、ベクトル空間を考えてよいのかどうか。意味・概念上の上下関係(包含関係、is-a関係)を考えないのがよいのか? もし考えたほうがいいとしたら、どう織り込むのか?

現実にどんな対応が出来るのがよいのだろうか???

たとえば、樹木の下(中)に杉と松があるとする。松について議論している論文だったとして、
キーワードとして「松」に興味がある。~
その文の中で、「木は太陽からのエネルギーを得て生きている」と書いてあったとする。~
この「木」は、キーワードとしてカウントすべきか?

キーワード頻度によるベクトル空間法は、論文の話題の近さを判定するために
使いたいのだろう。少なくとも自分の出発点は、話題の近い論文を探して、研究の
参考にしようとか、先行研究のリストをつくろうとか、考えた。だから<話題が近い>
というのは欲しい判断基準に近いだろう。

こんな例も考えられる。論文で「木は一般にXXXXであるが、松の場合はYYYと
なり、違っている」とあったとしよう。これはどう役立つのか? 
 
何を気にしているかというと、概念の階層は‘韻犬發里魍腓襦△鉢違うものを指摘する、
の2つの効果があるように思う。,蓮秕召眇も木であって、木は共通にXXXである>
といった文脈を考えている。△蓮稾擇錬悖悖悗任△辰董⊃はYYYであるが松はZZZ
である>といった区別をしたい場合を考えている。人間の思考はこの両方を使うが、
それは文の詳細を理解しなければ分からないだろう。

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS