ノート/テキストマイニング
訪問者数 2617      最終更新 2008-06-23 (月) 11:05:41
> ノート/テキストマイニング
> ノート/テキストマイニング/PubMed解析
> ノート/テキストマイニング/MeSH
> ノート/テキストマイニング/NLTK

テキストマイニングとシソーラスについて考えて見たい

出発点は

キーワード頻度を座標軸としたベクトル空間法から考える。
キーワードについて、シソーラス(ここでは概念辞書を想定、つまり概念の上下関係ie 包含関係)を持っているとする。
具体例としては、Pubmedの文献についてベクトル空間法をするとき、シソーラスMeSHを使うようなことを考える。

疑問は何かというと、上下関係にあるキーワードを、全て異なるキーワードとしてつまり 別次元として扱って、ベクトル空間を考えてよいのかどうか。意味・概念上の上下関係(包含関係、is-a関係)を考えないのがよいのか? もし考えたほうがいいとしたら、どう織り込むのか?

現実にどんな対応が出来るのがよいのだろうか???

たとえば、樹木の下(中)に杉と松があるとする。松について議論している論文だったとして、 キーワードとして「松」に興味がある。
その文の中で、「木は太陽からのエネルギーを得て生きている」と書いてあったとする。
この「木」は、キーワードとしてカウントすべきか?

キーワード頻度によるベクトル空間法は、論文の話題の近さを判定するために 使いたいのだろう。少なくとも自分の出発点は、話題の近い論文を探して、研究の 参考にしようとか、先行研究のリストをつくろうとか、考えた。だから<話題が近い> というのは欲しい判断基準に近いだろう。

こんな例も考えられる。論文で「木は一般にXXXXであるが、松の場合はYYYと なり、違っている」とあったとしよう。これはどう役立つのか?    何を気にしているかというと、概念の階層は‘韻犬發里魍腓襦△鉢違うものを指摘する、 の2つの効果があるように思う。,蓮秕召眇も木であって、木は共通にXXXである> といった文脈を考えている。△蓮稾擇錬悖悖悗任△辰董⊃はYYYであるが松はZZZ である>といった区別をしたい場合を考えている。人間の思考はこの両方を使うが、 それは文の詳細を理解しなければ分からないだろう。


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2008-06-23 (月) 11:05:41 (3292d)