サイトトップ
訪問者数 995      最終更新 2013-02-19 (火) 16:20:38

テキストマイニング

テキストデータの中から情報を取り出す技術である。テキストの処理方法は、形態素解析(単語のきり分けと品詞情報の付加)、文法解析(英語の場合シンタックス解析、日本語の場合係り受け解析、切り分けた語の並び方からその語の役割を決める)、意味解析(この部分は未だ十分に解明されていない分野である)、文脈の処理(文と文の関係など)の階層構造になっており、形態素解析と文法解析はかなり実用レベルのソフトがある。それを使って、大量のテキストから意味のある情報を取り出そうとするのが、テキストマイニングである。

現在、実用レベルで広く行われているのが、形態素解析の結果を数える形での統計処理である。単語の出現頻度を手がかりにして、たとえば同一著者であるか、盗作コピーしたテキストであるか、時系列として収集されるテキスト上での傾向の推定などが行われている。研究室でもいくつかの実験を行っている。

テキスト間の類似性判定(盗作検出)

リアルタイム時系列テキストサンプルでの変動推定

文法レベルの解析

単語レベルの情報だけではなく、文法レベル(単語の役割による意味)の情報を利用した知的処理の可能性について、検討している。 たとえば、文献検索の場面で
 AがBに変化する、と
 BがAに変化する
では、変化する主語と目的語が逆であるために全く意味が異なるにも関わらず、単語の一致に基づく検索では同じようにヒットする。今までの検索ではこれらを同時に表示した上で、人間が必要なものを取捨選択していた。原文を文法解析すれば、動詞「変化する」に対して、Aが主語であり、Bが主語である、という条件で検索することができる。

共起の応用、知的発見


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2013-02-19 (火) 16:20:38 (1643d)