ノート/テキストマイニング
2015   2013-05-13 (月) 16:06:11

共起の解析実験 (2013-05-11)

共起の定義

文章中で、「共に生起する」語のペア、つまり同一単位(単位として単文・文章・文節などいろいろ考えられる)中に発現する語のペア、とする。

以下述べるように、さまざまな定義・限定が考えられるので、目的と手段との合致に関して十分注意する必要があるだろう。

共起計数の目的

さまざまな目的が考えられる。

  1. 多数のデータ(コーパス)を解析し、規定した共起関係を持つ語のペアを抽出し、その頻度が大きいもの、つまり頻繁に「共に使われる」ペアを取り出す。頻繁に共起していることをもって、「意味が関連している」・「意味が近い」と推定しようとする。少なくとも、まったく無関係の語対が、頻繁に現れると言うことは想像しにくい。
  1. ANDやOR関係で結ばれる語のペアを抽出し、その頻度が大きいものをもって、意味が近い、正確には意味のドメインが同じである、と推定する。つまり、対照できる2語であるということ。たとえばりんごとみかんはおそらくANDやORによって結ばれるペアであろうが、それはともに果物であると言えるだろう。これはかなり妥当性が高いが、出現頻度は低いと予想される。
  1. 文法的に分析して「主語」と「目的語」のペアを抽出した場合、辞書作成の観点から意味があるだろう。ただし、結果は文法解析(係り受け解析)の精度がどれだけ得られるかにも依存し、その精度が必ずしも十分安定に高いわけではないので、丁寧な検証が必要になるだろう。

ここでは、もっとも結果が予測しにくい、1の目的を持って分析してみる。つまり、あまり関係に制約を設けず、とにかく共起していることだけから、どのような語のクラスタが検出されるかを、実験してみたい。

語の定義

「語」は形態素解析によって求めることになるが、(形態素解析のやり方によるが)結果の単位が必ずしも希望する「語」の単位と合致しないこともある。

上記の2件は、いずれも名詞・名詞の共起を考えたときにのみ起こる。

数え方の問題

1つの単位(たとえば単文)中に、語Aが3回、語Bが2回出現した場合、共起の発生回数をいくつにすべきか、という問題である。

共起強度(密度)によるクラスタ化

1つの参考文献(間接的に):大規模コーパスからの語義のマイニング

共起関係の強さ(共起の密度)を何らかの方法で計算し、語をノードとした重みつき(無向)グラフとして表現し、そのグラフ上での結びつきの強いノードによるクラスタを特定する。そのクラスタは、語の使用の上でつながりが強い仲間なので、意味上も何かのつながりがあるはずだという予測の下に、試みる。

グラフのクラスタ化の手法は、今後確認する。

まずは共起の解析の予備実験(2013-05-11)(リンク先)


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2013-05-13 (月) 16:06:11 (1593d)