[[ノート/テキストマイニング]]~
&counter();   &lastmod();~

**共起の解析実験 (2013-05-11) [#ucc77ae9]

***共起の定義 [#d88882b3]
文章中で、「共に生起する」語のペア、つまり同一単位(単位として単文・文章・文節などいろいろ考えられる)中に発現する語のペア、とする。

以下述べるように、さまざまな定義・限定が考えられるので、目的と手段との合致に関して十分注意する必要があるだろう。

-観測単位は、それぞれの目的に応じていろいろ考えられる。

-対象となる語として、名詞に限定するという考え方のほか、名詞と動詞や、名詞と形容詞なども考えられる。

-名詞・動詞や名詞・形容詞の場合は、文法構造(係り受け構造)を考慮に入れるほうが意味があるだろう。

-また、名詞・名詞の場合でも、同一単位内での共起(バスケット分析的な発想、つまり同一レシートに現れる商品)という考え方だけでなく、より限定して考えると、たとえばANDやORで併置される語のペア(この場合「対称的な語」と言えるだろう)とか、主語・目的語の関係を持つ語のペア(この場合、文法解析が必須になる)、なども考えられる。

-「連続している語のペア」という考え方の分析は、別途なされている(N-gram分析)。

***共起計数の目的 [#v7d07e40]
さまざまな目的が考えられる。

+多数のデータ(コーパス)を解析し、規定した共起関係を持つ語のペアを抽出し、その頻度が大きいもの、つまり頻繁に「共に使われる」ペアを取り出す。頻繁に共起していることをもって、「意味が関連している」・「意味が近い」と推定しようとする。少なくとも、まったく無関係の語対が、頻繁に現れると言うことは想像しにくい。

+ANDやOR関係で結ばれる語のペアを抽出し、その頻度が大きいものをもって、意味が近い、正確には意味のドメインが同じである、と推定する。つまり、対照できる2語であるということ。たとえばりんごとみかんはおそらくANDやORによって結ばれるペアであろうが、それはともに果物であると言えるだろう。これはかなり妥当性が高いが、出現頻度は低いと予想される。

+文法的に分析して「主語」と「目的語」のペアを抽出した場合、辞書作成の観点から意味があるだろう。ただし、結果は文法解析(係り受け解析)の精度がどれだけ得られるかにも依存し、その精度が必ずしも十分安定に高いわけではないので、丁寧な検証が必要になるだろう。

ここでは、もっとも結果が予測しにくい、1の目的を持って分析してみる。つまり、あまり関係に制約を設けず、とにかく共起していることだけから、どのような語のクラスタが検出されるかを、実験してみたい。

***語の定義 [#oa6729c3]
「語」は形態素解析によって求めることになるが、(形態素解析のやり方によるが)結果の単位が必ずしも希望する「語」の単位と合致しないこともある。

-複合語の場合:~
たとえば名詞を連続して作られる複合語を、形態素解析で細かく分割すると、複合語として繰り返して用いられると共起の回数が異常に大きくなる。たとえば、「複合」と「語」に分けて扱うと、「複合語」が出現するたびに「複合」と「語」の共起が計数される。密に結合した複合語は、一語として扱うべき場合があるだろう。

-数と名詞の結合の場合:~
たとえば「一語」という語は「一」と「語」に分解されるが、目的によっては一語に扱うべき場合があるだろう。

上記の2件は、いずれも名詞・名詞の共起を考えたときにのみ起こる。


***数え方の問題 [#c73da3a5]
1つの単位(たとえば単文)中に、語Aが3回、語Bが2回出現した場合、共起の発生回数をいくつにすべきか、という問題である。
-発生回数を1とする
-発生回数を、min(3, 2) とする。この計数がどういう意味かは、よく考えてみたい。
-発生回数を、3×2とする。つまりすべての組合せの回数を数えてしまおうと言う考え方である。一般に計数値がこういう場合に限り非常に大きくなる。

***共起強度(密度)によるクラスタ化 [#deb0178b]
1つの参考文献(間接的に):[[大規模コーパスからの語義のマイニング:http://www.dbsj.org/journal/vol8/no1/dbsj-journal-08-01-077.pdf]]

共起関係の強さ(共起の密度)を何らかの方法で計算し、語をノードとした重みつき(無向)グラフとして表現し、そのグラフ上での結びつきの強いノードによるクラスタを特定する。そのクラスタは、語の使用の上でつながりが強い仲間なので、意味上も何かのつながりがあるはずだという予測の下に、試みる。

グラフのクラスタ化の手法は、今後確認する。


**[[まずは共起の解析の予備実験(2013-05-11)(リンク先)>ノート/テキストマイニング/共起分析予備実験]] [#ee5e6edd]

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS