ノート/テキストマイニング
817   2013-05-13 (月) 16:06:50

共起分析(その1)

参考文献(間接的に):大規模コーパスからの語義のマイニング

共起の解析の予備実験 (2013-05-11)

単純な名詞2語の共起状況を計測する。
複合語(名詞の連結)については、機械的に連結可能なもの(=連続する名詞)をすべて連結した。

ツイートデータの共起解析

ツイッター(公開ストリーム)を収集したものを分析する。
ツイートを単位とし、1つのツイート内に共起する名詞を計測する。
ツイート特有の語法、用語を勘案する。具体的には、基本的に全角文字のみを解析対象とし、制御文字(RTやfoo@barなど)は除外する。またwwwなどの用語も除外する。

青空文庫

青空文庫()に含まれる文学作品を対象として分析する。
口語・現代仮名遣いを中心とする。
平文で収録されている作品から、ルビおよび前後の解説を取り除いた本文を、解析の対象とする。

ウィキペディア (今後の課題)

http://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89 の説明によると、XML形式のデータがダウンロードできる。

http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 は1.7GBだそうなので、十分に目途が付いてからダウンロードするのがよかろう。

ツイートデータの解析結果

ツイートデータの解析結果

青空文庫の解析結果

青空文庫の解析結果

ウィキペディアデータの解析結果

ウィキペディアの解析結果


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2013-05-13 (月) 16:06:50 (1655d)