[[ノート/テキストマイニング]]~
&counter();   &lastmod();~

[[共起分析(その1)>ノート/テキストマイニング/共起分析]]

参考文献(間接的に):[[大規模コーパスからの語義のマイニング:http://www.dbsj.org/journal/vol8/no1/dbsj-journal-08-01-077.pdf]]

**共起の解析の予備実験 (2013-05-11) [#le693e4b]
単純な名詞2語の共起状況を計測する。~
複合語(名詞の連結)については、機械的に連結可能なもの(=連続する名詞)をすべて連結した。

**ツイートデータの共起解析 [#e48a313c]
ツイッター(公開ストリーム)を収集したものを分析する。~
ツイートを単位とし、1つのツイート内に共起する名詞を計測する。~
ツイート特有の語法、用語を勘案する。具体的には、基本的に全角文字のみを解析対象とし、制御文字(RTやfoo@barなど)は除外する。またwwwなどの用語も除外する。~

**青空文庫 [#u64b0726]
青空文庫()に含まれる文学作品を対象として分析する。~
口語・現代仮名遣いを中心とする。~
平文で収録されている作品から、ルビおよび前後の解説を取り除いた本文を、解析の対象とする。

**ウィキペディア (今後の課題) [#i44aa7bf]
http://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89 の説明によると、XML形式のデータがダウンロードできる。

http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
は1.7GBだそうなので、十分に目途が付いてからダウンロードするのがよかろう。


**ツイートデータの解析結果 [#nca844a5]
[[ツイートデータの解析結果>ノート/テキストマイニング/共起分析予備実験2]] 

**青空文庫の解析結果 [#w451ff98]
[[青空文庫の解析結果>ノート/テキストマイニング/共起分析予備実験3]]

**ウィキペディアデータの解析結果 [#k0a732f4]
[[ウィキペディアの解析結果>ノート/テキストマイニング/共起分析予備実験4]]

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS