ノート/テキストマイニング
1312 2013-05-13 (月) 16:06:50
参考文献(間接的に):大規模コーパスからの語義のマイニング
単純な名詞2語の共起状況を計測する。
複合語(名詞の連結)については、機械的に連結可能なもの(=連続する名詞)をすべて連結した。
ツイッター(公開ストリーム)を収集したものを分析する。
ツイートを単位とし、1つのツイート内に共起する名詞を計測する。
ツイート特有の語法、用語を勘案する。具体的には、基本的に全角文字のみを解析対象とし、制御文字(RTやfoo@barなど)は除外する。またwwwなどの用語も除外する。
青空文庫()に含まれる文学作品を対象として分析する。
口語・現代仮名遣いを中心とする。
平文で収録されている作品から、ルビおよび前後の解説を取り除いた本文を、解析の対象とする。
http://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89 の説明によると、XML形式のデータがダウンロードできる。
http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 は1.7GBだそうなので、十分に目途が付いてからダウンロードするのがよかろう。