ノート/テキストマイニング
1140 2013-05-29 (水) 13:08:55
共起分析(その1)
共起分析予備実験
ツイートデータの解析結果
青空文庫の解析結果
ウィキペディアデータの解析結果
日本語Wikipediaデータの解析 (2013-05-22) †
元データの整形 †
元データは、
- XMLデータでありタグが入っている。解析の対象は<text>...</text>間のてきすとだけでよかろう
- テキスト内にも、余分な情報が含まれている。たとえばxxxx?はWikiのリンクであり、xxx?はカッコ内部を含めて除いていい。但し、入れ子になっている可能性があるので、それをきちんと把握する必要がある。
データの分割 †
元データが大きいので、処理に時間がかかり不安なので、適当な単位に分割してそれぞれを集計し、最後に全体を集計する方法を考える。