[[ノート/テキストマイニング]]~
&counter();   &lastmod();~

[[共起分析(その1)>ノート/テキストマイニング/共起分析]]~
[[共起分析予備実験>ノート/テキストマイニング/共起分析予備実験]]~
~
[[ツイートデータの解析結果>ノート/テキストマイニング/共起分析予備実験2]]~
[[青空文庫の解析結果>ノート/テキストマイニング/共起分析予備実験3]]~
[[ウィキペディアデータの解析結果>ノート/テキストマイニング/共起分析予備実験4]]

**日本語Wikipediaデータの解析 (2013-05-22) [#aafc9df0]
***元データの整形 [#k5c90c60]
元データは、
-XMLデータでありタグが入っている。解析の対象は<text>...</text>間のてきすとだけでよかろう
-テキスト内にも、余分な情報が含まれている。たとえば[[xxxx]]はWikiのリンクであり、[[xxx]]はカッコ内部を含めて除いていい。但し、入れ子になっている可能性があるので、それをきちんと把握する必要がある。

***データの分割 [#k457e85c]
元データが大きいので、処理に時間がかかり不安なので、適当な単位に分割してそれぞれを集計し、最後に全体を集計する方法を考える。


トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS