[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
[[ノート/テキストマイニング]]~
&counter(); &lastmod();~
[[共起分析(その1)>ノート/テキストマイニング/共起分析]]~
[[共起分析予備実験>ノート/テキストマイニング/共起分析予備実験]]~
~
[[ツイートデータの解析結果>ノート/テキストマイニング/共起分析予備実験2]]~
[[青空文庫の解析結果>ノート/テキストマイニング/共起分析予備実験3]]~
[[ウィキペディアデータの解析結果>ノート/テキストマイニング/共起分析予備実験4]]
**日本語Wikipediaデータの解析 (2013-05-22) [#aafc9df0]
***元データの整形 [#k5c90c60]
元データは、
-XMLデータでありタグが入っている。解析の対象は<text>...</text>間のてきすとだけでよかろう
-テキスト内にも、余分な情報が含まれている。たとえば[[xxxx]]はWikiのリンクであり、[[xxx]]はカッコ内部を含めて除いていい。但し、入れ子になっている可能性があるので、それをきちんと把握する必要がある。
***データの分割 [#k457e85c]
元データが大きいので、処理に時間がかかり不安なので、適当な単位に分割してそれぞれを集計し、最後に全体を集計する方法を考える。
終了行:
[[ノート/テキストマイニング]]~
&counter(); &lastmod();~
[[共起分析(その1)>ノート/テキストマイニング/共起分析]]~
[[共起分析予備実験>ノート/テキストマイニング/共起分析予備実験]]~
~
[[ツイートデータの解析結果>ノート/テキストマイニング/共起分析予備実験2]]~
[[青空文庫の解析結果>ノート/テキストマイニング/共起分析予備実験3]]~
[[ウィキペディアデータの解析結果>ノート/テキストマイニング/共起分析予備実験4]]
**日本語Wikipediaデータの解析 (2013-05-22) [#aafc9df0]
***元データの整形 [#k5c90c60]
元データは、
-XMLデータでありタグが入っている。解析の対象は<text>...</text>間のてきすとだけでよかろう
-テキスト内にも、余分な情報が含まれている。たとえば[[xxxx]]はWikiのリンクであり、[[xxx]]はカッコ内部を含めて除いていい。但し、入れ子になっている可能性があるので、それをきちんと把握する必要がある。
***データの分割 [#k457e85c]
元データが大きいので、処理に時間がかかり不安なので、適当な単位に分割してそれぞれを集計し、最後に全体を集計する方法を考える。
ページ名: