[[テキストマイニング>ノート/テキストマイニング]]~
訪問者数 &counter();      最終更新 &lastmod();

**Windowsでの、KH Coder [#m385914f]
-KH Coderのダウンロード~
[[ダウンロードへのポインタのページ:http://khc.sourceforge.net/dl.html]] から Windows版バイナリ(オールインワンパッケージ)をダウンロード~

-解凍 〜 exeファイルなので実行して解凍する。~
フォルダ C:\khcoder の中へ展開される

-チュートリアルファイルを開き、その記述に従ってサンプルデータの処理を試してみる。
--&ref(C:\khcoder\khcoder_tutorial.pdf,,./khcoder_tutorial.pdf);
--&ref(./khcoder_tutorial.pdf,,C:\khcoder\khcoder_tutorial.pdf);

-自分のデータを試してみよう
--前処理~
不要な単語を除外するのはかなり重要らしい。特に小説ならともかくも、ツイッタ−データとなると単語でない文字や文字列が頻繁に出現する。取り除かないと解析上邪魔になる。
---ひとつの考え方として、KH Coderに入る前に取り除いてしまうことも考えられる。なぜなら、KH Coderでやろうとすると、それなり手間が面倒で、かつ遅い。この辺はいろいろ議論があると思うが。
---仮にKH Coderの中で、除外リストを入力してやってみた。入力がうまくファイルを読んでくれない(なぜ?)のでコピペして使ってみる(前処理→)。
--ツイートサンプル1データ分(15757ツイート)を解析してみる。~

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS