ノート/テキストマイニング
訪問者数 461      最終更新 2014-07-23 (水) 10:33:44

2014-07-18 ツイッタ−のノイズ

ツイートにはかなり大量の「単語にならない表現」が含まれているので、これをそのまま 形態素解析にかけても有効でない。余分な単語が検出されることは、あとの統計処理上 望ましくない。

そのような「ノイズ」を除去することを考える。但し、ツイートごと対象ファイルから削除するのではなく、語の部分だけを削除する方が望まれるだろう。

参考:

ツイートデータの例は

電車なう。http://*********      <-- URL
電車に乗る(゚∀゚ゞ)              <-- 顔文字
初めて気づいた(^_^;)            <-- 同上
カカカ。                           <-- 半角カタカナ
電車だったかな…                <-- 3点リーダ その他のおかしな約物
言うねww                      <-- wwなど、半角wwや大文字WWもあり得る
分からん(笑)                    <-- (笑)や(笑)(泣)
@*****                          <-- 宛先アカウント名
ーーーー                        <-- ーの繰り返し
( ; ; )                       <-- 顔文字か?

これから見ると、


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2014-07-23 (水) 10:33:44 (1219d)