![]() |
ノート/テキストマイニング/ツイートの雑音https://pepper.is.sci.toho-u.ac.jp:443/pepper/index.php?%A5%CE%A1%BC%A5%C8%2F%A5%C6%A5%AD%A5%B9%A5%C8%A5%DE%A5%A4%A5%CB%A5%F3%A5%B0%2F%A5%C4%A5%A4%A1%BC%A5%C8%A4%CE%BB%A8%B2%BB |
![]() |
ノート/テキストマイニング
訪問者数 954 最終更新 2014-07-23 (水) 10:33:44
ツイートにはかなり大量の「単語にならない表現」が含まれているので、これをそのまま 形態素解析にかけても有効でない。余分な単語が検出されることは、あとの統計処理上 望ましくない。
そのような「ノイズ」を除去することを考える。但し、ツイートごと対象ファイルから削除するのではなく、語の部分だけを削除する方が望まれるだろう。
参考:
ツイートデータの例は
電車なう。http://********* <-- URL 電車に乗る(゚∀゚ゞ) <-- 顔文字 初めて気づいた(^_^;) <-- 同上 カカカ。 <-- 半角カタカナ 電車だったかな… <-- 3点リーダ その他のおかしな約物 言うねww <-- wwなど、半角wwや大文字WWもあり得る 分からん(笑) <-- (笑)や(笑)(泣) @***** <-- 宛先アカウント名 ーーーー <-- ーの繰り返し ( ; ; ) <-- 顔文字か?
これから見ると、