[[ノート/テキストマイニング]]~ 訪問者数 &counter(); 最終更新 &lastmod();~ *2014-07-18 ツイッタ−のノイズ除去 [#y203984e] *2014-07-18 ツイッタ−のノイズ [#y203984e] ツイートにはかなり大量の「単語にならない表現」が含まれているので、これをそのまま 形態素解析にかけても有効でない。余分な単語が検出されることは、あとの統計処理上 望ましくない。 そのような「ノイズ」を除去することを考える。但し、ツイートごと対象ファイルから削除するのではなく、語の部分だけを削除する方が望まれるだろう。 参考: -[[ニューラルネットによる単語のベクトル表現の学習 〜 Twitterのデータでword2vecしてみた:http://yamitzky.hatenablog.com/entry/2014/03/11/222223]] -そのソースコードが[[GitHubにある:https://github.com/yamitzky/word2vec-japanese-twitter]] -で、そのコードは[[prettify:https://github.com/yamitzky/word2vec-japanese-twitter/blob/master/prettify.py]] と [[train.py:https://github.com/yamitzky/word2vec-japanese-twitter/blob/master/train.py]] -こんなの [[【twitter】ノイズ系ツイートを削除する方法のサンプル集【正規表現ミュート】:http://matome.naver.jp/odai/2138061411726103001]] もあった ツイートデータの例は 電車なう。http://********* <-- URL 電車に乗る(゚∀゚ゞ) <-- 顔文字 初めて気づいた(^_^;) <-- 同上 カカカ。 <-- 半角カタカナ 電車だったかな… <-- 3点リーダ その他のおかしな約物 言うねww <-- wwなど、半角wwや大文字WWもあり得る 分からん(笑) <-- (笑)や(笑)(泣) @***** <-- 宛先アカウント名 ーーーー <-- ーの繰り返し ( ; ; ) <-- 顔文字か? これから見ると、 -http://*** URLの形をしたもの、URLだけを取り除くか、英語小文字すべてを消してよいか? -〜(゚∀゚ゞ) 「〜」、 顔文字(゚∀゚ゞ)に出てくる時は通常の語中では使わないので、消してよかろう -! は文の終端記号と見なせる? 顔文字(^_^;)も文の終端 -(笑)(泣)などは、消せる(形態素解析に語登録してもよいが)。 句読点の代わりになる? -「ーー」 「ー」1つはOKかも知れない? -「WW」 全角も半角も、大文字も小文字も、両方だろう -リツイート RT @xxxx: 消してよかろう