[[ノート/テキストマイニング]]~
訪問者数 &counter();      最終更新 &lastmod();~

*2014-07-18 ツイッタ−のノイズ除去 [#y203984e]
*2014-07-18 ツイッタ−のノイズ [#y203984e]

ツイートにはかなり大量の「単語にならない表現」が含まれているので、これをそのまま
形態素解析にかけても有効でない。余分な単語が検出されることは、あとの統計処理上
望ましくない。

そのような「ノイズ」を除去することを考える。但し、ツイートごと対象ファイルから削除するのではなく、語の部分だけを削除する方が望まれるだろう。


参考:
-[[ニューラルネットによる単語のベクトル表現の学習 〜 Twitterのデータでword2vecしてみた:http://yamitzky.hatenablog.com/entry/2014/03/11/222223]]
-そのソースコードが[[GitHubにある:https://github.com/yamitzky/word2vec-japanese-twitter]]
-で、そのコードは[[prettify:https://github.com/yamitzky/word2vec-japanese-twitter/blob/master/prettify.py]] と [[train.py:https://github.com/yamitzky/word2vec-japanese-twitter/blob/master/train.py]]
-こんなの [[【twitter】ノイズ系ツイートを削除する方法のサンプル集【正規表現ミュート】:http://matome.naver.jp/odai/2138061411726103001]] もあった

ツイートデータの例は
 電車なう。http://*********      <-- URL
 電車に乗る(゚∀゚ゞ)              <-- 顔文字
 初めて気づいた(^_^;)            <-- 同上
 カカカ。                           <-- 半角カタカナ
 電車だったかな…                <-- 3点リーダ その他のおかしな約物
 言うねww                      <-- wwなど、半角wwや大文字WWもあり得る
 分からん(笑)                    <-- (笑)や(笑)(泣)
 @*****                          <-- 宛先アカウント名
 ーーーー                        <-- ーの繰り返し
 ( ; ; )                       <-- 顔文字か?

これから見ると、
-http://***    URLの形をしたもの、URLだけを取り除くか、英語小文字すべてを消してよいか?
-〜(゚∀゚ゞ)   「〜」、 顔文字(゚∀゚ゞ)に出てくる時は通常の語中では使わないので、消してよかろう
-! は文の終端記号と見なせる?  顔文字(^_^;)も文の終端
-(笑)(泣)などは、消せる(形態素解析に語登録してもよいが)。 句読点の代わりになる?
-「ーー」 「ー」1つはOKかも知れない?
-「WW」 全角も半角も、大文字も小文字も、両方だろう
-リツイート RT @xxxx:  消してよかろう

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS