![]() |
ノート/テキストマイニング/twitter-DB-解析2https://pepper.is.sci.toho-u.ac.jp:443/pepper/index.php?%A5%CE%A1%BC%A5%C8%2F%A5%C6%A5%AD%A5%B9%A5%C8%A5%DE%A5%A4%A5%CB%A5%F3%A5%B0%2Ftwitter-DB-%B2%F2%C0%CF2 |
![]() |
訪問者数 1094 最終更新 2012-06-27 (水) 07:54:23
ノート/テキストマイニング/twitter-DB-解析 の続き
とにかく名詞にマークされているものを抜き出す。
サンプル数 10281 548 笑 543 人 498 こと 442 さん 343 雷 <--- 311 日 298 雨 <--- 297 私 293 今日 281 そう 266 何 225 俺 213 時 208 中 207 それ 204 ちゃん 194 一 192 好き 192 よう 184 今 182 方 180 これ 163 的 152 さ 146 自分 135 時間 132 みたい 131 気 127 月 124 円 121 バイト 121 前 117 もの 116 フォロー 115 様 112 分 109 誰 108 回 103 あと 102 明日 100 みんな 99 ら 96 目 96 定期 95 日本 93 家 93 なん 93 者 91 年 91 大丈夫 88 仕事 87 事 82 とき 79 最近 78 お願い 77 うち 76 位 74 風 73 東京 72 情報 72 なに 70 一番 69 ツイート 66 め 66 話 65 男 65 群馬 65 無料 64 身長 64 子 64 学校 63 どこ 62 顔 62 金 62 お前 62 店 61 県 61 やつ 61 電車 61 ため 60 君 60 そ 58 万 58 昨日 58 駅 58 僕 57 一緒 57 写真 57 いま 56 くん 56 こちら 56 もん 56 傘 <--- 55 本 55 テスト 55 音 55 天気 <--- 54 DVD 53 あなた 53 わたし 53 市 53 頭 53 ここ 53 度 52 こ 52 希望 52 拡散 52 先生 51 夜 51 数 51 帰宅 51 会 50 感じ 50 奴 49 大好き 49 曲 49 気持ち 48 世界 48 うに 47 授業 47 イケメン 47 歳 47 あたし 47 意味 47 次 47 力 46 マジ 46 たち 45 ところ 45 手 45 あれ 44 心 44 予定 44 4 44 三 44 以上 44 こっち 44 足 43 夢 43 勉強 43 ゆ 42 性 42 友達 42 ろ 42 女 41 枚 41 楽天 41 無理 41 ブログ 40 ちょ 40 生活 40 とこ 39 女の子 39 栃木 39 頃 39 上 39 絶対 39 後 39 神 39 たん 38 更新 38 車 38 全部 38 垢 37 わけ 37 声 37 暇 37 茨城 37 参加 37 人間 36 ゲーム 36 さっき 36 本日 36 言葉 36 文字 36 ぉ 35 ほう 35 リプ
数詞や記号は手で適当に取り除いた。
Mecabの形態素解析の性質から、分解の結果がいろいろと気に入らない部分はある。たとえば1つの名詞と思うのに2つに分解するなど。もう少し考える必要がある。たとえばyono/Pythonで自然言語処理参照。
かすかに読み取れる事として、マークをつけた雨や雷がある。この日は前日から天候が不安定で、急に雷がなって激しいにわか雨が降る状況が続いていた。おそらくは、その状況が反映されているのだろう。
きちんと読み取る方法として、時間変化を追う時系列解析や、少なくとも時間的な平均値を出しておいてそこからの変動を検出する必要がありそうだ。
まだ大分ゴミがあるので、もう少していねいにごみ処理する必要がありそうだ。 各データとも1時間ずつ。
======== サンプル数 10000 592 笑 30 野田 23 充 18 リア 17 氷室 16 財前 13 ツイ 12 関 11 小沢 10 マイ 9 了 9 徹子 9 翔 9 太 8 赤司 8 まどか 8 佳彦 7 京 7 高橋 7 ジョージ 7 智 7 イラ ======== サンプル数 3275 88 笑 13 金 13 運 11 元就 8 寺島 8 野田 5 マイケル 5 眠 4 大島 4 優子 4 翔 4 小沢 4 藤 4 ツイ 4 マイ ======== サンプル数 4738 192 笑 12 小沢 11 桂 9 小太郎 6 了 6 翔 6 りさ 6 マイ 5 充 5 春香 5 ゆみ 4 ブー 4 許斐 4 ローソン 4 レン 4 渉 4 リン 4 野田 4 榎
時系列分析をすると面白いだろう。どの名前がどう増えたり減ったりするのか?
野田とか小沢は、いま政治的な話題。レンとかリンとかはボーカロイド? マイケルとかジョージとかは何だろう?