[[ノート/テキストマイニング]]~

訪問者数 &counter();      最終更新 &lastmod();~

[[ノート/テキストマイニング/twitter-DB-解析]] の続き
 
**名詞だけ抜き出す 2012-05-28 [#d7301cd6]
とにかく名詞にマークされているものを抜き出す。

 サンプル数 10281
 548 笑
 543 人
 498 こと
 442 さん
 343 雷 <---
 311 日
 298 雨 <---
 297 私
 293 今日
 281 そう
 266 何
 225 俺
 213 時
 208 中
 207 それ
 204 ちゃん
 194 一
 192 好き
 192 よう
 184 今
 182 方
 180 これ
 163 的
 152 さ
 146 自分
 135 時間
 132 みたい
 131 気
 127 月
 124 円
 121 バイト
 121 前
 117 もの
 116 フォロー
 115 様
 112 分
 109 誰
 108 回
 103 あと
 102 明日
 100 みんな
 99  ら
 96  目
 96  定期
 95  日本
 93  家
 93  なん
 93  者
 91  年
 91  大丈夫
 88  仕事
 87  事
 82  とき
 79  最近
 78  お願い
 77  うち
 76  位
 74  風
 73  東京
 72  情報
 72  なに
 70  一番
 69  ツイート
 66  め
 66  話
 65  男
 65  群馬
 65  無料
 64  身長
 64  子
 64  学校
 63  どこ
 62  顔
 62  金
 62  お前
 62  店
 61  県
 61  やつ
 61  電車
 61  ため
 60  君
 60  そ
 58  万
 58  昨日
 58  駅
 58  僕
 57  一緒
 57  写真
 57  いま
 56  くん
 56  こちら
 56  もん
 56  傘    <---
 55  本
 55  テスト
 55  音
 55  天気   <---
 54  DVD
 53  あなた
 53  わたし
 53  市
 53  頭
 53  ここ
 53  度
 52  こ
 52  希望
 52  拡散
 52  先生
 51  夜
 51  数
 51  帰宅
 51  会
 50  感じ
 50  奴
 49  大好き
 49  曲
 49  気持ち
 48  世界
 48  うに
 47  授業
 47  イケメン
 47  歳
 47  あたし
 47  意味
 47  次
 47  力
 46  マジ
 46  たち
 45  ところ
 45  手
 45  あれ
 44  心
 44  予定
 44  4
 44  三
 44  以上
 44  こっち
 44  足
 43  夢
 43  勉強
 43  ゆ
 42  性
 42  友達
 42  ろ
 42  女
 41  枚
 41  楽天
 41  無理
 41  ブログ
 40  ちょ
 40  生活
 40  とこ
 39  女の子
 39  栃木
 39  頃
 39  上
 39  絶対
 39  後
 39  神
 39  たん
 38  更新
 38  車
 38  全部
 38  垢
 37  わけ
 37  声
 37  暇
 37  茨城
 37  参加
 37  人間
 36  ゲーム
 36  さっき
 36  本日
 36  言葉
 36  文字
 36  ぉ
 35  ほう
 35  リプ 

数詞や記号は手で適当に取り除いた。~
Mecabの形態素解析の性質から、分解の結果がいろいろと気に入らない部分はある。たとえば1つの名詞と思うのに2つに分解するなど。もう少し考える必要がある。たとえば[[yono/Pythonで自然言語処理:http://www.nal.ie.u-ryukyu.ac.jp/wiki/index.php?yono%2FPython%A4%C7%BC%AB%C1%B3%B8%C0%B8%EC%BD%E8%CD%FD#content_1_6]]参照。

かすかに読み取れる事として、マークをつけた雨や雷がある。この日は前日から天候が不安定で、急に雷がなって激しいにわか雨が降る状況が続いていた。おそらくは、その状況が反映されているのだろう。

きちんと読み取る方法として、時間変化を追う時系列解析や、少なくとも時間的な平均値を出しておいてそこからの変動を検出する必要がありそうだ。

***名詞のうち更に「固有名詞」の「人名」のみを取り出す [#g3b0d2f6]
***名詞のうち更に「固有名詞」の「人名」のみを取り出す(2012-06-26) [#g3b0d2f6]
まだ大分ゴミがあるので、もう少していねいにごみ処理する必要がありそうだ。
各データとも1時間ずつ。
 ======== サンプル数 10000
 592     笑
 30      野田
 23      充
 18      リア
 17      氷室
 16      財前
 13      ツイ
 12      関
 11      小沢
 10      マイ
 9       了
 9       徹子
 9       翔
 9       太
 8       赤司
 8       まどか
 8       佳彦
 7       京
 7       高橋
 7       ジョージ
 7       智
 7       イラ
 
 ======== サンプル数 3275
 88      笑
 13      金
 13      運
 11      元就
 8       寺島
 8       野田
 5       マイケル
 5       眠
 4       大島
 4       優子
 4       翔
 4       小沢
 4       藤
 4       ツイ
 4       マイ
 
 ======== サンプル数 4738
 192     笑
 12      小沢
 11      桂
 9       小太郎
 6       了
 6       翔
 6       りさ
 6       マイ
 5       充
 5       春香
 5       ゆみ
 4       ブー
 4       許斐
 4       ローソン
 4       レン
 4       渉
 4       リン
 4       野田
 4       榎

時系列分析をすると面白かろう。どの名前がどう増えたり減ったりするのか?
時系列分析をすると面白いだろう。どの名前がどう増えたり減ったりするのか?

野田とか小沢は、いま政治的な話題。レンとかリンとかはボーカロイド? マイケルとかジョージとかは何だろう?

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS