ノート/テキストマイニング

訪問者数 617      最終更新 2012-06-27 (水) 07:54:23

ノート/テキストマイニング/twitter-DB-解析 の続き

名詞だけ抜き出す 2012-05-28

とにかく名詞にマークされているものを抜き出す。

サンプル数 10281
548 笑
543 人
498 こと
442 さん
343 雷 <---
311 日
298 雨 <---
297 私
293 今日
281 そう
266 何
225 俺
213 時
208 中
207 それ
204 ちゃん
194 一
192 好き
192 よう
184 今
182 方
180 これ
163 的
152 さ
146 自分
135 時間
132 みたい
131 気
127 月
124 円
121 バイト
121 前
117 もの
116 フォロー
115 様
112 分
109 誰
108 回
103 あと
102 明日
100 みんな
99  ら
96  目
96  定期
95  日本
93  家
93  なん
93  者
91  年
91  大丈夫
88  仕事
87  事
82  とき
79  最近
78  お願い
77  うち
76  位
74  風
73  東京
72  情報
72  なに
70  一番
69  ツイート
66  め
66  話
65  男
65  群馬
65  無料
64  身長
64  子
64  学校
63  どこ
62  顔
62  金
62  お前
62  店
61  県
61  やつ
61  電車
61  ため
60  君
60  そ
58  万
58  昨日
58  駅
58  僕
57  一緒
57  写真
57  いま
56  くん
56  こちら
56  もん
56  傘    <---
55  本
55  テスト
55  音
55  天気   <---
54  DVD
53  あなた
53  わたし
53  市
53  頭
53  ここ
53  度
52  こ
52  希望
52  拡散
52  先生
51  夜
51  数
51  帰宅
51  会
50  感じ
50  奴
49  大好き
49  曲
49  気持ち
48  世界
48  うに
47  授業
47  イケメン
47  歳
47  あたし
47  意味
47  次
47  力
46  マジ
46  たち
45  ところ
45  手
45  あれ
44  心
44  予定
44  4
44  三
44  以上
44  こっち
44  足
43  夢
43  勉強
43  ゆ
42  性
42  友達
42  ろ
42  女
41  枚
41  楽天
41  無理
41  ブログ
40  ちょ
40  生活
40  とこ
39  女の子
39  栃木
39  頃
39  上
39  絶対
39  後
39  神
39  たん
38  更新
38  車
38  全部
38  垢
37  わけ
37  声
37  暇
37  茨城
37  参加
37  人間
36  ゲーム
36  さっき
36  本日
36  言葉
36  文字
36  ぉ
35  ほう
35  リプ 

数詞や記号は手で適当に取り除いた。
Mecabの形態素解析の性質から、分解の結果がいろいろと気に入らない部分はある。たとえば1つの名詞と思うのに2つに分解するなど。もう少し考える必要がある。たとえばyono/Pythonで自然言語処理参照。

かすかに読み取れる事として、マークをつけた雨や雷がある。この日は前日から天候が不安定で、急に雷がなって激しいにわか雨が降る状況が続いていた。おそらくは、その状況が反映されているのだろう。

きちんと読み取る方法として、時間変化を追う時系列解析や、少なくとも時間的な平均値を出しておいてそこからの変動を検出する必要がありそうだ。

名詞のうち更に「固有名詞」の「人名」のみを取り出す(2012-06-26)

まだ大分ゴミがあるので、もう少していねいにごみ処理する必要がありそうだ。 各データとも1時間ずつ。

======== サンプル数 10000
592     笑
30      野田
23      充
18      リア
17      氷室
16      財前
13      ツイ
12      関
11      小沢
10      マイ
9       了
9       徹子
9       翔
9       太
8       赤司
8       まどか
8       佳彦
7       京
7       高橋
7       ジョージ
7       智
7       イラ

======== サンプル数 3275
88      笑
13      金
13      運
11      元就
8       寺島
8       野田
5       マイケル
5       眠
4       大島
4       優子
4       翔
4       小沢
4       藤
4       ツイ
4       マイ

======== サンプル数 4738
192     笑
12      小沢
11      桂
9       小太郎
6       了
6       翔
6       りさ
6       マイ
5       充
5       春香
5       ゆみ
4       ブー
4       許斐
4       ローソン
4       レン
4       渉
4       リン
4       野田
4       榎

時系列分析をすると面白いだろう。どの名前がどう増えたり減ったりするのか?

野田とか小沢は、いま政治的な話題。レンとかリンとかはボーカロイド? マイケルとかジョージとかは何だろう?


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2012-06-27 (水) 07:54:23 (1913d)