ノート/テキストマイニング

訪問者数 624      最終更新 2013-06-26 (水) 09:22:59

twitterのusername抽出の実験 (2013-06-25)

usernameごとにツイート数を数えた結果 (過去120時間、上位1000個)
file2013-06-25_twitter過去120時間unameごとツイート数.txt

各ツイートのusernameフィールドを取り出して累積したもの。上位を見ると

======== サンプル数 1064381         対象となったツイート数
490 	A
419 	B
409 	C
386 	D
378 	E
374 	F
373 	G
363 	H
338 	I
335 	J
328 	K
324 	K
322 	L
321 	M
293 	N
285 	O
284 	P
283 	Q
278 	R
270 	S

のようなので、このぐらいの数を集めることができる。

twitterのusernameごとのツイートを抽出し、その中での形容詞分布を数える実験 (2013-06-25)

次に、この表を使って、usernameが「X」であるツイートを集め、その中での形容詞分布を数える。

file2013-06-25_twitter過去120時間unameごと形容詞分布.txt

先頭のあたりをちょっとリストしてみると、(詳細は元ファイル参照)

===
12 	ない
10 	いい
8 	やばい
6 	可愛い
5 	かわいい
5 	寒い
4 	怖い
4 	嬉しい
3 	新しい
3 	おかしい
3 	なかっ
3 	多い
3 	高い
3 	面白い
3 	楽しかっ
===ゆき
12 	いい
7 	ない
6 	嬉しい
5 	よかっ
5 	痛い
4 	良い
4 	高い
3 	すごく
3 	なく
3 	面白い
===
20 	いい
7 	なう
6 	楽しかっ
5 	可愛い
4 	眠い
4 	なく
4 	ない
4 	怖い
4 	すごい
4 	よかっ
4 	嬉しい
4 	早く
3 	かわいい
3 	楽し
3 	よし
3 	多い
===
10 	ない
9 	いい
5 	やばい
4 	可愛い
4 	なう
4 	嬉しい
3 	かわいい
3 	楽しかっ
===
12 	ない
11 	いい
8 	やばい
5 	なう
5 	早く
4 	すごい
4 	なかっ
4 	可愛い
4 	嬉しい
3 	よし
3 	怖い
3 	よかっ
3 	楽しかっ
3 	楽しい
===
19 	いい
11 	ない
6 	悪い
5 	うう
5 	な
4 	かわいい
4 	可愛い
4 	早く
4 	やばい
4 	軽い
3 	うまく
3 	素晴らしい
3 	すごい
3 	よかっ
3 	楽しかっ
3 	早
3 	辛い
3 	なう
===
14 	ない
12 	いい
6 	やばい
6 	痛い
5 	楽しかっ
4 	可愛い
4 	嬉しい
3 	かわいい
3 	だるい
3 	なかっ
3 	楽し
===
10 	ない
9 	やばい
6 	可愛い
5 	いい
4 	かわいい
4 	なく
4 	悲しい
4 	なう
4 	早く
3 	悲しく
3 	多い

名詞と違って、形容詞は形態素解析がどうだろうか。それと、感情的な言葉は形容詞だけでもなさそうなので、もう少し突っ込む必要がありそうだ。

さて、これから何が言えるだろう?

twitterのusernameごとのツイートを抽出し、その中での形容詞と動詞の分布を数える実験 (2013-06-26)

どうも、形容詞だけだとあまり数が無いし、発信者の特徴を表すほどの情報が見えないので、usernameが「X」であるツイート中で形容詞と動詞の分布を数えてみる。

file2013-06-26_twitter過去120時間unameごと形容詞動詞分布.txt

先頭のあたりをちょっとリストしてみると、(詳細は元ファイル参照)

===
89 	し
19 	する
15 	い
15 	ない
14 	見
12 	さ
12 	なっ
12 	なる
11 	いい
9 	ある
8 	ち
8 	言っ
7 	やばい
7 	いっ
7 	やっ
7 	やめ
6 	かわいい
6 	行く
6 	入っ
6 	あっ
5 	思う
5 	思っ
5 	ひ
5 	ふ
5 	き
5 	でき
5 	寒い
5 	言う
4 	怖い
4 	思い
4 	買う
4 	かっ
4 	ほ
4 	てっ
4 	嬉しい
4 	行き
4 	いる
4 	寝
4 	聞い
4 	終わっ
4 	面白い
4 	泣い
4 	やり
4 	せ
4 	拗ら
4 	考え
3 	作っ
3 	新しい
3 	食べ
3 	買っ
3 	できる
3 	咳き込む
3 	行っ
3 	多い
3 	読ん
3 	くれ
3 	しよ
3 	会える
3 	おかしい
3 	繋がり
3 	がんばっ
3 	可愛い
3 	楽しかっ
3 	出来
3 	疲れ
3 	愛し
3 	無い
3 	知っ
===
71 	し
18 	する
15 	いい
14 	ある
12 	い
12 	見
8 	思っ
8 	さ
8 	なる
7 	ない
7 	行く
6  	行き
6 	なっ
6 	あっ
6 	やっ
6 	よかっ
6 	言っ
5 	ふ
5 	き
5 	嬉しい
5 	いる
5 	寝
5 	出来
4 	帰っ
4 	思う
4 	できる
4 	痛い
4 	でき
4 	良い
4 	出
4 	やめ
4 	せ
3 	けん
3 	思い
3 	食べ
3 	かっ
3 	買っ
3 	やばい
3 	よけれ
3 	行っ
3 	行こ
3 	分かる
3 	ねろ
3 	来る
3 	踊り
3 	頑張っ
3 	呼ん
3 	おかしい
3 	なう
3 	思わ
3 	聞い
3 	いっ
3 	観
3 	切っ
3 	言う
3 	変え
===
57 	し
20 	いい
14 	見
12 	なっ
11 	い
11 	する
8 	寝
8 	しよ
7 	思っ
7 	ある
7 	言う
6 	行っ
6 	なう
6 	なる
6 	終わっ
6 	楽しかっ
5 	忘れ
5 	行こ
5 	頑張っ
5 	なく
4 	怖い
4 	さ
4 	き
4 	頑張れ
4 	あり
4 	嬉しい
4 	行く
4 	笑っ
4 	ない
4 	呼ん
4 	すごい
4 	眠い
4 	聞い
4 	いっ
4 	出
4 	待っ
4 	あか
4 	考え
3 	よし
3 	来
3 	買っ
3 	み
3 	頑張る
3 	もっ
3 	疲れ
3 	帰っ
3 	見る
3 	やっ
3 	やば
3 	がんばる
3 	会える
3 	食べ
3 	可愛い
3 	なり
3 	早く
3 	泣き
3 	やばい
3 	言っ
===
69 	し
17 	い
13 	する
13 	ない
13 	いい
10 	なっ
10 	ある
9 	いる
7 	思っ
7 	あっ
7 	見
7 	やっ
6 	かわいい
6 	行き
6 	寝
5 	食べ
5 	やばい
5 	さ
5 	なう
5 	忘れ
5 	しよ
5 	可愛い
5 	いき
5 	わから
4 	買っ
4 	ひ
4 	嬉しい
4 	起き
4 	わかっ
4 	やめ
3 	作っ
3 	よっ
3 	よかっ
3 	障
3 	ほ
3 	み
3 	ち
3 	行こ
3 	行け
3 	出会う
3 	話しかけ
3 	読む
3 	持っ
3 	なる
3 	言わ
3 	言う
3 	早く
3 	いっ
3 	待っ
3 	出
3 	言っ
===
84 	し
22 	する
22 	なっ
16 	いい
13 	ない
12 	さ
12 	い
12 	ある
11 	寝
10 	行く
9 	なる
8 	行き
8 	いっ
8 	見
7 	思っ
7 	やっ
6 	悪い
6 	待っ
5 	帰っ
5 	うう
5 	み
5 	す
5 	行っ
5 	頑張っ
5 	可愛い
5 	あっ
5 	やばい
4 	かわいい
4 	すれ
4 	食べ
4 	な
4 	できる
4 	知ら
4 	起き
4 	あい
4 	なう
4 	言う
4 	いく
4 	早
3 	教え
3 	楽しい
3 	き
3 	よかっ
3 	思い
3 	ひ
3 	ぶ
3 	ふ
3 	ち
3 	仲良く
3 	痛い
3 	話し
3 	辛い
3 	でき
3 	会い
3 	がんばれ
3 	しよ
3 	すっ
3 	すごい
3 	はやく
3 	ゆう
3 	早く
3 	気づい
3 	降っ
3 	楽しかっ
3 	あり
3 	変え
3 	出来
===
77 	し
18 	見
14 	する
14 	なっ
13 	ゆい
12 	い
12 	ない
12 	いい
12 	ある
10 	やっ
10 	なる
9 	さ
7 	思う
7 	食べ
7 	やばい
6 	思っ
6 	行き
5 	言わ
5 	早く
5 	いっ
5 	やり
4 	怖い
4 	ぶ
4 	いき
4 	行く
4 	推し
4 	すぎ
4 	なう
4 	わかる
4 	みる
4 	楽しかっ
4 	知っ
4 	言っ
3 	すぎる
3 	よし
3 	思い
3 	来
3 	くる
3 	ほ
3 	す
3 	き
3 	くれ
3 	嬉しい
3 	いる
3 	わかっ
3 	見え
3 	なく
3 	でき
3 	読ん
3 	すごい
3 	可愛い
3 	呼ば
3 	やめ
3 	よかっ
3 	似
3 	出来
===
50 	し
16 	ない
14 	なっ
12 	いい
8 	いる
8 	いっ
8 	見
6 	する
6 	やばい
6 	い
6 	痛い
5 	作っ
5 	思っ
5 	なる
4 	思う
4 	なかっ
4 	み
4 	ふ
4 	き
4 	嬉しい
4 	会い
4 	頑張っ
4 	寝
4 	やっ
4 	つかれ
4 	言っ
4 	食べ
4 	可愛い
4 	やる
4 	つい
4 	ばれ
4 	楽しかっ
4 	ある
4 	知っ
3 	かわいい
3 	帰っ
3 	見れる
3 	せ
3 	さ
3 	行っ
3 	行く
3 	たっ
3 	だるい
3 	すごい
3 	帰る
3 	思わ
3 	待っ
3 	探し
===
69 	し
20 	いい
13 	見
12 	する
12 	なっ
10 	思っ
10 	なう
9 	なる
8 	い
8 	しよ
7 	やっ
6 	食べ
6 	やばい
6 	さ
6 	嬉しい
5 	ほ
4 	かわいい
4 	寝よ
4 	思う
4 	かけ
4 	ふ
4 	ち
4 	行っ
4 	疲れ
4 	ない
4 	しっ
4 	寝
4 	すごい
4 	行き
4 	ある
4 	言っ
3 	寝る
3 	うっ
3 	いき
3 	き
3 	可愛
3 	行く
3 	書い
3 	入っ
3 	いわ
3 	なく
3 	でき
3 	なり
3 	いっ
3 	あり
3 	わかる
3 	わから

こうなってしまうと、データ(次元)が多すぎてパッと見て「どんな人」の識別は難しそうだ。

クラスタリングなりすれば、「どんな人」へマップすることは出来るかもしれない。発現頻度を正規化する(総ツイート数or総ツイート字数で割る?)必要はありそうだ。

教師情報があれば、学習という手もありそうだが??


添付ファイル: file2013-06-26_twitter過去120時間unameごと形容詞動詞分布.txt 156件 [詳細] file2013-06-25_twitter過去120時間unameごと形容詞分布.txt 172件 [詳細] file2013-06-25_twitter過去120時間unameごとツイート数.txt 256件 [詳細]

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2013-06-26 (水) 09:22:59 (1611d)