[[ノート/テキストマイニング]]~

訪問者数 &counter();      最終更新 &lastmod();~

**twitterのusername抽出の実験 (2013-06-25) [#o47f7215]

usernameごとにツイート数を数えた結果 (過去120時間、上位1000個)~
&ref(2013-06-25_twitter過去120時間unameごとツイート数.txt);

各ツイートのusernameフィールドを取り出して累積したもの。上位を見ると
 ======== サンプル数 1064381         対象となったツイート数
 490 	A
 419 	B
 409 	C
 386 	D
 378 	E
 374 	F
 373 	G
 363 	H
 338 	I
 335 	J
 328 	K
 324 	K
 322 	L
 321 	M
 293 	N
 285 	O
 284 	P
 283 	Q
 278 	R
 270 	S

のようなので、このぐらいの数を集めることができる。

**twitterのusernameごとのツイートを抽出し、その中での形容詞分布を数える実験 (2013-06-25) [#l4bda799]

次に、この表を使って、usernameが「X」であるツイートを集め、その中での形容詞分布を数える。

&ref(2013-06-25_twitter過去120時間unameごと形容詞分布.txt);

先頭のあたりをちょっとリストしてみると、(詳細は元ファイル参照)

 ===
 12 	ない
 10 	いい
 8 	やばい
 6 	可愛い
 5 	かわいい
 5 	寒い
 4 	怖い
 4 	嬉しい
 3 	新しい
 3 	おかしい
 3 	なかっ
 3 	多い
 3 	高い
 3 	面白い
 3 	楽しかっ
 ===ゆき
 12 	いい
 7 	ない
 6 	嬉しい
 5 	よかっ
 5 	痛い
 4 	良い
 4 	高い
 3 	すごく
 3 	なく
 3 	面白い
 ===
 20 	いい
 7 	なう
 6 	楽しかっ
 5 	可愛い
 4 	眠い
 4 	なく
 4 	ない
 4 	怖い
 4 	すごい
 4 	よかっ
 4 	嬉しい
 4 	早く
 3 	かわいい
 3 	楽し
 3 	よし
 3 	多い
 ===
 10 	ない
 9 	いい
 5 	やばい
 4 	可愛い
 4 	なう
 4 	嬉しい
 3 	かわいい
 3 	楽しかっ
 ===
 12 	ない
 11 	いい
 8 	やばい
 5 	なう
 5 	早く
 4 	すごい
 4 	なかっ
 4 	可愛い
 4 	嬉しい
 3 	よし
 3 	怖い
 3 	よかっ
 3 	楽しかっ
 3 	楽しい
 ===
 19 	いい
 11 	ない
 6 	悪い
 5 	うう
 5 	な
 4 	かわいい
 4 	可愛い
 4 	早く
 4 	やばい
 4 	軽い
 3 	うまく
 3 	素晴らしい
 3 	すごい
 3 	よかっ
 3 	楽しかっ
 3 	早
 3 	辛い
 3 	なう
 ===
 14 	ない
 12 	いい
 6 	やばい
 6 	痛い
 5 	楽しかっ
 4 	可愛い
 4 	嬉しい
 3 	かわいい
 3 	だるい
 3 	なかっ
 3 	楽し
 ===
 10 	ない
 9 	やばい
 6 	可愛い
 5 	いい
 4 	かわいい
 4 	なく
 4 	悲しい
 4 	なう
 4 	早く
 3 	悲しく
 3 	多い

名詞と違って、形容詞は形態素解析がどうだろうか。それと、感情的な言葉は形容詞だけでもなさそうなので、もう少し突っ込む必要がありそうだ。

さて、これから何が言えるだろう?

**twitterのusernameごとのツイートを抽出し、その中での形容詞と動詞の分布を数える実験 (2013-06-26) [#g029b44a]

どうも、形容詞だけだとあまり数が無いし、発信者の特徴を表すほどの情報が見えないので、usernameが「X」であるツイート中で形容詞と動詞の分布を数えてみる。

&ref(2013-06-26_twitter過去120時間unameごと形容詞動詞分布.txt);

先頭のあたりをちょっとリストしてみると、(詳細は元ファイル参照)
 ===
 89 	し
 19 	する
 15 	い
 15 	ない
 14 	見
 12 	さ
 12 	なっ
 12 	なる
 11 	いい
 9 	ある
 8 	ち
 8 	言っ
 7 	やばい
 7 	いっ
 7 	やっ
 7 	やめ
 6 	かわいい
 6 	行く
 6 	入っ
 6 	あっ
 5 	思う
 5 	思っ
 5 	ひ
 5 	ふ
 5 	き
 5 	でき
 5 	寒い
 5 	言う
 4 	怖い
 4 	思い
 4 	買う
 4 	かっ
 4 	ほ
 4 	てっ
 4 	嬉しい
 4 	行き
 4 	いる
 4 	寝
 4 	聞い
 4 	終わっ
 4 	面白い
 4 	泣い
 4 	やり
 4 	せ
 4 	拗ら
 4 	考え
 3 	作っ
 3 	新しい
 3 	食べ
 3 	買っ
 3 	できる
 3 	咳き込む
 3 	行っ
 3 	多い
 3 	読ん
 3 	くれ
 3 	しよ
 3 	会える
 3 	おかしい
 3 	繋がり
 3 	がんばっ
 3 	可愛い
 3 	楽しかっ
 3 	出来
 3 	疲れ
 3 	愛し
 3 	無い
 3 	知っ
 ===
 71 	し
 18 	する
 15 	いい
 14 	ある
 12 	い
 12 	見
 8 	思っ
 8 	さ
 8 	なる
 7 	ない
 7 	行く
 6  	行き
 6 	なっ
 6 	あっ
 6 	やっ
 6 	よかっ
 6 	言っ
 5 	ふ
 5 	き
 5 	嬉しい
 5 	いる
 5 	寝
 5 	出来
 4 	帰っ
 4 	思う
 4 	できる
 4 	痛い
 4 	でき
 4 	良い
 4 	出
 4 	やめ
 4 	せ
 3 	けん
 3 	思い
 3 	食べ
 3 	かっ
 3 	買っ
 3 	やばい
 3 	よけれ
 3 	行っ
 3 	行こ
 3 	分かる
 3 	ねろ
 3 	来る
 3 	踊り
 3 	頑張っ
 3 	呼ん
 3 	おかしい
 3 	なう
 3 	思わ
 3 	聞い
 3 	いっ
 3 	観
 3 	切っ
 3 	言う
 3 	変え
 ===
 57 	し
 20 	いい
 14 	見
 12 	なっ
 11 	い
 11 	する
 8 	寝
 8 	しよ
 7 	思っ
 7 	ある
 7 	言う
 6 	行っ
 6 	なう
 6 	なる
 6 	終わっ
 6 	楽しかっ
 5 	忘れ
 5 	行こ
 5 	頑張っ
 5 	なく
 4 	怖い
 4 	さ
 4 	き
 4 	頑張れ
 4 	あり
 4 	嬉しい
 4 	行く
 4 	笑っ
 4 	ない
 4 	呼ん
 4 	すごい
 4 	眠い
 4 	聞い
 4 	いっ
 4 	出
 4 	待っ
 4 	あか
 4 	考え
 3 	よし
 3 	来
 3 	買っ
 3 	み
 3 	頑張る
 3 	もっ
 3 	疲れ
 3 	帰っ
 3 	見る
 3 	やっ
 3 	やば
 3 	がんばる
 3 	会える
 3 	食べ
 3 	可愛い
 3 	なり
 3 	早く
 3 	泣き
 3 	やばい
 3 	言っ
 ===
 69 	し
 17 	い
 13 	する
 13 	ない
 13 	いい
 10 	なっ
 10 	ある
 9 	いる
 7 	思っ
 7 	あっ
 7 	見
 7 	やっ
 6 	かわいい
 6 	行き
 6 	寝
 5 	食べ
 5 	やばい
 5 	さ
 5 	なう
 5 	忘れ
 5 	しよ
 5 	可愛い
 5 	いき
 5 	わから
 4 	買っ
 4 	ひ
 4 	嬉しい
 4 	起き
 4 	わかっ
 4 	やめ
 3 	作っ
 3 	よっ
 3 	よかっ
 3 	障
 3 	ほ
 3 	み
 3 	ち
 3 	行こ
 3 	行け
 3 	出会う
 3 	話しかけ
 3 	読む
 3 	持っ
 3 	なる
 3 	言わ
 3 	言う
 3 	早く
 3 	いっ
 3 	待っ
 3 	出
 3 	言っ
 ===
 84 	し
 22 	する
 22 	なっ
 16 	いい
 13 	ない
 12 	さ
 12 	い
 12 	ある
 11 	寝
 10 	行く
 9 	なる
 8 	行き
 8 	いっ
 8 	見
 7 	思っ
 7 	やっ
 6 	悪い
 6 	待っ
 5 	帰っ
 5 	うう
 5 	み
 5 	す
 5 	行っ
 5 	頑張っ
 5 	可愛い
 5 	あっ
 5 	やばい
 4 	かわいい
 4 	すれ
 4 	食べ
 4 	な
 4 	できる
 4 	知ら
 4 	起き
 4 	あい
 4 	なう
 4 	言う
 4 	いく
 4 	早
 3 	教え
 3 	楽しい
 3 	き
 3 	よかっ
 3 	思い
 3 	ひ
 3 	ぶ
 3 	ふ
 3 	ち
 3 	仲良く
 3 	痛い
 3 	話し
 3 	辛い
 3 	でき
 3 	会い
 3 	がんばれ
 3 	しよ
 3 	すっ
 3 	すごい
 3 	はやく
 3 	ゆう
 3 	早く
 3 	気づい
 3 	降っ
 3 	楽しかっ
 3 	あり
 3 	変え
 3 	出来
 ===
 77 	し
 18 	見
 14 	する
 14 	なっ
 13 	ゆい
 12 	い
 12 	ない
 12 	いい
 12 	ある
 10 	やっ
 10 	なる
 9 	さ
 7 	思う
 7 	食べ
 7 	やばい
 6 	思っ
 6 	行き
 5 	言わ
 5 	早く
 5 	いっ
 5 	やり
 4 	怖い
 4 	ぶ
 4 	いき
 4 	行く
 4 	推し
 4 	すぎ
 4 	なう
 4 	わかる
 4 	みる
 4 	楽しかっ
 4 	知っ
 4 	言っ
 3 	すぎる
 3 	よし
 3 	思い
 3 	来
 3 	くる
 3 	ほ
 3 	す
 3 	き
 3 	くれ
 3 	嬉しい
 3 	いる
 3 	わかっ
 3 	見え
 3 	なく
 3 	でき
 3 	読ん
 3 	すごい
 3 	可愛い
 3 	呼ば
 3 	やめ
 3 	よかっ
 3 	似
 3 	出来
 ===
 50 	し
 16 	ない
 14 	なっ
 12 	いい
 8 	いる
 8 	いっ
 8 	見
 6 	する
 6 	やばい
 6 	い
 6 	痛い
 5 	作っ
 5 	思っ
 5 	なる
 4 	思う
 4 	なかっ
 4 	み
 4 	ふ
 4 	き
 4 	嬉しい
 4 	会い
 4 	頑張っ
 4 	寝
 4 	やっ
 4 	つかれ
 4 	言っ
 4 	食べ
 4 	可愛い
 4 	やる
 4 	つい
 4 	ばれ
 4 	楽しかっ
 4 	ある
 4 	知っ
 3 	かわいい
 3 	帰っ
 3 	見れる
 3 	せ
 3 	さ
 3 	行っ
 3 	行く
 3 	たっ
 3 	だるい
 3 	すごい
 3 	帰る
 3 	思わ
 3 	待っ
 3 	探し
 ===
 69 	し
 20 	いい
 13 	見
 12 	する
 12 	なっ
 10 	思っ
 10 	なう
 9 	なる
 8 	い
 8 	しよ
 7 	やっ
 6 	食べ
 6 	やばい
 6 	さ
 6 	嬉しい
 5 	ほ
 4 	かわいい
 4 	寝よ
 4 	思う
 4 	かけ
 4 	ふ
 4 	ち
 4 	行っ
 4 	疲れ
 4 	ない
 4 	しっ
 4 	寝
 4 	すごい
 4 	行き
 4 	ある
 4 	言っ
 3 	寝る
 3 	うっ
 3 	いき
 3 	き
 3 	可愛
 3 	行く
 3 	書い
 3 	入っ
 3 	いわ
 3 	なく
 3 	でき
 3 	なり
 3 	いっ
 3 	あり
 3 	わかる
 3 	わから

これをクラスタリングなりすれば、「どんな人」へマップすることは出来るかもしれない。発現頻度を正規化する(総ツイート数or総ツイート字数で割る?)必要はありそうだ。
こうなってしまうと、データ(次元)が多すぎてパッと見て「どんな人」の識別は難しそうだ。

クラスタリングなりすれば、「どんな人」へマップすることは出来るかもしれない。発現頻度を正規化する(総ツイート数or総ツイート字数で割る?)必要はありそうだ。

教師情報があれば、学習という手もありそうだが??

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS