訪問者数 1070 最終更新 2013-06-26 (水) 09:22:59
usernameごとにツイート数を数えた結果 (過去120時間、上位1000個)
2013-06-25_twitter過去120時間unameごとツイート数.txt
各ツイートのusernameフィールドを取り出して累積したもの。上位を見ると
======== サンプル数 1064381 対象となったツイート数 490 A 419 B 409 C 386 D 378 E 374 F 373 G 363 H 338 I 335 J 328 K 324 K 322 L 321 M 293 N 285 O 284 P 283 Q 278 R 270 S
のようなので、このぐらいの数を集めることができる。
次に、この表を使って、usernameが「X」であるツイートを集め、その中での形容詞分布を数える。
2013-06-25_twitter過去120時間unameごと形容詞分布.txt
先頭のあたりをちょっとリストしてみると、(詳細は元ファイル参照)
=== 12 ない 10 いい 8 やばい 6 可愛い 5 かわいい 5 寒い 4 怖い 4 嬉しい 3 新しい 3 おかしい 3 なかっ 3 多い 3 高い 3 面白い 3 楽しかっ ===ゆき 12 いい 7 ない 6 嬉しい 5 よかっ 5 痛い 4 良い 4 高い 3 すごく 3 なく 3 面白い === 20 いい 7 なう 6 楽しかっ 5 可愛い 4 眠い 4 なく 4 ない 4 怖い 4 すごい 4 よかっ 4 嬉しい 4 早く 3 かわいい 3 楽し 3 よし 3 多い === 10 ない 9 いい 5 やばい 4 可愛い 4 なう 4 嬉しい 3 かわいい 3 楽しかっ === 12 ない 11 いい 8 やばい 5 なう 5 早く 4 すごい 4 なかっ 4 可愛い 4 嬉しい 3 よし 3 怖い 3 よかっ 3 楽しかっ 3 楽しい === 19 いい 11 ない 6 悪い 5 うう 5 な 4 かわいい 4 可愛い 4 早く 4 やばい 4 軽い 3 うまく 3 素晴らしい 3 すごい 3 よかっ 3 楽しかっ 3 早 3 辛い 3 なう === 14 ない 12 いい 6 やばい 6 痛い 5 楽しかっ 4 可愛い 4 嬉しい 3 かわいい 3 だるい 3 なかっ 3 楽し === 10 ない 9 やばい 6 可愛い 5 いい 4 かわいい 4 なく 4 悲しい 4 なう 4 早く 3 悲しく 3 多い
名詞と違って、形容詞は形態素解析がどうだろうか。それと、感情的な言葉は形容詞だけでもなさそうなので、もう少し突っ込む必要がありそうだ。
さて、これから何が言えるだろう?
どうも、形容詞だけだとあまり数が無いし、発信者の特徴を表すほどの情報が見えないので、usernameが「X」であるツイート中で形容詞と動詞の分布を数えてみる。
2013-06-26_twitter過去120時間unameごと形容詞動詞分布.txt
先頭のあたりをちょっとリストしてみると、(詳細は元ファイル参照)
=== 89 し 19 する 15 い 15 ない 14 見 12 さ 12 なっ 12 なる 11 いい 9 ある 8 ち 8 言っ 7 やばい 7 いっ 7 やっ 7 やめ 6 かわいい 6 行く 6 入っ 6 あっ 5 思う 5 思っ 5 ひ 5 ふ 5 き 5 でき 5 寒い 5 言う 4 怖い 4 思い 4 買う 4 かっ 4 ほ 4 てっ 4 嬉しい 4 行き 4 いる 4 寝 4 聞い 4 終わっ 4 面白い 4 泣い 4 やり 4 せ 4 拗ら 4 考え 3 作っ 3 新しい 3 食べ 3 買っ 3 できる 3 咳き込む 3 行っ 3 多い 3 読ん 3 くれ 3 しよ 3 会える 3 おかしい 3 繋がり 3 がんばっ 3 可愛い 3 楽しかっ 3 出来 3 疲れ 3 愛し 3 無い 3 知っ === 71 し 18 する 15 いい 14 ある 12 い 12 見 8 思っ 8 さ 8 なる 7 ない 7 行く 6 行き 6 なっ 6 あっ 6 やっ 6 よかっ 6 言っ 5 ふ 5 き 5 嬉しい 5 いる 5 寝 5 出来 4 帰っ 4 思う 4 できる 4 痛い 4 でき 4 良い 4 出 4 やめ 4 せ 3 けん 3 思い 3 食べ 3 かっ 3 買っ 3 やばい 3 よけれ 3 行っ 3 行こ 3 分かる 3 ねろ 3 来る 3 踊り 3 頑張っ 3 呼ん 3 おかしい 3 なう 3 思わ 3 聞い 3 いっ 3 観 3 切っ 3 言う 3 変え === 57 し 20 いい 14 見 12 なっ 11 い 11 する 8 寝 8 しよ 7 思っ 7 ある 7 言う 6 行っ 6 なう 6 なる 6 終わっ 6 楽しかっ 5 忘れ 5 行こ 5 頑張っ 5 なく 4 怖い 4 さ 4 き 4 頑張れ 4 あり 4 嬉しい 4 行く 4 笑っ 4 ない 4 呼ん 4 すごい 4 眠い 4 聞い 4 いっ 4 出 4 待っ 4 あか 4 考え 3 よし 3 来 3 買っ 3 み 3 頑張る 3 もっ 3 疲れ 3 帰っ 3 見る 3 やっ 3 やば 3 がんばる 3 会える 3 食べ 3 可愛い 3 なり 3 早く 3 泣き 3 やばい 3 言っ === 69 し 17 い 13 する 13 ない 13 いい 10 なっ 10 ある 9 いる 7 思っ 7 あっ 7 見 7 やっ 6 かわいい 6 行き 6 寝 5 食べ 5 やばい 5 さ 5 なう 5 忘れ 5 しよ 5 可愛い 5 いき 5 わから 4 買っ 4 ひ 4 嬉しい 4 起き 4 わかっ 4 やめ 3 作っ 3 よっ 3 よかっ 3 障 3 ほ 3 み 3 ち 3 行こ 3 行け 3 出会う 3 話しかけ 3 読む 3 持っ 3 なる 3 言わ 3 言う 3 早く 3 いっ 3 待っ 3 出 3 言っ === 84 し 22 する 22 なっ 16 いい 13 ない 12 さ 12 い 12 ある 11 寝 10 行く 9 なる 8 行き 8 いっ 8 見 7 思っ 7 やっ 6 悪い 6 待っ 5 帰っ 5 うう 5 み 5 す 5 行っ 5 頑張っ 5 可愛い 5 あっ 5 やばい 4 かわいい 4 すれ 4 食べ 4 な 4 できる 4 知ら 4 起き 4 あい 4 なう 4 言う 4 いく 4 早 3 教え 3 楽しい 3 き 3 よかっ 3 思い 3 ひ 3 ぶ 3 ふ 3 ち 3 仲良く 3 痛い 3 話し 3 辛い 3 でき 3 会い 3 がんばれ 3 しよ 3 すっ 3 すごい 3 はやく 3 ゆう 3 早く 3 気づい 3 降っ 3 楽しかっ 3 あり 3 変え 3 出来 === 77 し 18 見 14 する 14 なっ 13 ゆい 12 い 12 ない 12 いい 12 ある 10 やっ 10 なる 9 さ 7 思う 7 食べ 7 やばい 6 思っ 6 行き 5 言わ 5 早く 5 いっ 5 やり 4 怖い 4 ぶ 4 いき 4 行く 4 推し 4 すぎ 4 なう 4 わかる 4 みる 4 楽しかっ 4 知っ 4 言っ 3 すぎる 3 よし 3 思い 3 来 3 くる 3 ほ 3 す 3 き 3 くれ 3 嬉しい 3 いる 3 わかっ 3 見え 3 なく 3 でき 3 読ん 3 すごい 3 可愛い 3 呼ば 3 やめ 3 よかっ 3 似 3 出来 === 50 し 16 ない 14 なっ 12 いい 8 いる 8 いっ 8 見 6 する 6 やばい 6 い 6 痛い 5 作っ 5 思っ 5 なる 4 思う 4 なかっ 4 み 4 ふ 4 き 4 嬉しい 4 会い 4 頑張っ 4 寝 4 やっ 4 つかれ 4 言っ 4 食べ 4 可愛い 4 やる 4 つい 4 ばれ 4 楽しかっ 4 ある 4 知っ 3 かわいい 3 帰っ 3 見れる 3 せ 3 さ 3 行っ 3 行く 3 たっ 3 だるい 3 すごい 3 帰る 3 思わ 3 待っ 3 探し === 69 し 20 いい 13 見 12 する 12 なっ 10 思っ 10 なう 9 なる 8 い 8 しよ 7 やっ 6 食べ 6 やばい 6 さ 6 嬉しい 5 ほ 4 かわいい 4 寝よ 4 思う 4 かけ 4 ふ 4 ち 4 行っ 4 疲れ 4 ない 4 しっ 4 寝 4 すごい 4 行き 4 ある 4 言っ 3 寝る 3 うっ 3 いき 3 き 3 可愛 3 行く 3 書い 3 入っ 3 いわ 3 なく 3 でき 3 なり 3 いっ 3 あり 3 わかる 3 わから
こうなってしまうと、データ(次元)が多すぎてパッと見て「どんな人」の識別は難しそうだ。
クラスタリングなりすれば、「どんな人」へマップすることは出来るかもしれない。発現頻度を正規化する(総ツイート数or総ツイート字数で割る?)必要はありそうだ。
教師情報があれば、学習という手もありそうだが??