[[ノート/テキストマイニング]]~
訪問者数 &counter(); 最終更新 &lastmod();~
**MySQLへ貯めたツイートを解析する --- 2012/03/02 [#ocbd9e49]
**MySQLへ貯めたツイートを解析する [#ocbd9e49]
***MySQL上で、ツイート数を数える --- 2012/06/26 [#ee500421]
収集プログラムを、1時間ごとに1つのSQLテーブルにするように変更したので、
テーブルのレコード数を数えれば収集したツイート数が分かる。
SELECT COUNT(*) from テーブル名
実際の数えた結果は下記の通り。但し、twitter APIのstreamを使っているので、
サーバーの側で適当に間引きするということになっている。つまり数は
あまり正確ではないだろう。時間によって間引き率が変動するかどうかは不明。
12062515 8524
12062516 11098
12062517 13139
12062518 14070
12062519 11875
12062520 13553
12062521 13218
12062522 12095
12062600 10425
12062601 6639
12062602 4314
12062603 2762
12062604 1943
12062605 1843
12062606 3275
12062607 5852
12062608 6169
12062609 5061
12062610 5008
12062611 5090
12062612 6799
12062613 6208
12062614 7097
12062615 7166
***MySQLから読み出して、MeCabで解析してみる [#nb7ff9c1]
***MySQLから読み出して、MeCabで解析してみる --- 2012/03/02 [#nb7ff9c1]
PythonからのMeCabの使い方は [[ノート/テキストマイニング/twitter-2]] の、「MeCabでの解析例(2) ノードを取り出す」 の項を参照しよう。
# -*- coding: utf-8 -*-
import sys
import codecs
import MeCab
import MySQLdb
sys.stdout = codecs.getwriter('utf_8')(sys.stdout)
con = MySQLdb.connect(db="mydb", host="localhost", port=3306,
user="xxxxxx", passwd="******")
cur = con.cursor()
s = "SELECT text FROM tw"
cur.execute(s)
mt = MeCab.Tagger()
r = cur.fetchone()
while r != None:
print "---" + r[0].encode((utf_8')
m = mt.parseToNode(r[0].encode('utf_8'))
while m:
print m.surface, "\t", m.feature
m = m.next
print "EOS"
r = cur.fetchone()
cur.close()
con.close()
この段階での出力は、
---RT @nodamura: 田野畑村が舞台のNHK土曜ドラマスペシャル「それからの海」 3月3日(土)NHK総合 夜7:30〜 http://t.co/t3rmIDkO
BOS/EOS,*,*,*,*,*,*,*,*
RT 名詞,固有名詞,組織,*,*,*,*
@ 名詞,サ変接続,*,*,*,*,*
nodamura 名詞,一般,*,*,*,*,*
: 名詞,サ変接続,*,*,*,*,*
田野畑 名詞,固有名詞,地域,一般,*,*,田野畑,タノハタ,タノハタ
村 名詞,接尾,地域,*,*,*,村,ムラ,ムラ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
舞台 名詞,一般,*,*,*,*,舞台,ブタイ,ブタイ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
NHK 名詞,一般,*,*,*,*,*
土曜 名詞,副詞可能,*,*,*,*,土曜,ドヨウ,ドヨー
ドラマ 名詞,一般,*,*,*,*,ドラマ,ドラマ,ドラマ
スペシャル 名詞,一般,*,*,*,*,スペシャル,スペシャル,スペシャル
「 記号,括弧開,*,*,*,*,「,「,「
それ 名詞,代名詞,一般,*,*,*,それ,ソレ,ソレ
から 助詞,格助詞,一般,*,*,*,から,カラ,カラ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
海 名詞,一般,*,*,*,*,海,ウミ,ウミ
」 記号,括弧閉,*,*,*,*,」,」,」
記号,空白,*,*,*,*, , ,
3 名詞,数,*,*,*,*,*
月 名詞,一般,*,*,*,*,月,ツキ,ツキ
3 名詞,数,*,*,*,*,*
日 名詞,接尾,助数詞,*,*,*,日,ニチ,ニチ
( 記号,括弧開,*,*,*,*,(,(,(
土 名詞,一般,*,*,*,*,土,ド,ド
) 記号,括弧閉,*,*,*,*,),),)
NHK 名詞,固有名詞,組織,*,*,*,*
総合 名詞,サ変接続,*,*,*,*,総合,ソウゴウ,ソーゴー
記号,空白,*,*,*,*, , ,
夜 名詞,副詞可能,*,*,*,*,夜,ヨル,ヨル
7 名詞,数,*,*,*,*,*
: 記号,一般,*,*,*,*,:,:,:
30 名詞,数,*,*,*,*,*
〜 名詞,サ変接続,*,*,*,*,*
http 名詞,一般,*,*,*,*,*
:// 名詞,サ変接続,*,*,*,*,*
t 名詞,一般,*,*,*,*,*
. 名詞,サ変接続,*,*,*,*,*
co 名詞,一般,*,*,*,*,*
/ 名詞,サ変接続,*,*,*,*,*
t 名詞,一般,*,*,*,*,*
3 名詞,数,*,*,*,*,*
rmIDkO 名詞,固有名詞,組織,*,*,*,*
BOS/EOS,*,*,*,*,*,*,*,*
EOS
---ゲレンデのスターとわ私のことです?~?ω~??★★ http://t.co/04IeyqqX
BOS/EOS,*,*,*,*,*,*,*,*
ゲレンデ 名詞,一般,*,*,*,*,ゲレンデ,ゲレンデ,ゲレンデ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
スター 名詞,一般,*,*,*,*,スター,スター,スター
と 助詞,格助詞,引用,*,*,*,と,ト,ト
わ 助詞,終助詞,*,*,*,*,わ,ワ,ワ
私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
こと 名詞,非自立,一般,*,*,*,こと,コト,コト
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
? 記号,一般,*,*,*,*,*
~ 名詞,サ変接続,*,*,*,*,*
? 記号,一般,*,*,*,*,*
ω 記号,アルファベット,*,*,*,*,ω,オメガ,オメガ
~ 名詞,サ変接続,*,*,*,*,*
?? 記号,一般,*,*,*,*,*
★ 記号,一般,*,*,*,*,★,★,★
★ 記号,一般,*,*,*,*,★,★,★
http 名詞,固有名詞,組織,*,*,*,*
:// 名詞,サ変接続,*,*,*,*,*
t 名詞,一般,*,*,*,*,*
. 名詞,サ変接続,*,*,*,*,*
co 名詞,一般,*,*,*,*,*
/ 名詞,サ変接続,*,*,*,*,*
04 名詞,数,*,*,*,*,*
IeyqqX 名詞,固有名詞,組織,*,*,*,*
BOS/EOS,*,*,*,*,*,*,*,*
EOS
---@aobakutaro @pipipi3927 (;´?ω?`)次元が違う
BOS/EOS,*,*,*,*,*,*,*,*
@ 名詞,サ変接続,*,*,*,*,*
aobakutaro 名詞,一般,*,*,*,*,*
@ 名詞,サ変接続,*,*,*,*,*
pipipi 名詞,一般,*,*,*,*,*
3927 名詞,数,*,*,*,*,*
(;´? 名詞,サ変接続,*,*,*,*,*
ω 記号,アルファベット,*,*,*,*,ω,オメガ,オメガ
?`) 名詞,サ変接続,*,*,*,*,*
次元 名詞,一般,*,*,*,*,次元,ジゲン,ジゲン
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
違う 動詞,自立,*,*,五段・ワ行促音便,基本形,違う,チガウ,チガウ
BOS/EOS,*,*,*,*,*,*,*,*
EOS
---@babaalover1 会社だと事務員さんがタイムカードみて(残業休日出勤など)計算してくれるよー
BOS/EOS,*,*,*,*,*,*,*,*
@ 名詞,サ変接続,*,*,*,*,*
babaalover 名詞,一般,*,*,*,*,*
1 名詞,数,*,*,*,*,*
会社 名詞,一般,*,*,*,*,会社,カイシャ,カイシャ
だ 助動詞,*,*,*,特殊・ダ,基本形,だ,ダ,ダ
と 助詞,格助詞,引用,*,*,*,と,ト,ト
事務 名詞,一般,*,*,*,*,事務,ジム,ジム
員 名詞,接尾,一般,*,*,*,員,イン,イン
さん 名詞,接尾,人名,*,*,*,さん,サン,サン
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
タイム 名詞,一般,*,*,*,*,タイム,タイム,タイム
カード 名詞,一般,*,*,*,*,カード,カード,カード
み 動詞,自立,*,*,一段,連用形,みる,ミ,ミ
て 助詞,接続助詞,*,*,*,*,て,テ,テ
( 記号,括弧開,*,*,*,*,(,(,(
残業 名詞,サ変接続,*,*,*,*,残業,ザンギョウ,ザンギョー
休日 名詞,副詞可能,*,*,*,*,休日,キュウジツ,キュージツ
出勤 名詞,サ変接続,*,*,*,*,出勤,シュッキン,シュッキン
など 助詞,副助詞,*,*,*,*,など,ナド,ナド
) 記号,括弧閉,*,*,*,*,),),)
計算 名詞,サ変接続,*,*,*,*,計算,ケイサン,ケイサン
し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
て 助詞,接続助詞,*,*,*,*,て,テ,テ
くれる 動詞,非自立,*,*,一段・クレル,基本形,くれる,クレル,クレル
よー 助詞,終助詞,*,*,*,*,よー,ヨー,ヨー
BOS/EOS,*,*,*,*,*,*,*,*
EOS
という感じです。
さて、ここからどうするのがいいか?
まずは名詞の出現頻度を測るか?
-@foo や RT: を外そう。多分その情報に興味ない? もしユーザごとに数を集計するなら意味があるかも。
-http://...... も要らないか。
-その他の記号もすべて外していいような気がする。
-名詞だけ抜き出す? ⇒ [[ノート/テキストマイニング/twitter-DB-解析2]]へ