ノート/テキストマイニング

訪問者数 793      最終更新 2012-06-26 (火) 16:13:15

MySQLへ貯めたツイートを解析する

MySQL上で、ツイート数を数える --- 2012/06/26

収集プログラムを、1時間ごとに1つのSQLテーブルにするように変更したので、 テーブルのレコード数を数えれば収集したツイート数が分かる。  SELECT COUNT(*) from テーブル名 実際の数えた結果は下記の通り。但し、twitter APIのstreamを使っているので、 サーバーの側で適当に間引きするということになっている。つまり数は あまり正確ではないだろう。時間によって間引き率が変動するかどうかは不明。

12062515   8524
12062516  11098
12062517  13139
12062518  14070
12062519  11875
12062520  13553
12062521  13218
12062522  12095
12062600  10425
12062601   6639
12062602   4314
12062603   2762
12062604   1943
12062605   1843
12062606   3275
12062607   5852
12062608   6169
12062609   5061
12062610   5008
12062611   5090
12062612   6799
12062613   6208
12062614   7097
12062615   7166

MySQLから読み出して、MeCabで解析してみる --- 2012/03/02

PythonからのMeCabの使い方は ノート/テキストマイニング/twitter-2 の、「MeCabでの解析例(2) ノードを取り出す」 の項を参照しよう。

# -*- coding: utf-8 -*-
import sys
import codecs
import MeCab
import MySQLdb

sys.stdout = codecs.getwriter('utf_8')(sys.stdout)
con = MySQLdb.connect(db="mydb", host="localhost", port=3306,
                     user="xxxxxx", passwd="******")
cur = con.cursor()

s = "SELECT text FROM tw"
cur.execute(s)

mt = MeCab.Tagger()

r = cur.fetchone()
while r != None:
  print "---" + r[0].encode((utf_8')
  m = mt.parseToNode(r[0].encode('utf_8'))
  while m:
     print m.surface, "\t", m.feature
     m = m.next
  print "EOS"

  r = cur.fetchone()
cur.close()
con.close()

この段階での出力は、

---RT @nodamura: 田野畑村が舞台のNHK土曜ドラマスペシャル「それからの海」 3月3日(土)NHK総合 夜7:30〜 http://t.co/t3rmIDkO
        BOS/EOS,*,*,*,*,*,*,*,*
RT      名詞,固有名詞,組織,*,*,*,*
@       名詞,サ変接続,*,*,*,*,*
nodamura        名詞,一般,*,*,*,*,*
:       名詞,サ変接続,*,*,*,*,*
田野畑  名詞,固有名詞,地域,一般,*,*,田野畑,タノハタ,タノハタ
村      名詞,接尾,地域,*,*,*,村,ムラ,ムラ
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
舞台    名詞,一般,*,*,*,*,舞台,ブタイ,ブタイ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
NHK     名詞,一般,*,*,*,*,*
土曜    名詞,副詞可能,*,*,*,*,土曜,ドヨウ,ドヨー
ドラマ  名詞,一般,*,*,*,*,ドラマ,ドラマ,ドラマ
スペシャル      名詞,一般,*,*,*,*,スペシャル,スペシャル,スペシャル
「      記号,括弧開,*,*,*,*,「,「,「
それ    名詞,代名詞,一般,*,*,*,それ,ソレ,ソレ
から    助詞,格助詞,一般,*,*,*,から,カラ,カラ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
海      名詞,一般,*,*,*,*,海,ウミ,ウミ
」      記号,括弧閉,*,*,*,*,」,」,」
       記号,空白,*,*,*,*, , , 
3       名詞,数,*,*,*,*,*
月      名詞,一般,*,*,*,*,月,ツキ,ツキ
3       名詞,数,*,*,*,*,*
日      名詞,接尾,助数詞,*,*,*,日,ニチ,ニチ
(      記号,括弧開,*,*,*,*,(,(,(
土      名詞,一般,*,*,*,*,土,ド,ド
)      記号,括弧閉,*,*,*,*,),),)
NHK     名詞,固有名詞,組織,*,*,*,*
総合    名詞,サ変接続,*,*,*,*,総合,ソウゴウ,ソーゴー
       記号,空白,*,*,*,*, , , 
夜      名詞,副詞可能,*,*,*,*,夜,ヨル,ヨル
7       名詞,数,*,*,*,*,*
:      記号,一般,*,*,*,*,:,:,:
30      名詞,数,*,*,*,*,*
〜     名詞,サ変接続,*,*,*,*,*
http    名詞,一般,*,*,*,*,*
://     名詞,サ変接続,*,*,*,*,*
t       名詞,一般,*,*,*,*,*
.       名詞,サ変接続,*,*,*,*,*
co      名詞,一般,*,*,*,*,*
/       名詞,サ変接続,*,*,*,*,*
t       名詞,一般,*,*,*,*,*
3       名詞,数,*,*,*,*,*
rmIDkO  名詞,固有名詞,組織,*,*,*,*
        BOS/EOS,*,*,*,*,*,*,*,*
EOS
---ゲレンデのスターとわ私のことです?~?ω~??★★ http://t.co/04IeyqqX
        BOS/EOS,*,*,*,*,*,*,*,*
ゲレンデ        名詞,一般,*,*,*,*,ゲレンデ,ゲレンデ,ゲレンデ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
スター  名詞,一般,*,*,*,*,スター,スター,スター
と      助詞,格助詞,引用,*,*,*,と,ト,ト
わ      助詞,終助詞,*,*,*,*,わ,ワ,ワ
私      名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
こと    名詞,非自立,一般,*,*,*,こと,コト,コト
です    助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
?       記号,一般,*,*,*,*,*
~       名詞,サ変接続,*,*,*,*,*
?       記号,一般,*,*,*,*,*
ω      記号,アルファベット,*,*,*,*,ω,オメガ,オメガ
~       名詞,サ変接続,*,*,*,*,*
??      記号,一般,*,*,*,*,*
★      記号,一般,*,*,*,*,★,★,★
★      記号,一般,*,*,*,*,★,★,★
http    名詞,固有名詞,組織,*,*,*,*
://     名詞,サ変接続,*,*,*,*,*
t       名詞,一般,*,*,*,*,*
.       名詞,サ変接続,*,*,*,*,*
co      名詞,一般,*,*,*,*,*
/       名詞,サ変接続,*,*,*,*,*
04      名詞,数,*,*,*,*,*
IeyqqX  名詞,固有名詞,組織,*,*,*,*
        BOS/EOS,*,*,*,*,*,*,*,*
EOS
---@aobakutaro @pipipi3927 (;´?ω?`)次元が違う
        BOS/EOS,*,*,*,*,*,*,*,*
@       名詞,サ変接続,*,*,*,*,*
aobakutaro      名詞,一般,*,*,*,*,*
@       名詞,サ変接続,*,*,*,*,*
pipipi  名詞,一般,*,*,*,*,*
3927    名詞,数,*,*,*,*,*
(;´?   名詞,サ変接続,*,*,*,*,*
ω      記号,アルファベット,*,*,*,*,ω,オメガ,オメガ
?`)    名詞,サ変接続,*,*,*,*,*
次元    名詞,一般,*,*,*,*,次元,ジゲン,ジゲン
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
違う    動詞,自立,*,*,五段・ワ行促音便,基本形,違う,チガウ,チガウ
        BOS/EOS,*,*,*,*,*,*,*,*
EOS
---@babaalover1 会社だと事務員さんがタイムカードみて(残業休日出勤など)計算してくれるよー
        BOS/EOS,*,*,*,*,*,*,*,*
@       名詞,サ変接続,*,*,*,*,*
babaalover      名詞,一般,*,*,*,*,*
1       名詞,数,*,*,*,*,*
会社    名詞,一般,*,*,*,*,会社,カイシャ,カイシャ
だ      助動詞,*,*,*,特殊・ダ,基本形,だ,ダ,ダ
と      助詞,格助詞,引用,*,*,*,と,ト,ト
事務    名詞,一般,*,*,*,*,事務,ジム,ジム
員      名詞,接尾,一般,*,*,*,員,イン,イン
さん    名詞,接尾,人名,*,*,*,さん,サン,サン
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
タイム  名詞,一般,*,*,*,*,タイム,タイム,タイム
カード  名詞,一般,*,*,*,*,カード,カード,カード
み      動詞,自立,*,*,一段,連用形,みる,ミ,ミ
て      助詞,接続助詞,*,*,*,*,て,テ,テ
(      記号,括弧開,*,*,*,*,(,(,(
残業    名詞,サ変接続,*,*,*,*,残業,ザンギョウ,ザンギョー
休日    名詞,副詞可能,*,*,*,*,休日,キュウジツ,キュージツ
出勤    名詞,サ変接続,*,*,*,*,出勤,シュッキン,シュッキン
など    助詞,副助詞,*,*,*,*,など,ナド,ナド
)      記号,括弧閉,*,*,*,*,),),)
計算    名詞,サ変接続,*,*,*,*,計算,ケイサン,ケイサン
し      動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
て      助詞,接続助詞,*,*,*,*,て,テ,テ
くれる  動詞,非自立,*,*,一段・クレル,基本形,くれる,クレル,クレル
よー    助詞,終助詞,*,*,*,*,よー,ヨー,ヨー
        BOS/EOS,*,*,*,*,*,*,*,*
EOS

という感じです。

さて、ここからどうするのがいいか?

まずは名詞の出現頻度を測るか?


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2012-06-26 (火) 16:13:15 (1976d)