![]() |
ノート/テキストマイニング/twitter-DB-解析https://pepper.is.sci.toho-u.ac.jp:443/pepper/index.php?%A5%CE%A1%BC%A5%C8%2F%A5%C6%A5%AD%A5%B9%A5%C8%A5%DE%A5%A4%A5%CB%A5%F3%A5%B0%2Ftwitter-DB-%B2%F2%C0%CF |
![]() |
訪問者数 1249 最終更新 2012-06-26 (火) 16:13:15
収集プログラムを、1時間ごとに1つのSQLテーブルにするように変更したので、 テーブルのレコード数を数えれば収集したツイート数が分かる。 SELECT COUNT(*) from テーブル名 実際の数えた結果は下記の通り。但し、twitter APIのstreamを使っているので、 サーバーの側で適当に間引きするということになっている。つまり数は あまり正確ではないだろう。時間によって間引き率が変動するかどうかは不明。
12062515 8524 12062516 11098 12062517 13139 12062518 14070 12062519 11875 12062520 13553 12062521 13218 12062522 12095 12062600 10425 12062601 6639 12062602 4314 12062603 2762 12062604 1943 12062605 1843 12062606 3275 12062607 5852 12062608 6169 12062609 5061 12062610 5008 12062611 5090 12062612 6799 12062613 6208 12062614 7097 12062615 7166
PythonからのMeCabの使い方は ノート/テキストマイニング/twitter-2 の、「MeCabでの解析例(2) ノードを取り出す」 の項を参照しよう。
# -*- coding: utf-8 -*- import sys import codecs import MeCab import MySQLdb sys.stdout = codecs.getwriter('utf_8')(sys.stdout) con = MySQLdb.connect(db="mydb", host="localhost", port=3306, user="xxxxxx", passwd="******") cur = con.cursor() s = "SELECT text FROM tw" cur.execute(s) mt = MeCab.Tagger() r = cur.fetchone() while r != None: print "---" + r[0].encode((utf_8') m = mt.parseToNode(r[0].encode('utf_8')) while m: print m.surface, "\t", m.feature m = m.next print "EOS" r = cur.fetchone() cur.close() con.close()
この段階での出力は、
---RT @nodamura: 田野畑村が舞台のNHK土曜ドラマスペシャル「それからの海」 3月3日(土)NHK総合 夜7:30〜 http://t.co/t3rmIDkO BOS/EOS,*,*,*,*,*,*,*,* RT 名詞,固有名詞,組織,*,*,*,* @ 名詞,サ変接続,*,*,*,*,* nodamura 名詞,一般,*,*,*,*,* : 名詞,サ変接続,*,*,*,*,* 田野畑 名詞,固有名詞,地域,一般,*,*,田野畑,タノハタ,タノハタ 村 名詞,接尾,地域,*,*,*,村,ムラ,ムラ が 助詞,格助詞,一般,*,*,*,が,ガ,ガ 舞台 名詞,一般,*,*,*,*,舞台,ブタイ,ブタイ の 助詞,連体化,*,*,*,*,の,ノ,ノ NHK 名詞,一般,*,*,*,*,* 土曜 名詞,副詞可能,*,*,*,*,土曜,ドヨウ,ドヨー ドラマ 名詞,一般,*,*,*,*,ドラマ,ドラマ,ドラマ スペシャル 名詞,一般,*,*,*,*,スペシャル,スペシャル,スペシャル 「 記号,括弧開,*,*,*,*,「,「,「 それ 名詞,代名詞,一般,*,*,*,それ,ソレ,ソレ から 助詞,格助詞,一般,*,*,*,から,カラ,カラ の 助詞,連体化,*,*,*,*,の,ノ,ノ 海 名詞,一般,*,*,*,*,海,ウミ,ウミ 」 記号,括弧閉,*,*,*,*,」,」,」 記号,空白,*,*,*,*, , , 3 名詞,数,*,*,*,*,* 月 名詞,一般,*,*,*,*,月,ツキ,ツキ 3 名詞,数,*,*,*,*,* 日 名詞,接尾,助数詞,*,*,*,日,ニチ,ニチ ( 記号,括弧開,*,*,*,*,(,(,( 土 名詞,一般,*,*,*,*,土,ド,ド ) 記号,括弧閉,*,*,*,*,),),) NHK 名詞,固有名詞,組織,*,*,*,* 総合 名詞,サ変接続,*,*,*,*,総合,ソウゴウ,ソーゴー 記号,空白,*,*,*,*, , , 夜 名詞,副詞可能,*,*,*,*,夜,ヨル,ヨル 7 名詞,数,*,*,*,*,* : 記号,一般,*,*,*,*,:,:,: 30 名詞,数,*,*,*,*,* 〜 名詞,サ変接続,*,*,*,*,* http 名詞,一般,*,*,*,*,* :// 名詞,サ変接続,*,*,*,*,* t 名詞,一般,*,*,*,*,* . 名詞,サ変接続,*,*,*,*,* co 名詞,一般,*,*,*,*,* / 名詞,サ変接続,*,*,*,*,* t 名詞,一般,*,*,*,*,* 3 名詞,数,*,*,*,*,* rmIDkO 名詞,固有名詞,組織,*,*,*,* BOS/EOS,*,*,*,*,*,*,*,* EOS ---ゲレンデのスターとわ私のことです?~?ω~??★★ http://t.co/04IeyqqX BOS/EOS,*,*,*,*,*,*,*,* ゲレンデ 名詞,一般,*,*,*,*,ゲレンデ,ゲレンデ,ゲレンデ の 助詞,連体化,*,*,*,*,の,ノ,ノ スター 名詞,一般,*,*,*,*,スター,スター,スター と 助詞,格助詞,引用,*,*,*,と,ト,ト わ 助詞,終助詞,*,*,*,*,わ,ワ,ワ 私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ の 助詞,連体化,*,*,*,*,の,ノ,ノ こと 名詞,非自立,一般,*,*,*,こと,コト,コト です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス ? 記号,一般,*,*,*,*,* ~ 名詞,サ変接続,*,*,*,*,* ? 記号,一般,*,*,*,*,* ω 記号,アルファベット,*,*,*,*,ω,オメガ,オメガ ~ 名詞,サ変接続,*,*,*,*,* ?? 記号,一般,*,*,*,*,* ★ 記号,一般,*,*,*,*,★,★,★ ★ 記号,一般,*,*,*,*,★,★,★ http 名詞,固有名詞,組織,*,*,*,* :// 名詞,サ変接続,*,*,*,*,* t 名詞,一般,*,*,*,*,* . 名詞,サ変接続,*,*,*,*,* co 名詞,一般,*,*,*,*,* / 名詞,サ変接続,*,*,*,*,* 04 名詞,数,*,*,*,*,* IeyqqX 名詞,固有名詞,組織,*,*,*,* BOS/EOS,*,*,*,*,*,*,*,* EOS ---@aobakutaro @pipipi3927 (;´?ω?`)次元が違う BOS/EOS,*,*,*,*,*,*,*,* @ 名詞,サ変接続,*,*,*,*,* aobakutaro 名詞,一般,*,*,*,*,* @ 名詞,サ変接続,*,*,*,*,* pipipi 名詞,一般,*,*,*,*,* 3927 名詞,数,*,*,*,*,* (;´? 名詞,サ変接続,*,*,*,*,* ω 記号,アルファベット,*,*,*,*,ω,オメガ,オメガ ?`) 名詞,サ変接続,*,*,*,*,* 次元 名詞,一般,*,*,*,*,次元,ジゲン,ジゲン が 助詞,格助詞,一般,*,*,*,が,ガ,ガ 違う 動詞,自立,*,*,五段・ワ行促音便,基本形,違う,チガウ,チガウ BOS/EOS,*,*,*,*,*,*,*,* EOS ---@babaalover1 会社だと事務員さんがタイムカードみて(残業休日出勤など)計算してくれるよー BOS/EOS,*,*,*,*,*,*,*,* @ 名詞,サ変接続,*,*,*,*,* babaalover 名詞,一般,*,*,*,*,* 1 名詞,数,*,*,*,*,* 会社 名詞,一般,*,*,*,*,会社,カイシャ,カイシャ だ 助動詞,*,*,*,特殊・ダ,基本形,だ,ダ,ダ と 助詞,格助詞,引用,*,*,*,と,ト,ト 事務 名詞,一般,*,*,*,*,事務,ジム,ジム 員 名詞,接尾,一般,*,*,*,員,イン,イン さん 名詞,接尾,人名,*,*,*,さん,サン,サン が 助詞,格助詞,一般,*,*,*,が,ガ,ガ タイム 名詞,一般,*,*,*,*,タイム,タイム,タイム カード 名詞,一般,*,*,*,*,カード,カード,カード み 動詞,自立,*,*,一段,連用形,みる,ミ,ミ て 助詞,接続助詞,*,*,*,*,て,テ,テ ( 記号,括弧開,*,*,*,*,(,(,( 残業 名詞,サ変接続,*,*,*,*,残業,ザンギョウ,ザンギョー 休日 名詞,副詞可能,*,*,*,*,休日,キュウジツ,キュージツ 出勤 名詞,サ変接続,*,*,*,*,出勤,シュッキン,シュッキン など 助詞,副助詞,*,*,*,*,など,ナド,ナド ) 記号,括弧閉,*,*,*,*,),),) 計算 名詞,サ変接続,*,*,*,*,計算,ケイサン,ケイサン し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ て 助詞,接続助詞,*,*,*,*,て,テ,テ くれる 動詞,非自立,*,*,一段・クレル,基本形,くれる,クレル,クレル よー 助詞,終助詞,*,*,*,*,よー,ヨー,ヨー BOS/EOS,*,*,*,*,*,*,*,* EOS
という感じです。
さて、ここからどうするのがいいか?
まずは名詞の出現頻度を測るか?