ノート/テキストマイニング
訪問者数 2171 最終更新 2013-06-21 (金) 10:29:40
Twitter処理に関する記事など †
商用記事 †
- エスエス製薬 つぶやきを分析し 風邪の流行を予測
東京大学と共同で分析エンジンを開発し、ツイートを大量かつ高精度に抽出できるようになった。前年比で分析の母集団が増えたことにより、「鼻風邪や熱風邪など、地域によってどんな風邪がはやっているかも的確に分析でき、注意喚起できるようになった」と小野田氏は胸を張る。
抽出したツイートを週間天気予報と組み合わせ、向こう一週間の「カゼ話題度」を予測する機能もある。風邪関連ツイートは、気温や湿度の変化に応じて増減するという相関関係が、過去の傾向から導き出せたからだ。
- SNSと株価との相関関係を探るカブドットコム証券の挑戦
昨年末から行われている検証分析では、46社の銘柄に対して関連するキーワードを各社1000個程度、合計で約4300個に絞り込み、Twitter上から関連する情報を収集して相関分析を行っている。処理の対象となるTwitterの情報は1日約900万行にも及び、2カ月間で2億件の情報に対して約4万3000件のマイニング処理が行われた。
検証の初期段階では、相関分析の結果を人手で確認していた。間違いなくその銘柄の記述かどうかを判断し、精度を上げるために辞書をカスタマイズするという作業が繰り返されてきたのである。現在では、キーワードに基づいて精度の高い情報が収集できるようになっている。また、今後はどのようなサービスを提供できるかについての検証も行われている。
今回の検証実験は、数台のIAサーバーによって実施されているが、本番稼動では、最大で約3600銘柄、1日約3400行という規模になる。こうした取り組みができるようになった背景には、安価で導入しやすい高速な分散処理技術が登場したことが挙げられる。
- ストリーミング・コンピューティングを実現するソフトウェア 流入データをリアルタイムに処理。その先進テクノロジー活用で何が変わるのか?
テクノロジーの進化によって、医療分野ではさまざまなモニタリングが行われるようになった。血圧、心拍数、体温といったバイタル・サインは、医療モニタリング機器によって継続的に収集され、大きな成果を上げている。
しかし、このようにリアルタイムに収集されたデータが十分に活用できていない、という指摘もある。大量の測定データが集められている一方で、あまりにもデータ量が多すぎて人間による分析が間に合わず、体調の変化の兆候が見逃されてしまうケースもあるという。
「人間の能力で間に合わないのであれば、コンピュータでデータを分析することでその異変を検知することはできないだろうか」――。カナダを本拠地とするオンタリオ工科大学では、こうした視点から課題解決に向けた取り組みが行われている。
- 5/22 ネットで検索してみたら? googleで「twitter 解析」で検索?
傾向サイト †
実験ネタ †
- 10/28 昨日夜の7〜8時台のTV番組でお菓子の人気順位をやっていたが、そのときのツイート状況
実験ネタ(その2) (2013-06-17) †
⇒ 実験ネタ(その2)
「トレンド」の分析サイト (2013-06-21追記) †