[[ノート>ノート/ノート]]~
訪問者数 &counter();      最終更新 &lastmod();~

**ツイートのキーワード(話題語)について検索 2013-06-24 [#v191c307]
--[[Twitterにおけるつぶやきの関連性を考慮した改良相関ルール抽出による話題抽出:http://www.anlp.jp/proceedings/annual_meeting/2011/pdf_dir/B2-6.pdf]]
--[[風邪の流行をTwitterで知る「カゼミル」がパワーアップ ツイート抽出精度向上:http://www.itmedia.co.jp/news/articles/1111/16/news127.html]] Twitter上に広がる“風邪情報”を自動抽出し、各地の天気予報と組み合わせて未来の“風邪話題度”を予測するサイトをエスエス製薬が公開。 2011-11-16
--[[Twitterにおける即時話題推定技術どたばたかいぎの開発:http://www.slideshare.net/siritori/twitter-12654245]]  それぞれのつぶやきの話題を自動で推定する技術。そのつぶやくが何に言及しているのか、何に関連するのか。
--[[Twitter ネットワーク上のユーザコミュニティ抽出と話題分析:https://kaigi.org/jsai/webprogram/2013/pdf/569.pdf]]  ソーシャルメディア上に日々大量に投稿される自社製品のクチコミデータを「傾聴」することは企業にとって重要な課題になっている。本研究では、Twitter 上でのスマートフォンに関する発言や RT についてデータを収集し,他のユーザに対して強い影響力を持つ可能性があるユーザを中心としたコミュニティを抽出する。そして、そこでの話題の差異を分析する。
--[[ツイートに着目した類似ユーザの推薦手法の提案:http://www.nadasemi.ii.konan-u.ac.jp/publication/research/2012/final/kuroda.pdf]]  本研究では,Twitter において同じ話題をツイートしているユーザを類似ユーザとして,この類似ユーザを推薦する手法の提案を行う.具体的にはユーザのツイートから話題の抽出をし,他ユーザとの比較をし,類似ユーザの決定を行い推薦する.(話題抽出:LDA)
--[[Twitterストリームのバーストの断続性に着目したキーワード抽出:http://db-event.jpn.org/deim2012/proceedings/final-pdf/c7-3.pdf]]  Twitter の解析や要約においてキーワードの抽出は重要である.Twitter のあるひとつのトピックについて,
**ツイートのキーワード(話題語)について検索してみた 2013-06-24 [#v191c307]
-[[Twitterにおけるつぶやきの関連性を考慮した改良相関ルール抽出による話題抽出:http://www.anlp.jp/proceedings/annual_meeting/2011/pdf_dir/B2-6.pdf]]

-[[風邪の流行をTwitterで知る「カゼミル」がパワーアップ ツイート抽出精度向上:http://www.itmedia.co.jp/news/articles/1111/16/news127.html]] Twitter上に広がる“風邪情報”を自動抽出し、各地の天気予報と組み合わせて未来の“風邪話題度”を予測するサイトをエスエス製薬が公開。 2011-11-16

-[[Twitterにおける即時話題推定技術どたばたかいぎの開発:http://www.slideshare.net/siritori/twitter-12654245]]  それぞれのつぶやきの話題を自動で推定する技術。そのつぶやくが何に言及しているのか、何に関連するのか。

-[[Twitter ネットワーク上のユーザコミュニティ抽出と話題分析:https://kaigi.org/jsai/webprogram/2013/pdf/569.pdf]]  ソーシャルメディア上に日々大量に投稿される自社製品のクチコミデータを「傾聴」することは企業にとって重要な課題になっている。本研究では、Twitter 上でのスマートフォンに関する発言や RT についてデータを収集し,他のユーザに対して強い影響力を持つ可能性があるユーザを中心としたコミュニティを抽出する。そして、そこでの話題の差異を分析する。

-[[ツイートに着目した類似ユーザの推薦手法の提案:http://www.nadasemi.ii.konan-u.ac.jp/publication/research/2012/final/kuroda.pdf]]  本研究では,Twitter において同じ話題をツイートしているユーザを類似ユーザとして,この類似ユーザを推薦する手法の提案を行う.具体的にはユーザのツイートから話題の抽出をし,他ユーザとの比較をし,類似ユーザの決定を行い推薦する.(話題抽出:LDA)

-[[Twitterストリームのバーストの断続性に着目したキーワード抽出:http://db-event.jpn.org/deim2012/proceedings/final-pdf/c7-3.pdf]]  Twitter の解析や要約においてキーワードの抽出は重要である.Twitter のあるひとつのトピックについて,
記事のバーストの検出とそれに対応するキーワード抽出を行うことでそのトピックのトレンドを表わすことが可能である.あるトピックにおけるトレンドの変遷を追うためには,時間と共に変化するトレンドを表すようなキーワードを抽出する必要がある.本研究では,あるトピックの Twitter ストリームにおけるバーストの断続性に着目して,過去のバーストの情報を用いて新たなバーストを表わすようなキーワードを発見する手法を提案する.
--[[Twitterからホットなキーワードを抽出する方法:http://www.slideshare.net/beatinaniwa/twitter-2653063]] TF-IDFとかバーストとかのサーベイ
--[[時系列ニュース記事における最新話題語抽出方法(重要語抽出・検索・文書分類):http://ci.nii.ac.jp/naid/110003278923/]] 信学技報 NLC 105(203) 1-6, 2005-07-15~

-[[Twitterからホットなキーワードを抽出する方法:http://www.slideshare.net/beatinaniwa/twitter-2653063]] TF-IDFとかバーストとかのサーベイ

-[[時系列ニュース記事における最新話題語抽出方法(重要語抽出・検索・文書分類):http://ci.nii.ac.jp/naid/110003278923/]] 信学技報 NLC 105(203) 1-6, 2005-07-15~
[[時系列ニュース記事における最新話題語抽出方法(重要語抽出・検索・文書分類):http://ci.nii.ac.jp/naid/110002952435]] 信学技報 自然言語処理 2005(73) 1-6, 2005-07-22~
逐次増加するニュース記事中に含まれる話題情報を効率的に把握するため, 新鮮で可能な限り多くの幅広い話題情報を最新話題語と呼ぶキーワードの形態で抽出する手法について報告する.ニュース記事中の話題を扱うにあたり, 世間の注目度が高い出来事を伝える記事数が増加する「話題の広がり」と, 広がり状態が続報記事発行によって時間的に持続する「話題の伸び」の2つの側面に注目する.提案手法では, 話題の整理のために記事をジャンル分類・クラスタリングした後, 記事のタイムスタンプから算出する記事新鮮度, および記事間類似度を用いて各クラスタを代表する最新話題語を抽出する.ニュース記事(2164記事)を対象にした評価実験の結果, 提案手法はクラスタ中の新鮮かつ代表的な話題を表し, さらに受容性も高い語句を抽出可能であることを確認した.
--[[Twitterにおける話題語の抽出と周期に基づく分類:http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/P5-18.pdf]] 本稿では,Twitter においてユーザーが注目しているイベントを単語単位で検出し,バーストの周期に着目して分類する方法について検討する.ここで,イベントに関連のある語を \話題語"と呼ぶ.本稿では,話題語の抽出には Kleinberg のバースト解析アルゴリズ

-[[Twitterにおける話題語の抽出と周期に基づく分類:http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/P5-18.pdf]] 本稿では,Twitter においてユーザーが注目しているイベントを単語単位で検出し,バーストの周期に着目して分類する方法について検討する.ここで,イベントに関連のある語を \話題語"と呼ぶ.本稿では,話題語の抽出には Kleinberg のバースト解析アルゴリズ
ム [4] を用いる.また,イベントには周期的なものと非周期的なものがあると仮定して,得られた話題語を出現周期に着目して分類することを目指す.周期の判別にはピアソン相関係数 [5] を用いる.さらに本稿では,その周期に着目することで,イベントがどのように分類されるかを検証する.
--[[主題語からの話題語自動抽出とこれに基づく Web情報検索:http://www.dbsj.org/journal/vol5/no2/noda.pdf]]  われわれが検索の対象とする語には,それについて関連のある話題を表すような別の語を考えることができる.たとえ

-[[主題語からの話題語自動抽出とこれに基づく Web情報検索:http://www.dbsj.org/journal/vol5/no2/noda.pdf]]  われわれが検索の対象とする語には,それについて関連のある話題を表すような別の語を考えることができる.たとえ
ば,京都という語について考えた場合,その話題として「観光」や「グルメ」,「写真」,「ホテル」などが考えられる. 本研究では最初に対象とした語を主題語,それに関連する話題を表す語を話題語と呼び,Web 上の情報を利用して主題語に関連する話題語を自動抽出するとともに,その話題に関する情報を提供している Web ページを検索する手法について考察する. 
--[[Blogからの街の話題抽出手法の提案:http://www.ieice.org/~de/DEWS/DEWS2005/procs/papers/2C-i10.pdf]]  本手法では, 多くの人々が旅の目的としている「対象」 の抽出を地名・ランドマークと女子との共起に着目して抽出する.また人々の「体験」は,行為を意味する動詞とサ変名詞に着目して抽出する。
--[[Webからの日英同一話題文書の抽出:http://www.anlp.jp/proceedings/annual_meeting/2012/pdf_dir/P1-33.pdf]]  そこでわれわれは,ニュース記事のタイトルから獲得された日本語の重要語と,その重要語を機械翻訳で英語に翻訳したものをそれぞれクエリとし検索エンジンから文書集合を獲得した.このように集めた文書集合に対し,話題語抽出の研究 [2] を参考にクラスタリング手法を改良し話題に分類する実験を行った.そして,文書はどのように話題に応じて分類されたか,また分類されたクラスタ内の日英文書の比率はどうであったかについて評価を行った.
--[[ブログ上での話題伝播に注目した重要語抽出:http://ymatsuo.com/papers/jsai07furukawa.pdf]]  文書中から重要語を抽出するには,多くの既存研究で

-[[Blogからの街の話題抽出手法の提案:http://www.ieice.org/~de/DEWS/DEWS2005/procs/papers/2C-i10.pdf]]  本手法では, 多くの人々が旅の目的としている「対象」 の抽出を地名・ランドマークと女子との共起に着目して抽出する.また人々の「体験」は,行為を意味する動詞とサ変名詞に着目して抽出する。

-[[Webからの日英同一話題文書の抽出:http://www.anlp.jp/proceedings/annual_meeting/2012/pdf_dir/P1-33.pdf]]  そこでわれわれは,ニュース記事のタイトルから獲得された日本語の重要語と,その重要語を機械翻訳で英語に翻訳したものをそれぞれクエリとし検索エンジンから文書集合を獲得した.このように集めた文書集合に対し,話題語抽出の研究 [2] を参考にクラスタリング手法を改良し話題に分類する実験を行った.そして,文書はどのように話題に応じて分類されたか,また分類されたクラスタ内の日英文書の比率はどうであったかについて評価を行った.

-[[ブログ上での話題伝播に注目した重要語抽出:http://ymatsuo.com/papers/jsai07furukawa.pdf]]  文書中から重要語を抽出するには,多くの既存研究で
は語の出現状況に着目してきた [Salton 88, 大澤 99, 松尾 02, Kleinberg 02, 中川 03].しかし,瞬発性の語を抽出するためには語の出現頻度や出現間隔に注目すればよ
いが,継続性の語を抽出するには各ブロガー間での実際の伝播に着目する必要がある.よりミクロな視点で観測することで,単に「使用されやすい」だけではない,「広まりやすい」語を取り出すことが可能であると考えられるためである.そこで本稿では,ブロガーが記事を書く前に誰のブログを見ているのかという閲覧情報を用いて語の重要度を計算する手法を提案する.人と語それぞれが影響力を持っていると仮定し,より多くの閲覧者に語を伝播させたブロガー,または多くの閲覧者に伝播した語はより大きな影響力を持っていると考える.そして大きな影響力を持った語を,重要語として抽出しようというものである.なお,実験にはユーザ間の訪問情報を扱うことができる,ブログホスティングサービスDoblog∗5のデータベースを使用する.[[情処全国大会原稿として:http://www.ipsj.or.jp/annai/aboutipsj/award/9faeag0000004ej9-att/4T_6.pdf]]
--[[RetweetReputation: バイアスを排除した Twitter 投稿内容評価手法:http://db-event.jpn.org/deim2011/proceedings/pdf/a10-3.pdf]]  Twitter 上の話題を抽

-[[RetweetReputation: バイアスを排除した Twitter 投稿内容評価手法:http://db-event.jpn.org/deim2011/proceedings/pdf/a10-3.pdf]]  Twitter 上の話題を抽
出するために,従来研究では,リツイートされた回数やリツイートを行ったユーザのフォロワー数によって投稿を評価する手法を用いている.しかしこの時,発言者が有名人である場合や,リツイートすることで懸賞の応募となる場合等,内容自体の価値に関係なく多くのユーザにリツイートされやすいというバイアスが存在する.本稿では,元の発言者のことをフォローしていないユーザによってリツイートされた投稿に重み付けを行うことで,リツイートにおけるバイアスを排除し,内容が評価された投稿を抽出する手法を提案する.実験の結果,提案手法はバイアスを排除した投稿の抽出に成功した.
--[[Twitterユーザの特徴語取得:https://sites.google.com/site/2ca3/twitteryuza-no-tokuchou-go-shutoku]]~

-[[Twitterユーザの特徴語取得:https://sites.google.com/site/2ca3/twitteryuza-no-tokuchou-go-shutoku]]~
つくったきっかけ: フォロー返しする時に、どんな感じの人なのかざっくりと知りたいなあと思いつぶやき追っかけるのも面倒なので、面倒なことはプログラムにやらせようってのが発端。~
ポイント:~
 GAEのWebフレームワーク使用~
 Twitter APIのユーザタイムラインで最近200件のつぶやき取得~
  http://apiwiki.twitter.com/Twitter-REST-API-Method:-statuses-user_timeline~
 つぶやきを繋げる。URL的なのとユーザ名的なのは除外する。~
 Yahooのキーワード抽出APIで特徴語を抽出~
  http://developer.yahoo.co.jp/webapi/jlp/keyphrase/v1/extract.html~
ちなみに、Yahooのキーワード抽出のページに乗っているサンプル。動作原理は不明~
 以下は、sentence=東京ミッドタウンから国立新美術館まで歩いて5分で着きます。のリクエストに対するレスポンスです。
 
 <?xml version="1.0" encoding="UTF-8" ?>
 <ResultSet xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="urn:yahoo:jp:jlp:KeyphraseService"
   xsi:schemaLocation="urn:yahoo:jp:jlp:KeyphraseService  http://jlp.yahooapis.jp/KeyphraseService/V1/extract.xsd">
   <Result>
     <Keyphrase>東京ミッドタウン</Keyphrase> 
     <Score>100</Score> 
   </Result>
   <Result>
     <Keyphrase>国立新美術館</Keyphrase> 
     <Score>54</Score> 
   </Result>
   <Result>
     <Keyphrase>5分</Keyphrase> 
     <Score>9</Score> 
   </Result>
 </ResultSet>
--[[FacebookとTwitterの発言における特徴語の比較:http://www.sk.tsukuba.ac.jp/SSM/libraries/pdf1276/1279.pdf]]
--[[専門用語(キーワード)自動抽出サービス 「言選Web」:http://gensen.dl.itc.u-tokyo.ac.jp/gensenweb.html]]
--[[統計的手法によるテキストからの重要語抽出メカニズム:http://ci.nii.ac.jp/naid/110002934181]]  その手順では(1)まずNグラム頻度情報を使って重要な文字列を抽出し,(2)次にその中から無意味な文字列を排除する.
--[[EKWords:http://www.djsoft.co.jp/products/ekwords.html]]~

-[[FacebookとTwitterの発言における特徴語の比較:http://www.sk.tsukuba.ac.jp/SSM/libraries/pdf1276/1279.pdf]]

-[[専門用語(キーワード)自動抽出サービス 「言選Web」:http://gensen.dl.itc.u-tokyo.ac.jp/gensenweb.html]]

-[[統計的手法によるテキストからの重要語抽出メカニズム:http://ci.nii.ac.jp/naid/110002934181]]  その手順では(1)まずNグラム頻度情報を使って重要な文字列を抽出し,(2)次にその中から無意味な文字列を排除する.

-[[EKWords:http://www.djsoft.co.jp/products/ekwords.html]]~
日本語/英語の文書データからキーワード(単語、連語)を抽出・集計するソフトです。~
本ソフトは作者が開発しているキーワード抽出エンジンの動作確認用として作成したものですが、次のような場面で一般の方にも使い道があると思われます。~
  文書校正における用語統一チェック~
  用語索引を作成する際の用語一覧の整理~
  特定の特許明細書の分析・精読~
  翻訳支援ツールとして(訳語一括置換のための用語抽出)
--[[Mecab Pythonを使ったTF・IDFによるWikipediaの重要単語抽出:http://d.hatena.ne.jp/yutakikuchi/20130215/1360884220]]  
--[[重要語句抽出を利用した要旨作成システム:http://www.anlp.jp/proceedings/annual_meeting/2012/pdf_dir/F4-1.pdf]] 結構おもしろい
--[[語の共起の統計情報に基づく文書からのキーワード抽出アルゴリズム:http://www.dbl.k.hosei.ac.jp/~miurat/readings/Oct1105.pdf]]~

-[[Mecab Pythonを使ったTF・IDFによるWikipediaの重要単語抽出:http://d.hatena.ne.jp/yutakikuchi/20130215/1360884220]]  

-[[重要語句抽出を利用した要旨作成システム:http://www.anlp.jp/proceedings/annual_meeting/2012/pdf_dir/F4-1.pdf]] 結構おもしろい

-[[語の共起の統計情報に基づく文書からのキーワード抽出アルゴリズム:http://www.dbl.k.hosei.ac.jp/~miurat/readings/Oct1105.pdf]]~
[[語の共起の統計情報に基づく文書からのキーワード抽出アルゴリズム:http://www.miv.t.u-tokyo.ac.jp/papers/matsuoJSAI02-KeywordExtract.pdf]]

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS