サイトトップ
訪問者数 1755 最終更新 2013-02-19 (火) 16:20:38
テキストマイニング †
テキストデータの中から情報を取り出す技術である。テキストの処理方法は、形態素解析(単語のきり分けと品詞情報の付加)、文法解析(英語の場合シンタックス解析、日本語の場合係り受け解析、切り分けた語の並び方からその語の役割を決める)、意味解析(この部分は未だ十分に解明されていない分野である)、文脈の処理(文と文の関係など)の階層構造になっており、形態素解析と文法解析はかなり実用レベルのソフトがある。それを使って、大量のテキストから意味のある情報を取り出そうとするのが、テキストマイニングである。
現在、実用レベルで広く行われているのが、形態素解析の結果を数える形での統計処理である。単語の出現頻度を手がかりにして、たとえば同一著者であるか、盗作コピーしたテキストであるか、時系列として収集されるテキスト上での傾向の推定などが行われている。研究室でもいくつかの実験を行っている。
テキスト間の類似性判定(盗作検出) †
- 2009年度卒業研究 米村 光 形態素解析プログラムChaSenを用いたWebサイトからの剽窃レポート発見システムの検討
ネットワーク環境の普及に伴い、学生がレポート課題を出されたときに、Webページからの内容を参照することが多くなった。それに伴いWebページの1部をそのままコピー&ペーストして不正なレポートを作成する学生者が増えている。このような不正レポートの対策には、剽窃元のWebページの探索から剽窃箇所の学習者への提示までを含めたトータルな支援システムを考えることが必要である。本研究ではこのような不正な行為を行うレポートの検出について検討した。剽窃の判定を行うため、形態素解析プログラム『ChaSen』を用いて語の出現状況を分析・比較する類似判定システムを提案する。実験では、Webから擬似的に作成した剽窃レポートと、それに似せたレポートを複数用意し、類似判定がどの程度可能であるかを検証した。
- 2010年度卒業研究 野上 大樹 Webサイトの記事を用いた剽窃レポート発見システムの検討
近年、インターネットの普及に伴いWebサイトの記事を参照し、その記事をコピー&ペーストしてレポートを作成するという剽窃レポートが増えている。現在ではWikipediaといった所謂オンライン百科事典などもあり、誰でも容易く剽窃レポートを作ることが出来る。本研究では、このようなWebサイトからの剽窃レポートを発見するシステムの検討を行った。類似度は、形態素解析プログラムChasenを用いて形態素に分解して単語の出現頻度を計算し、頻度パターンの類似性により文章の類似度を判定して単語出現頻出ベクトルモデルによって算出を行う。ネット上の類似文章の検索はレポートの主題によった。また、実験では実際に学生が書いたレポートを用いて、剽窃レポートの可能性のあるレポートが検出できることを確認した。しかし、互いに比較する文章中の文章数の相違が類似度に影響を与えるという問題が新たに判明した。本論文では、この問題の改善案を提案する。
- 2010年度卒業研究 川浪 博之 N−gramモデルによるレポート剽窃の検出
大学などで学生がレポートを作成する際に、参考書やWeb上で書かれている文章を写してレポートを作成する学生が増加している。このような行為を剽窃という。この剽窃の行為によって、学生自身の考えや意見などが少なくなることや、教師の成績評価の妨げなどの問題が起きている。レポートの剽窃を検出する作業は、非常に時間を要するのでこのような剽窃のレポートを速やかに発見して指導することが望まれる。
そこで、剽窃の検出方法の一つとして、語の並びについてのN−gramモデルによる解析を行う。実際に、解析を行う上では参考となる文章に対して似ている文章と異なる文章との比較を行い、N-gramモデルがどれぐらい一致しているのかを示す一致率、どれぐらい似ているかを示す類似度、どれぐらい文字数が異なっているかを示す変換率を求め、剽窃か否かを判定する。
実際に、参考文献に対して似ている文章との比較では、一致率では68.57%と高く、類似度は0.99と1に最も近い値を示している。また、変換率では5.26%と異なる部分がほとんど少ないことから剽窃の可能性が高いといえる。一方、異なる文章との比較では、一致率は7.61%と低く、類似度は0.70となり、似ている文章の類似度と比べると低い値となっている。また、変換率では62.71%と異なる部分が多いことが示された。
- 2010年度卒業研究 松浦 弘和 クラスター解析による系統樹を用いた剽窃レポート発見の検討
本研究は学生レポートを対象に単語の出現頻度を基にして類似度を求め、その類似度を距離とした系統樹を作成し、類似レポートの出所を判別することを試みた。現在、ネットワーク環境の普及に伴い、学生レポート課題を出されたときに学生間でレポート内容を参照する事が多くなった。それに伴い他人のレポートをそのままコピー&ペーストして不正なレポートを作成する学生が増えている。
このような不正レポートの対策には、複数のレポートを比較し、不正な行為を行うレポートの検出が有効であると考え検討した。代表的な系統樹作成アルゴリズムとしては6通りの方法が挙げられるが、いずれの系統樹が最も有効であるかは従来の研究では報告されていない。本研究では、実際に系統樹を作成し、実際の学生レポートに対してどの系統樹作成法が有効であるかを考察した。
- 2011年度卒業研究 知久 拓生 webサイトを用いた剽窃レポートの発見システムの再構築
近年、インターネットの普及と共に、webサイトの記事をそのまま転用した剽窃レポートを、学生が提出することが増えている。特にWikipediaを代表とする、web上の百科事典や辞書のサイトは剽窃の対象となることは非常に多い。本研究では、昨年度の卒業研究での文書比較システムを元に、webサイトの記事を用いた剽窃レポートの発見機能を、より実用的なシステムとして提供できるように再構築を行ったものである。主な変更点はwebサービスとしての提供を実現し実用性を高めたこと、及び剽窃の情報源となるwebサイトを特定の百科事典、辞書サイトに絞ることでHTML解析の精度を上げたことである。
- 2011年度卒業研究 山田 泰久 配列アラインメントを用いた剽窃レポート発見システムの検討
近年、学生がレポートを作成するとき他人のレポートに多少の改良を加えた剽窃レポートが増えている。このような剽窃レポートに対応するために最近では剽窃レポート発見するためのシステムが開発されてきている。
本研究ではバイオインフォマティックスの配列アラインメントという方法を用いて、剽窃レポートを発見する方法になりうるかを検討している。実際に学生が書いたレポートを用い剽窃レポートの可能性があるものを確認した。しかし、レポートには様々なケースあるが対応できないケースもあることがわかった。
- 2012年度卒業研究(2012年9月卒業) 橋口紀敬 学生レポートにおける 剽窃レポートの発見システムの考案
学生のレポートを読んでいると非常によく似たレポートに遭遇することがある。これらを発見し剽窃であると判断したい。文章が完全に一致していれば、剽窃レポートであると判断することは容易である。しかし実際のレポートの中にそのようなものは少ない。大抵なんらかの変化を加えてあるものが多い。その際どの程度類似していれば剽窃レポートであると判断するのか基準を設けたい。 本研究では具体的にバイオインフォマティクスの配列アラインメントを利用し単語同士の位置合わせを行い、レポート同士を比較することで、剽窃レポートを発見できるのかを検討した。具体的には Smith-Waterman 法を用い、単語同士の位置合わせを行い、その際に一致している部分を計測する。実際に提出された学生レポートに対してこの方法を利用したところ、剽窃レポートの可能 性のあるものを指摘することができることがわかった。
- 2012年度卒業研究 馬場貴大 配列アライメントを用いた 剽窃レポート発見システムの改良
昨年度の卒業研究で、類似しているレポートを剽窃かどうか判断するために遺伝子配列アライメント手法を用い た単語の位置合わせが有効であることが分かった。しかし、位置合せ結果を類似度評価として数値化する際に単純な合致率では類似度は高低で2極化できず、中間的な数字を示す物も多くあり、また文や文節の順番を入れ換えただけで類似判定がしづらくなる欠点があった。本研究では、それらに対する改良案を提案・評価し、サンプルでは昨年度の合致率では中間的な類似度を持つレポートが27%あったのに対し、今回の手法では12% に減少した。さらに、文や文節を入れ替えたサンプルに対して、昨年度の方法では類似度が 56%であったが、 今回の手法では 100%となって類似性を検出できるようになり、いずれも類似度の検出をより妥当・有効なものとできた。またその中でどのようなものが剽窃されたレポートであるといえるのかを考察した。
リアルタイム時系列テキストサンプルでの変動推定 †
- 2012年度卒業研究 古野友也 Twitter における話題の持続性の予測
SNS の1つである Twitter は、大勢の人が発するつぶやきであるため大量に収集・分析する ことによって世間の動向、特に人々の関心の行方を覗き見ることができる。 その点に着目し、特定の話題に関するツイート数の変動を測定して関心の動向をみることが広く行われている。他方、 テキストマイニングの1手法として、アンケートなどでのポジティブ・ネガティブ(favor,unfavor)な語の出現頻度によって商品等の評価を測定することが行われている。 両手法を合わせると、Twitter のようにリアルタイムで語られるデータに対してポジティブ・ネガティブを評価し、その時系列変動によって話題の持続性を予測することが考えられる。話題の持続性を予測することができれば企業が新商品の評価を簡単に得ることができ、増産、販売停止などの意思決定を早め、利益を逃さずリスクを回避することができる。
本研究では Twitter によって得られる大量のツイートメッセージに対して自然言語解析を行い、 ネガティブ・ポジティブな意見のツイートを計測・グラフに表現することで、話題の持続性の予測を試みた。 この結果、ワンピースという話題に対してツイート数のピーク前にポジティブな単語の検出数が多く、話題に持続性があると予測されたが、実際のツイート上でその後の変動はグラフの下降を和ら げるような傾向がみられ、話題の持続性の予測が例外を除き可能であることが分かった。
文法レベルの解析 †
単語レベルの情報だけではなく、文法レベル(単語の役割による意味)の情報を利用した知的処理の可能性について、検討している。 たとえば、文献検索の場面で
AがBに変化する、と
BがAに変化する
では、変化する主語と目的語が逆であるために全く意味が異なるにも関わらず、単語の一致に基づく検索では同じようにヒットする。今までの検索ではこれらを同時に表示した上で、人間が必要なものを取捨選択していた。原文を文法解析すれば、動詞「変化する」に対して、Aが主語であり、Bが主語である、という条件で検索することができる。
- 2009年度卒業研究 伊藤 諒 論文における内容類似度と文法的な依存関係との関連性について
医療・生物系論文データベースであるPubmedにおける論文の収録数は1600万件を超えており、研究者が自分に興味のある論文を探すために多大な時間を要することは必至である。 単純な一致検索では、関連性の高い論文のみを抽出することは難しく、関連性のうすい論文を含めて大量にヒットした中から、人力によって適当なものを選択している。本研究では、類似性の高い論文の効率の良い検索方法を実現するための手がかりとして、論文の内容の類似性と、語の文法構造上の依存性を含めた一致度との、関連について検証を行う。 もし関連が存在するならば論文の内容の類似性を用いた検索に利用できる可能性がある。 そこでPubmed内の似ている論文と似ていない論文同士について、語とその文法的な依存関係(typed dependency)を含めた一致度を比較する実験を行った。その結果、内容に関連のある論文同士の方が内容に関連のない論文同士よりも依存関係を含めた語が多く一致した。
特に形容詞句で名詞句を修飾する関係である「amod」や名詞句内の要素を表す「nn」といった名詞に関わる文法関係が最も多く、次いで動詞とその主語を表す関係である「nsubj」といった動詞に関わる文法関係が見られた。 以上の実験結果から、文法構造上の関係を含めた語同士の一致は、論文間の類似性のより良い尺度となる可能性がある。
- 2010年度卒業研究 有働 泰三 文献検索の絞込みにおける文法構造や単語の意味情報の活用の可能性
2000万件を超える文献アブストラクトを所蔵する医学・生物文献データベー「PubMed」は,今までは主にキーワードマッチングのAND/ORによる検索が行われてきた。
しかし、それでは余分な文献を拾ってしまうため、結果が利用しづらい。PubMedの付加機能であるClinical Queriesでは検索条件を追加し、臨床的な文献に絞り込む工夫をしているが、それも必ずしも十分でない。本研究ではClinical Queriesから更に絞り込むために、文章構造や語の意味の情報を加味することを考え、そのために必要な条件を検討した。具体的には、原因と結果をキーワードとして与えることを想定し、欲しい論文のアブストラクトからその2つのキーワードを含む文を中心として解析することとし、両方を含む文の文法構造と、両キーワードを繋ぐ語の意味を考えることによって、ユーザが望む条件に合う論文を選択できる可能性があることが分った。
共起の応用、知的発見 †
- 2007年度卒業研究 杉原一史 関連情報の収集による知識発見支援の検討
現在、文章として書かれている情報がインターネット上に数多く存在している。そこで、本研究では、インターネット上から収集した情報を元に、そこから新しい知識を発見する仕組みを提案し、それを支援するシステムを作ることによって、実際に新しい知識を発見できるかどうかを検討した。実験の結果、本研究で主張している知識発見の原理では、新しい知識を発見できる場合と、出来ない場合があるということが明らかになった。その結果を報告する。
- 2007年度卒業研究 田島栄介 キーワードの共起を用いた論文検索法と、医学文献データベース 「PubMed」における評価
論文を検索する研究者にとって、ある1つの論文が見つかった時に他の類似する話題の論文を集めたいと思うのは当然である。また、インターネット上の多様な情報源へのアクセスが可能となった今、それらを容易に検索することを支援する機能が求められている。
本論分では、医学文献データベース「PubMed」においてある論文と関連する論文を「共起」を用いて検索を行い、提示する方法を手案する。ここでいう「共起」とは、2つ以上の論文間において同じキーワードがある一定以上出現すること、とする。本研究で提案した方法をいくつかの論文について試した結果、共起するキーワードが15〜20個、類似論文は61〜149個を抽出することが出来、それぞれの論文は十分に関連する話題のものであった。