[[ノート>ノート/ノート]]~
訪問者数 &counter();      最終更新 &lastmod();

[[バスケット解析>ノート/マイニング/バスケット]]~
[[バスケット解析をRで>ノート/マイニング/バスケット解析をRで]]~
[[図書データをRで>ノート/マイニング/図書データをRで]]~
[[テキストマイニング>ノート/マイニング/テキストマイニング]]~
[[テキストマイニング>ノート/テキストマイニング]]~

**マイニング [#q7adca7c]
***見た本 [#i6359349]
-[[3月に開かれたデータエンジニアリングワークショップDEW2008の発表プログラムとそれぞれの原稿へのリンク:http://www.ieice.org/iss/de/DEWS/DEWS2008/proceedings/program.html]]

-IT Text データマイニングの基礎 元田浩・津本周作・山口高平・沼尾正行著、オーム社、2006
-Rによるデータサイエンス 金明哲著、森北出版、2007
-[[統計解析環境Rによるバイオインフォマティクスデータ解析---Bioconductorを用いたゲノムスケールのデータマイニング 樋口千洋・石井一夫著、共立出版、2007>ノート/マイニング/Rによるバイオインフォマティクスデータ解析]]

***「データマイニングの基礎」 元田浩・津本周作・山口高平・沼尾正行著、オーム社  [#h8bd2a6e]
見た感じ、人工知能屋さんがみた意思決定システムとしてのデータマイニング、というところか。

[第1章 入門]
-データマイニングとは何か~
KDD is the non-trivial process of identifying valid, novel, potentially useful, and
ultimately understandable patterns in the data. (Fayyad, "From data minign to knowledge discovery: An overview" in "Advances in Knowledge Discovery and Data Mining, pp.495-515, MIT Press, 1996)~
データに内在する規則(データの一部を説明する規則)や特徴的なパタン(頻度や識別能力の高いパタン)を発掘する。~
KDD = Knowledge Discovery in Database~
周辺のキーワード: 知識発見〜法則発見(人工知能で研究されてきているが
基礎研究レベル)、知識獲得(知識発見より広い概念、従来はエキスパートシステムを
対象にし人間の専門家の頭にある知識をインタビュー等で取り出すプロセス、
最近はデータからの知識獲得も含められる)、機械学習(機械学習はパタン発見の有用な手法だが、概念やモデルの存在を前提としてそれに帰納することを目指すのに対し、データマイニングはモデル等を前提とせずデータから有益な情報を得られれば良いとする〜〜本当か?)、統計(従来統計はモデルを仮定してそのパラメタをデータから最適化する問題であったが、最近はモデル選択に移りつつあり、その意味でデータマイニングと近づいている〜〜本当か? 但しデータマイニングでもデータの不確かさの扱いは統計手法に頼っている)~
データマイニングは意思決定・問題解決を最終目標としており、単なる予測ではない。獲得した知識が実行可能である事が重要になる。
-データマイニングの定式化~
アドホックに個別にマイニング技術・システムを作るのではなく、共通基盤を作るべきだ。データベースがかつてそうであったように。~

-知識発見のプロセス~
1: 基本的な概念とそれを表現する語彙の定義、語彙の分類、語彙間の概念階層の形成~
2: 概念(語彙)間の定性的な関係の発見~
3: 変数間の定量的な関係の発見~
4: 観察されない変数を含んだ構造的なモデルの発見~
5: 時間変化のメカニズムを説明するプロセスモデル(動的モデル)の発見~
それぞれの分野で発見システムの研究がある。~
知識表現の見方が、機械学習では人工知能特有の表現(決定木、ニューラルネット、最近傍法など)なのに対し、科学的発見の研究ではその分野の科学者が使う表現を重視している。データマイニングでは人工知能的表現が多い。~
機械学習では自動化が主眼なのに対し、科学的発見では科学者の支援が目的であり、データマイニングも科学者の支援である。~
科学者の関与は、処理のあらゆる段階で有効であり、うまく使って成功する例が多い。

-データマイニングのプロセス~
大量のデータから有用な知識を取り出すためのプロセス。
++データを獲得・選択するプロセス、~
目標を設定し、汎用に集められたデータから目的に応じてデータセットを選択する
++必要な前処理と変換のプロセス、~
ノイズや異常値の除去。その中には連続データの離散化やカテゴリー化、離散データの連続化、欠損データの保管、単位変換などを含む。知識発見アルゴリズムが適用できるように変換する。
++データからパタンを発見するプロセス、~
知識発見アルゴリズムを適用し、興味あるパタン(知識)の候補を抽出する。統計学的手法、機械学習の手法、データマイニング固有の手法が使われる。
++解釈・評価し、知識として活用するプロセス~
抽出したパタンを解釈・評価して知識を得る。機械学習では学習結果を使って新データを処理する事が目的であったが、データマイニングでは得られた結果の解釈に重きが置かれる。ユーザ=専門家が理解できない知識は使ってもらえない。~
~
パタン発見処理に研究が集中しているが、本当にこの中で重要なのはデータの獲得・選択・前処理であり、全体の70〜80%を占めると言われる。

-データマイニングの実際~
どう使われるか、分野ごとの説明。

-データマイニングシステム~
システムの構成: データマイニングは基本的にユーザ=専門家とのインタラクションが重要であり、完全な自動化を目指すものではない。インタラクションをスムーズにする良いインターフェースと、自動化が可能な部分をいかに自動化するか、が大きなテーマになる。データマイニングシステムはこのプロセスを支援するソフトウェアツールであり、ソフトウェア開発のCASEツールやエキスパートシステム開発におけるシェルに相当する。~
図1.3:データマイニングシステムの構成~
     ┌−−−−−データマイニングモジュール−−−−┐ 
     |          |    |      |
     |−−−−−−(視覚化ツール) |      |
     |          |    |      |
  データベース−−−−ユーザインターフェース−−−−推論機構−−−−知識ベース

--データマイニングモジュール: 各種の知識発見アルゴリズムを保持。データ集合操作、統計分析、情報量基準計算、多変量解析、帰納推論プログラム、決定木学習、ルール学習、事例ベース推論、最近傍法、ニューラルネット、ベイジアンネット、クラスタリング、ファジイ論理、ラフ集合など、様々なものが含まれる。~
--推論機構・知識ベース: データマイニングでは目的に応じた適切な背景知識が必要であり、同時に獲得した知識を保持・修正する帰納、知識を活用する機能が必要である。
--ユーザインターフェースは、ユーザ=データ解析者が使用するインターフェース。データ視覚化やプログラミング、データ分析機能などを統合して提供する必要がある。

-データマイニングシステムの分類〜実はいろいろなレベル・形のものが提供されている。~
汎用性による分類~
単一機能: 分類システム、クラスタリングシステム、従属性判定、視覚化、統計パッケージ、その他。~
総合型:~
領域特化型: 特定の応用領域に特化~
~
利用形態による分類~
スタンドアローン~
意思決定支援型:ユーザのインタラクションと表示を重視、直感的に掴みやすく。~
インテグレーション型:大規模基幹システムの一部に埋め込む~
~
提供形態による分類~
商用: SPSS社のクレメンタイン、SAS社のエンタープライズ、IBM社のインテリジェントマイナーなど多数。
オープンソース・フリー: Waikato大学のWeka、MUSASHIなど

[第2章 基礎的な手法]
-5つの手法(決定木学習、ルール学習、ナイーブベイズ学習、最近傍法、相関ルールマイニング)を説明。
-決定木と決定木学習~
意思決定や分類などを多段階で行う時、樹形図で表したグラフ表現。~
分割のための属性をどのような順番で判定するか? 最小(ルートからリーフまでの全てのパスの長さの総和が最小)の決定木を作る問題はNPハード。実用規模ではトップダウン式に分割統治で決めることが可能~
ある点での分割法を決める(複数ある分割方法のうち1つを選ぶ)指標として、Giniインデックス(CARTアルゴリズムで使われた)、エントロピー(情報利得、ID3で使われた)、情報利得比(C4.5/C5で使われた)などがある。~
Giniインデックスは、社会における所得分配の不平等さを測る指標として1936年にGiniが考案。(詳細は勉強中)~
エントロピー(情報利得)は、情報量を計算する時のエントロピー −Σ(pi)
log(pi) ~
例:ゴルフをするかどうかの決定要因となる属性として、天気・温度・湿度・風の情報があったとする。例えば最初の分割属性を決めたいとすると、天気(晴・曇・雨)によってゴルフをするかどうか(○×)がどう決まっているかを見る。晴で○がつくのが2、×が3、曇で4対0、雨で3対2だったとすると、晴・曇・雨それぞれのノードの情報量は0.971、0、0.971。エントロピーは全14場合数(2+3+4+0+3+2)の平均情報量なので、(5/14)*0.971 + (4/14)*0 + (5/14)*0.971 = 0.693となる。~
全体を1個(ばらばら)とした時のエントロピーは、○が9個、×が5個で0.940。~
だから分割のための属性として天気を選んだ時、情報利得は0.940 - 0.693 = 0.247である。~
同様にして、分割のための属性として温度や湿度、風を選んだ時の情報利得は、温度=0.029、湿度=0.152、風=0.048となり、天気がもっとも利得が大きい。これを分割に使う。~
同じ事を、分割後の、晴の場合、曇の場合、雨の場合のそれぞれについて繰り返せばよい。~
~
この分割統治による決定木学習は、次の問題を持つ。‐綉の例はカテゴリ属性だが、連続値を取る数値属性の時には分岐数が多くなりすぎる。これに対して、連続値を区間分割して区間名を離散値にする方法がある。決定木学習に限らず一般に、欠損値があると問題になる。たとえばカテゴリ属性の時は最頻値、数値属性の場合は平均値を使うなどする。F世蕕譴新萃衞擇複雑すぎる事が多く、また訓練データに過度に適合するオーバーフィッティングが起こる。そのため枝刈りをする事が多い。学習途中に枝刈りをする事前枝刈りと、完成後に行う事後枝刈り(たとえば悲観的枝刈りやコスト複雑度枝刈り、最小記述法など)があるが、事後枝刈りが効果が高い。

-ルール学習~
トップダウンの分割統治ではなく、全データをルールで説明(カバー、被覆)しようとし、カバーできなかった(残った)部分を説明するルールを追加してさらにカバーを増やし、カバーできない部分がなくなるまで繰り返す。これを分離統括法と呼ぶ。~

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS