ノート
訪問者数 1512      最終更新 2009-03-08 (日) 15:06:41

情処の第16回バイオ情報学研究会に行ってみた

背景情報

  1. Webサービス情報の統合のためのレポジトリ連携手法の提案 野中崇史(阪大)
    近年Webレポジトリ(データや処理システムの蓄積)とワークフローサイト(処理手順を記述、標準化/平準化が狙いか?)が多く使われる。しかし、両者の連携・リンキングが未だ不十分である。そこで、連携させる手法として文字列の類似性を頼りに、類似Webサービスを検索したい。サービス名の類似性だけを使ったものは既にあるが、サービスの入出力名を使って重み付けをすることにより、より「正しい」サービスを検索できる。
    WebサービスのレポジトリはたとえばBioMOBY, EMBRACE Registry, ワークフローはmyExperimentなど。
    フロアからのコメントで、将来像として「Query by Example」のようなサービスがないか?
     ワークフローのエントリ作成は現状は専門家の人力で、入出力の形式が合わなかったりあってもうまく動かなかったりという難しさがある。

  2. 発現量データを用いた相関係数によるタンパク質の複合的な相互作用の推定 村上翔(和歌山大)
    タンパク質の発現量を測定したデータ(プロテオームデータ)から、タンパク質XがY発現に影響するなどの(統計的)結論を推定したいが、特に複数相互作用(AとBがCの発現に影響するが、A単独やB単独では作用しないような場合を特定したい。
    そのとき、min(A, B)とCとの相関を取ることによって、判定する、というもの。

  3. 距離の再定義を伴う事例選択を用いたタンパク質機能情報文抽出方式 竹内正明(神戸大)
    大量の(タンパク質構造解析)実験文献から機能情報を抽出する研究の一環。機械学習を用いる。入力は文献に含まれる文で、「固有表現」は既に特定されタグ<residue>や<interaction>などがつけられている。
    特徴ベクトルとして、相互作用対象物質同士の原子間距離(閾値より大小で0/1)、機能情報文に頻出する単語の有無(単語ごとに出現有無で0/1、45単語、たとえばinteract, bind, salt link, hydrogen bondなど)、機能記述に頻出する文型パターン(マッチするかしないか、たとえばbetween(.)*<residue> and <tag> や <residue>(.)*[動詞](.)*<tag>など、但し<tag>は任意の固有表現タグ)
    学習はラベル付きデータ(教師)を用いるが、十分な教師データが得られないので、少量の初期学習データを学習した後、一部の新規文献を分類して仮ラベルをつける。それの一部に対して専門家が真のラベルを付与し、仮ラベル及びラベル訂正後のデータを用いて再学習する。分類器はSVMを用いる。
    専門家による真のラベルの付与作業の対象となるデータを選択するに当って、なるべくラベルが誤ったデータを対象とすべきなので、データのラベルと距離を用いて誤っている可能性の高いデータを選択する。原理は、誤っているデータに距離的に近いデータを選ぶ。また、距離は誤りの結果を反映して再定義させて学習する。(これで正しく理解しているか?)
    フロアからの指摘〜結果にかなりオーバーフィッティングが見られるのではないか?

  4. SVMを用いたタンパク質等差就職部位予測 佐々木健太(慶応大理工)
    タンパク質(や脂質)に付く糖鎖について、その付いている場所(糖鎖修飾部位)の予測をする。修飾部位近辺の配列情報(ウィンドウ配列情報、たとえば前後10残基)+タンパク質配列情報(2文字の出現頻度〜これにより二次構造がかなりの精度で予測できる)

  5. 細胞内局在情報(WoLF PSORTを利用)を入力として、SVMで学習。ある程度の予測が出来た。
  6. ミツバチ幼虫成長過程のタンパク質発現の非計量多次元尺度構成法による解析 宅地善 弘(中央大理工)
    非計量多次元尺度構成法の応用。

  7. GP (Genetic Programming) を用いたバイオマーカー発現量からの機能性食品の生理活性値推定 上口真由美(宮崎大)
    バイオマーカー発現量から生理活性値を推定するモデルを自動構築したい。但しモデルには非線形項を含む。
    モデルを四則演算式で表すものとし、式をトリーで表し、そのトリー上のリーフ(項)、演算ノード、サブトリー(部分式)を、GPを使って「交叉」「突然変異」を入れて最適化。

  8. E-Cell IDE: システムバイオロジーのためのモデリング・シミュレーション統合環境 櫻田剛史(慶應)
    今まで作られてきているシミュレータエンジンE-Cell3に対して、IDE環境を作っているという紹介。シミュレータとして有名どころはCoPaSi, Cell Designer, Cell Illustratorなどがあるが、有料か、使いづらいか。生物系の研究者でも気軽に使えるような環境を考えたい。E-Cell3はC++のコアエンジンと、Pythonによってラップされたフロントエンド。これに加えて、データ管理モジュールとGUIモジュールを追加。基本的な解析の流れができるようにしてある。
    興味を持ったのは、SBMLサポート(モデルのインポート・エクスポート機能)とそれによる研究者同士でのモデルの交換への期待、グリッドサポートによりGlobus Toolkitを介してバックエンドグリッド環境へシミュレーションジョブを放れる機能など。
    このIDEはベータ版を公開中だが、未完成の機能があり、もう数ヶ月でリリース候補版へ移行予定。

  9. 木の最適ラベリング問題とその進化系統樹への応用 柳橋史成(北大)
    葉にラベルを持つ気に対し、枝におけるラベルの差異が最小となるように、内部頂点にラベルを割当てる問題。インフルエンザウィルスの進化系統樹における仮想的分類単位の最適ラベリング問題に応用。
    ウィルスデータはNCBI Influenza Virus Resourceの中からH3M2亜型ウィルスのHAタンパクの遺伝子配列(3791本)を利用。データに付記されている採取国に基き、E-SE-Asia, Europe, N-America, Oceania, C-Asia, S-America, Africa, Middle-Eastの8つの地理ラベルを割当て、入力とした。近隣結合法を用いて進化系統樹を作成し、本研究の手法で内部ノードに地理ラベルを割当てる操作をした。

  10. 確率ブーリアンネットワークのアトラクター検出とブーリアンネットワークとのアトラクターの関係 林田守広(京都大学)
    ブーリアンネットワークモデルは、論理値ベクトル(=状態)間の遷移がブール式で与えられる遷移ネットワーク。生物応用としては遺伝子制御ネットワーク。ブーリアンネットワークでのサイクル(アトラクター)が注目される。アトラクターにはサイクル1のシングルトンとサイクル2以上のものがある。
    この研究では遷移が確率的に起こる確率ブーリアンネットワークを考え、その上でのアトラクターを同定する手法を考える。サイクル周期pのすべてのアトラクターを検出するアルゴリズムを提案。また、非確率的な場合のアトラクターと違って、確率的にサイクルから出てゆく経路があるので、その出と逆に入りとを考える考え方も可能。
  11. ペア確率多重文脈自由文法によるシュードノット付きRNA二次構造予測 田中翔(奈良先端大)
    RNAの二次構造予測では文脈自由文法による定式が考えられているが、単純なモデルではシュードノット(塩基対が交叉する場合)にうまく対応できない。そこで、確率多重文脈自由文法の利用を考える。文法の個別特化対応などを行わなくても、簡単に高い精度で予測できる。実際のデータとしてRfamデータベース中のファミリーを用いて有効性を示した。

  12. 未知の文字列集合を、それらを連結した文字列から推測する線形時間アルゴリズム
    未知の文字列集合Tがあり、それらを連結した文字列の集合Sがあるとき、SからTを推測する問題。一般にはNPハードだが工夫により線形時間で解を求める。たとえば多数のcDNAが得られている時その要素塩基列を求めたい。
    アルゴリズムは人工的に作成した例では非常に高精度に、かつ高速に動作したが、実際のデータでは塩基の変異などの問題がある。

おまけ:


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2009-03-08 (日) 15:06:41 (3146d)