山内の演習のページ
訪問者数 1344 最終更新 2011-09-13 (火) 12:53:56
2012年度(2013年3月卒業予定)卒論生の募集 †
卒論募集時に配布するメモ
2012年度の卒論生を、次の要領で募集します。
- 山内研では、自分から積極的に挑戦する、やる気のある学生を求めます。
- ドラ型
ドラえもんのポケットのように「XXXができたらいいな」という(世の中で未達成の)夢を提案し、実現に挑戦するタイプのテーマ。 学生からの提案を受けて、山内と話し合って卒業研究として何ができるかを決めましょう。 例えば
- 文献検索でうまく欲しいものを見つける。 例えば、文法知識を用いたマッチングや共起情報を用いたマッチングなど)
- 学生レポートのコピペ検出 (山内の夢「あったらいいな」プロジェクト)
- チャレ型
世の中で挑戦されている(最近挑戦され始めている)夢を、自分でも挑戦するタイプのテーマ。例えば
- a) バイオチャレ バイオインフォマティクスの課題のGPU/cudaによる並列計算(一部経験あり)
タンパクの構造シミュレーション、配列のアラインメント、遺伝的アルゴリズムなどの並列化
- b) 分類チャレ 大量の測定データを、高速にクラスタ化して分類する(生物分子科の「あったらいいな」)
- c) パイチャレ パイ(円周率)のGPU/cudaによる並列計算(研究室では未着手)
- 最近(08〜11年)の卒論では、つぎのようなテーマに挑戦しています。
- 高度な文献検索(テキストマイニング)
- PubMedの学術論文アブストラクトのデータから、研究者にとって意味のある情報を抽出しようとしている。具体的には、関連する論文を検索する、検索の要件指定として従来より柔軟な内容を指定できるようにする、など。09年に文法知識の活用法について検討。
- また、反応の連鎖などを追いかける技術を確立し、そこから更に無駄のない検索をする技術を確立したい。(未着手)
- 学生レポートの盗作(剽窃)を検出しようとしている。09年には2つのレポートや論文の類似性を比較する技術を検討したが、未だ実用するには検討が不十分である。10年には、いくつか考えられる類似性比較の方法を比較検討、ネットからのコピペを検出する手法を検討した。11年は、ネットからのコピペ検出を更に実用的にする研究中。
- 並列処理による高速化
- GPGPU(グラフィックプロセッサ)を使った、(超?)並列アルゴリズムを
いろいろと試してみる。そのときの共通の問題点を抽出したり、ツールを作成したりする。
08年にはグラフィック処理(レンダリング)を題材にしてGPGPUの基本を学んだ。09年にはCellプロセッサを用いて遺伝的アルゴリズム(GA)や遺伝子配列アラインメント問題の並列処理を追求しているが、Cellは並列数が少ないことと当面linuxサポートが打ち切られたので中断する。
10年にはGPGPUに戻り、初歩的な計算問題での高速化を試してみた。11年には実用規模の問題(タンパク構造計算)での並列化を試みている。
- 直列型アルゴリズムの並列化チャレンジ 11年に、配列アラインメントのDPアルゴリズムの並列化、遺伝的アルゴリズムの並列化など、原理的に難しい問題に挑戦している。
- 学内の他の研究者が必要とするツールを構築し、使ってもらうこと。
- いろいろな領域の研究者と交流し、情報処理上の問題を発見し、それを解決する。
具体的には、09年度は比較的単純なフローサイトメトリ測定結果のバイナリデータの処理を行ったが、最近になって「マルチクラスタ解析」が問題になっている(卒論としては未着手)。また、生物動態シミュレーション(の並列化)や動画像処理(フレーム抜き、図形追跡、図形面積変化追跡)も出ているが着手していない。
- 必要なスキルなど
- プログラミングが必須になります。プログラミングが嫌いだと難しいが、好きなら今できなくても半年もあればできるようになりますので、特訓します。言語はいずれは複数マスターすることを勧めます。研究室では主にC言語(C++を含む)とPythonとPHPと統計パッケージRのプログラミング言語(名称不明)が飛び交います。
- 論理的な(理屈っぽい)ものの考え方が要求されます。なぜその問題は挑戦に値するのか、なぜそのやり方・解決法を選ぶのか、なぜその結果は妥当だと思うのか、など、「なぜ」を問い続ける態度が必要です。他人に指摘されなくても、自分で自分の思考を整理し突き詰めてゆく習慣を付けてください。
- 常に挑戦し、常に明るく陽気で、常に外向きであることを要求します。社会で生きていくためには、これらは必須です。研究室も然りです。自分を「この程度」と思ったら、それ以上大きくなれません。まだ上に上れる・もっと飛びついてやる・チャンスをものにしてもっと大きくなる、と思うこと、大きな声で挨拶しいつもにこにこ・はっきりものを言うこと、外部の研究会などに積極的に出て行っていろいろな人と交流すること、これらを要求します。
- 英語の資料を読む力がある程度必要です。山内研では英語の資料がどうしても出てきます。翻訳されていないような新しい技術を使う時、英語で資料を読めることが必要です。本格的に問題に取り組むときまでにはある程度読めることが望まれます。これも、やる気さえあれば、半年もあれば一通りできるようになるはずです。
- できれば、いろいろなことに興味を持ってください。技術・文化・宗教・法制・人間・プロジェクトマネージメント・コンピュータサイエンス・生物、なんでも。