[[ノート/ノート]]~
訪問者数 &counter();      最終更新 &lastmod();

***分子進化学の実際ネタ [#j0197649]
やりたいこと: 同じタンパクの、種の間の違いを比較する。
その距離に応じたクラスタリングを、たとえばClustral-Wを使って行う。~
結果が常識的な結論(系統樹)になって欲しい。~
以前に試みたときは、うまくならなかった。

理由として考えられること:同じ(名前の)タンパクを作る遺伝子が、
DNA上に複数存在して、それぞれが別々に進化する。~
種Aの遺伝子座Xと種Bの遺伝子座Yを比較すると、結構遠い可能性がある。~
もし種AとBが近くて、AとCが遠いとき、AのX、CのX、BのYを比較してクラスタリングすると、AXとCXはより近くて、AXとBYはより遠い、という結果が出ても不思議がない。

どの座が対応するかをちゃんと理解すればいいのだが、便宜的な方法としては、
先に相同性をチェックしてしまうのがよい。具体的には~
 * まず種Aの遺伝子Xを選ぶ~
 * A/Xに相同的に近い遺伝子を検索する BLAST~
 * その結果の中から異なる種B、C、Dのものを選ぶ~

なお、あまり変化のないタンパクを選んだ方がよかろう。たとえばhemoglobinとかmioglobinとか。

-[[Entrez:http://www.ncbi.nlm.nih.gov/Entrez/]], Protein
-search "human hemoglobin alpha" ⇒ This search in Gene shows 56 results, 
-リンク "HBA1 (Homo sapiens): hemoglobin, alpha 1" をクリック
-Related Squences/Proteins ⇒  UniProtKB/Swiss-Protをクリック
-http://www.uniprot.org/uniprot/P69905
で、P69905-1のシーケンスを選ぼう。
 MVLSPADKTN VKAAWGKVGA HAGEYGAEAL ERMFLSFPTT KTYFPHFDLS HGSAQVKGHG 
 KKVADALTNA VAHVDDMPNA LSALSDLHAH KLRVDPVNFK LLSHCLLVTL AAHLPAEFTP 
 AVHASLDKFL ASVSTVLTSK YR 
これをBLASTにかけよう。http://blast.ddbj.nig.ac.jp/top-j.html 「アミノ酸配列」(blast-p)を選択

結果を見ると、E値の小さいもの100はみんなHumanで、役立たなかった。

もっと他の動物から始めた方がよさそうだ。やり直し。
-Entrez, Protein
-search "rat hemoglobin alpha" ⇒ This search in Gene shows 45 results, 
-リンク "Hba-a2 (Rattus norvegicus): hemoglobin alpha, adult chain 2" をクリック
-Related Squences/Proteins ⇒  P01946.3 UniProtKB/Swiss-Protをクリック
-http://www.uniprot.org/uniprot/P01946でP01946-1のシーケンスを取出す。
 MVLSADDKTN IKNCWGKIGG HGGEYGEEAL QRMFAAFPTT KTYFSHIDVS PGSAQVKAHG 
 KKVADALAKA ADHVEDLPGA LSTLSDLHAH KLRVDPVNFK FLSHCLLVTL ACHHPGDFTP 
 AMHASLDKFL ASVSTVLTSK YR 
これをBLASTにかけてみる。http://blast.ddbj.nig.ac.jp/top-j.html 「アミノ酸配列」(blast-p)を選択、グラフィカルモードをOFFにして、サーチ数を増やす(1000)。

結果のリスト &ref(blast_p.txt,,結果のリスト);  &ref(blast_p.htm,,結果のHP);
これでXXXXの部分は何なのだろうか?

-IDname  score  Evalue  Name                nearby
-B1H216 233 4e-60 Rattus norvegicus (Rat). (==P01946)
-A4ZQC9 201 2e-50 Peromyscus maniculatus (Deer mouse) A4ZQ90 A4ZQA9 A4ZQC3 ...
-A8DUV3 198 8e-50 Mus musculus (Mouse). P01942 A8DUV1 ...
-P01950 194 1e-48 Suncus murinus (House shrew) (Musk shrew).スンクス(Suncus murinus)は食虫目トガリネズミ科ジネズミ亜科ジャコウネズミ属に属する小型哺乳動物http://www.f.u-tokyo.ac.jp/~matsuki/suncus.htm
-P18969 194 1e-48 Ailurus fulgens (Lesser panda) (Red panda).
-P11755 193 4e-48 Tadarida brasiliensis (Brazilian free-tailed bat).
-P14387 193 Antrozous pallidus (Pallid bat).
-P01938 192 5e-48Loris tardigradus (Slender loris). ホソロリス. 霊長類(サル目)曲鼻猿亜目 http://ja.wikipedia.org/wiki/%E3%83%AD%E3%83%AA%E3%82%B9%E7%A7%91 
-P68236 192 5e-48 Ursus thibetanus (Asiatic black bear).
-P68237 192 5e-48 Ursus malayanus (Malayan sun bear).
-P68235 192 5e-48 Ursus maritimus (Polar bear) 
-P18970 191 1e-47 Ailuropoda melanoleuca (Giant panda).
-Q28743 191 2e-47 Ovis aries (Sheep).
-P15163 191 2e-47 Leptonychotes weddelli (Weddell seal).
-P01928 190 3e-47 Cebus apella. フサオマキザル
-P60530 189 5e-47 Canis latrans (Coyote).
-Q9XSN3 189 5e-47  Equus burchelli (Plains zebra) (Equus quagga).
-P19015 189 6e-47 Hippopotamus amphibius (Hippopotamus).
-P01945 189 6e-47 Mesocricetus auratus (Golden hamster).
-P09908 189 7e-47 Phoca vitulina (Harbor seal).
-P01958 188 1e-46 Equus caballus (Horse).
-P07405 188 1e-46 Felis silvestris catus (Cat).
-P18975 188 1e-46 Panthera leo (Lion).
-P01959 187 2e-46 Equus asinus (Donkey).
-P68240 187 2e-46 Ovis aries (Sheep). Hemoglobin subunit alpha-1/2
-P69907 186 6e-46 Pan troglodytes (Chimpanzee).
-P69905 186 6e-46 Homo sapiens (Human). P01922; Q3MIF5; Q96KF1; Q9NYR7;
-P01966 185 8e-46 Bos taurus (Bovine). ウシ
-P63110 185 8e-46 Panthera pardus orientalis (Amur leopard).
-P06635 184 1e-45 Pongo pygmaeus (Bornean orangutan).
-P01965 183 3e-45 Sus scrofa (Pig).
-P01923 182 5e-45 Gorilla gorilla gorilla (Lowland gorilla).
-P18978 180 3e-44 Tursiops truncatus (Atlantic bottle-nosed dolphin).
-P01955 177 3e-43 Loxodonta africana (African elephant).
-P08258 176 7e-43 Mandrillus sphinx (Mandrill) (Papio sphinx).
-P01935 174 1e-42 Pan troglodytes (Chimpanzee).
-P01998 169 4e-41 Crocodylus niloticus (Nile crocodile) (African crocodile).
-P01975 167 2e-40 Macropus giganteus (Eastern gray kangaroo).
-P01986 167 2e-40 Anas platyrhynchos (Domestic duck).
-P18971 167 2e-40 Balaenoptera acutorostrata (Minke whale) (Lesser rorqual).
-P01999 165 8e-40 Alligator mississippiensis (American alligator).
-P01992 162 7e-39 Cygnus olor (Mute swan).
-P01980 160 2e-38 Aptenodytes forsteri (Emperor penguin).
-P01994 160 3e-38 Gallus gallus (Chicken).
-P21871 158 9e-38 Columba livia (Domestic pigeon).
-P13273 153 3e-36 Chrysemys picta bellii (Western painted turtle).
-P83135 150 2e-35 Geochelone nigra (Galapagos giant tortoise).
-P83135 150 2e-35 Geochelone nigra (Galapagos giant tortoise).

これらから選んで、FASTA配列ファイルを並べた入力を作り、clustalWに与える
-入力ファイル &ref(hemoglobin_fasta.txt,,入力ファイル);
-[[ddbj clustalW:http://clustalw.ddbj.nig.ac.jp/top-j.html]]
-clustalWで、TypeをProteinとした上で、TreeのOutputTreeをphylip distanceにする。これによってdistance matrixが出力に含まれるようになる。これをしないとtreeのグラフだけになる。
-出力ファイル &ref(hemoglobin.htm,,リスティング); &ref(hemoglobin.ph,,query.phファイル);  &ref(hemoglobin.dst,,距離マトリックス);
-treeView  ダウンロードはhttp://taxonomy.zoology.gla.ac.uk/rod/treeview.html
-treeViewで見た結果 &ref(hemoglobin.wmf,,Windowsメタファイル); &ref(hemoglobin.png);

★その2★

違うタンパクでもう1度試そう。myoglobinはどうか?
-Entrez, Protein
-search "rat myoglobin" ⇒ 16項目。いちばんそれらしいのを選ぼう。
-リンク "Myoglobin [Rattus norvegicus]" をクリック
-シーケンスを取り出す
 mglsdgewqm vlniwgkveg dlaghgqevl islfkahpet lekfdkfknl kseeemksse
 dlkkhgctvl talgtilkkk gqhaaeiqpl aqshatkhki pvkylefise viiqvlkkry
 sgdfgadaqg amskalelfr ndiaakykel gfqg
これをBLASTにかけてみる。http://blast.ddbj.nig.ac.jp/top-j.html 「アミノ酸配列」(blast-p)を選択、グラフィカルモードをOFFにして、サーチ数を増やす(1000)。

結果のリスト &ref(myoglobin_blast_p.txt,,結果のリスト);  &ref(myoglobin_blast_p.htm,,結果のHP);

ちなみに、cytochrome bやcで試みたが、あまりデータが揃わなかった。~
cytochromeの結果のリスト &ref(cytochrome_blast_p.txt,,結果のリスト);  &ref(cytochrome_blast_p.htm,,結果のHP);

myoglobinのリストから選ぶが、hemoglobinの時となるべく同じ動物にしたい。どうしても揃わないときはあきらめよう。

FASTA配列ファイルを並べた入力を作り、clustalWに与える
-入力ファイル &ref(myoglobin_fasta.txt,,入力ファイル);
-[[ddbj clustalW:http://clustalw.ddbj.nig.ac.jp/top-j.html]]
-clustalWで、TypeをProteinとした上で、TreeのOutputTreeをphylip distanceにする。これによってdistance matrixが出力に含まれるようになる。これをしないとtreeのグラフだけになる。
-出力ファイル &ref(myoglobin.htm,,リスティング); &ref(myoglobin.ph,,query.phファイル);  &ref(myoglobin.dst,,距離マトリックス);
-treeViewで見た結果 &ref(myoglobin.wmf,,Windowsメタファイル); &ref(myoglobin.png);


★別のタンパク質 リゾチーム(lysozyme) ではどうか★

ヒトから始める。
 >human-P61626
     MKALIVLGLV LLSVTVQGKV FERCELARTL KRLGMDGYRG ISLANWMCLA KWESGYNTRA
     TNYNAGDRST DYGIFQINSR YWCNDGKTPG AVNACHLSCS ALLQDNIADA VACAKRVVRD
     PQGIRAWVAW RNRCQNRDVR QYVQGCGV

BLAST-PSIで相同検索してみる。
 Homo sapiens (Human) P61626|LYSC_HUMAN (スタート)
 Macaca mulatta(アカゲザル) P61633|LYSC_CERAE
 Papio anubis (Olive baboon)  P61629|LYSC_PAPAN
 Pan troglodytes (Chimpanzee)  P61628|LYSC_PANTR
 Pongo pygmaeus (Bornean orangutan) P79239|LYSC_PONPY
 Gorilla gorilla gorilla (Lowland gorilla) P79179|LYSC_GORGO
 Coturnix coturnix japonica (Japanese quail)(ニホンウズラ) P00701|LYSC_COTJA
 Gallus gallus (Chicken) P00698|LYSC_CHICK
 Anas platyrhynchos (Domestic duck) P00705|LYSC1_ANAPL
 Mus musculus (Mouse) Q3TXG2|Q3TXG2_MOUSE
 Ovis aries (Sheep) A4Z8Q3|A4Z8Q3_SHEEP
 Meleagris gallopavo (Common turkey) P00703|LYSC_MELGA
 Rattus norvegicus (Rat) P00697|LYSC1_RAT
 Bos taurus (Bovine) P80189|LYSCN_BOVIN
 Sus scrofa (Pig)  P12069|LYSC3_PIG
 Paralichthys olivaceus (Japanese flounder)(ヒラメ) Q9DD65|LYSC_PAROL
 Ovis aries (Sheep) P17607|LYSC1_SHEEP
 Japanese pufferfish (Fugu) P61944|LYSC_FUGRU
 Oryctolagus cuniculus (Rabbit) P16973|LYSC_RABIT
 Halichoerus grypus (Gray seal) Q659U5|LYSC_HALGR
 Oncorhynchus mykiss (Rainbow trout) P11941|LYSC2_ONCMY
 Canis familiaris (Dog1) P81708|LYSC1_CANFA
 Canis familiaris (Dog2) P81709|LYSC2_CANFA
 Camelus dromedarius (Dromedary) (Arabian camel) P37712|LYSC_CAMDR
 Chelonia mydas (Green sea-turtle) P84492|LYSC_CHEMY
 Columba livia (Domestic pigeon)  P00708|LYSC_COLLI
 Bombyx mori (Silk moth) P48816|LYS_BOMMO
 Anopheles gambiae (African malaria mosquito) Q17005|LYSC1_ANOGA
 Danio rerio (Zebrafish) Q90YS5|Q90YS5_DANRE
 Cyprinus carpio (Common carp) Q9IBG5|Q9IBG5_CYPCA

lysozime-CはAlpha-lactalbuminと相同性が高い?? 〜 Blast検索で混ざって出てくる
 α-lactalbumin is an important whey protein in cow's milk (~1 g/l), and
 is also present in the milk of many other mammalian species.

FASTA配列ファイルを並べた入力を作り、clustalWに与える
-入力ファイル &ref(lysozime_fasta.txt,,入力ファイル);
-[[ddbj clustalW:http://clustalw.ddbj.nig.ac.jp/top-j.html]]
-clustalWで、TypeをProteinとした上で、TreeのOutputTreeをphylip distanceにする。これによってdistance matrixが出力に含まれるようになる。これをしないとtreeのグラフだけになる。
-出力ファイル &ref(lysozime.htm,,リスティング); &ref(lysozime.ph,,query.phファイル);  &ref(lysozime.dst,,距離マトリックス);
-treeViewで見た結果 &ref(lysozime.wmf,,Windowsメタファイル); &ref(lysozime.png);

***PHYLIPについて [#m257d5d2]
Phylipパッケージは
[[Washington大学のPHYLIPホームページ:http://evolution.genetics.washington.edu/phylip/phylip.html]]~
[[同 入門解説:http://evolution.genetics.washington.edu/phylip/doc/main.html]]~
[[同 トリー記述ファイルの形式:http://evolution.genetics.washington.edu/phylip/doc/main.html#treefile]]

Phylipパッケージは~
-[[Washington大学のPHYLIPホームページ:http://evolution.genetics.washington.edu/phylip/phylip.html]]~
-[[同 入門解説:http://evolution.genetics.washington.edu/phylip/doc/main.html]]~
-[[同 トリー記述ファイルの形式:http://evolution.genetics.washington.edu/phylip/doc/main.html#treefile]]~
要するに、リスト形式~
 (A,(B,(C,D)),(E,F));
であり、距離が入る場合は、たとえば
 ((cat:47.14069,
   (weasel:18.87953,
    ((dog:25.46154,(raccoon:19.19959,bear:6.80041):0.84600):3.87382,
     (sea_lion:11.99700,seal:12.00300):7.52973
    ):2.09461
   ):20.59201
  ):25.0,monkey:75.85931); 
である。

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS