[[山内のサイト]]

**菅野リストの処理 [#y59cb6c2]

-菅野リストのRefSeq欄かINSDC欄から、リンク先をオープンする
-もしGenomeページ (CP029494.1 など)なら、Display をfull sequenceを含むに設定した後、SendToでファイルにダウンロードする。ファイル名をCP029494.gbとする。
-もしContigページ (NZ_NHMK00000000.1) なら、下の方のWGSのリンク先「NHMK01000001-NHMK01000040」を広げて、タブからDownloadを選んで開く。その先に含まれるGenBankのgbff.gzファイル 「GenBank:NHMK01.1.gbff.gz」をダウンロードする。この中にはcontigごとのgb形式データが複数続けて//で区切られて含まれている。

***岸本先生のコメント 2019-10-18 [#w5baed3d]
>まず最初にしたら良いなと思うのが、菅野さんのリストで

>TemperatureRange  に Thermophilic, Hyperthermopohilic, Mesophilic と記載されている菌を対象とするという物です。
ここに記載があるのは、データベースか論文できちんと増殖温度から分類が記載されている物になり、比較解析したときにデータの信憑性が高くなると思います。
この選択で、51種類になります。

>TemperatureRangeに加えて、Optimal temp (℃) の記載があるのが、38種類になります。

>最後にですが、私が選択した18種類を黄色にセルで色を付けてみました。
理由は、種内(近縁種)で mesophilic と thermophilic があり、種内で自然界で再高温進化した可能性が高い菌を含むグループに注目しました。
と、非常に著名な高温菌を追加してリストにしてみました。

ということで、この19種類についてGenBankファイルをダウンロードする。

このうち、
|Parageobacillus toebii |60    |Thermophilic   | BDAQ00000000.1|
|Geobacillus jurassicus |60-65 |Thermophilic   | BCQG00000000.1|
|Thermotoga profunda    |65    |Thermophilic  | AP014510.1|
|Thermotoga caldifontis |75    |Thermophilic  | AP014509.1|
については、GBファイルにCDSフィーチャーが付いていないので対象から外した。

また、GBファイルでは無くGBFF形式のファイルがGZ圧縮されたものがダウンロードできる
BAWO01.1.gbff  BCQG01.1.gbff  BDAQ01.1.gbff  JPYA01.1.gbff
については、GZを解凍した後、GBFF形式のまま処理することにする。(次のセクションで処理の互換についてテスト)

***gbff形式のファイルがbiopythonのgenbank入力で解読できるか [#a2f27fd6]

 import pandas as pd
 from ReadCDSwithGene import ReadCDS
 
 def main():
     gbfile = 'heat/BFAG01.1.gbff'
     CDS = ReadCDS(gbfile)
     print(CDS.head())
     print(CDS.tail(10))
         
 if __name__ == '__main__':
     main()
     print('complete')

で、出力は
     pos   len strand     locus_tag gene  \
 0   431  1878      1  DAERI_010001        
 1  2342   783      1  DAERI_010002        
 2  3145  2448     -1  DAERI_010003        
 3  5579   480      1  DAERI_010004        
 4  6060   738      1  DAERI_010005        
 
                                              product  \
 0                               hypothetical protein   
 1  carboxypeptidase regulatory-like domain-contai...   
 2  serine/threonine-protein kinase transcriptiona...   
 3                               hypothetical protein   
 4           transcriptional activator domain protein   
 
                                                  seq  \
 0  (A, T, G, A, A, C, C, G, A, C, C, C, C, T, G, ...   
 1  (A, T, G, A, A, C, A, A, G, C, G, T, T, C, C, ...   
 2  (A, T, G, G, G, C, G, G, G, T, T, C, A, T, G, ...   
 3  (A, T, G, A, A, C, C, C, G, C, C, C, A, T, T, ...   
 4  (A, T, G, A, C, G, C, A, G, G, A, C, A, C, G, ...   
 
                                                AAseq  
 0  [MNRPLTASTLLLTALLSACTTGGSTPGPTVKTIDLSPATASVAVG...  
 1  [MNKRSLLAAALSLLLAGCTTGADGTGRPPTPAPNPAPRPAQAHTM...  
 2  [MGGFMVHLGSRGLFVPSDPQLREGALAAHPWFGGGAASPQWGETR...  
 3  [MNPPIPAPLRRVTPENTYALRADRFSVLLGGEDTGGRLAVIDLCA...  
 4  [MTQDTVTGAASWTVQVLGQAGLRGPDGALRPLERKAAALLAYLAV...  

ということで、読めるらしい。

***比較処理の実際 [#ee054ce3]


***トップ200の抽出 [#q169a2b1]

***トップ200とEssential Genes (e.g. Goodall)との比較 [#y651defd]
1)トップ200と、EssentialGenesを比較し、EssentialGenesに含まれないでかつトップ200に含まれるものを抽出する。

2)1)のうちで、すべての好熱菌に共通なものを探す。(おそらくproduct名の一致でフィルタリングする必要があるだろう)




***進化比較のためのribosomal RNA S16の抽出 [#e092fa00]
同じリストから、GBのフィーチャー中のrRNAのうちのribosomal RNA A16のシーケンスを抽出してみる。

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS