山内のサイト

菅野リストの処理

岸本先生のコメント 2019-10-18

まず最初にしたら良いなと思うのが、菅野さんのリストで

TemperatureRange  に Thermophilic, Hyperthermopohilic, Mesophilic と記載されている菌を対象とするという物です。 ここに記載があるのは、データベースか論文できちんと増殖温度から分類が記載されている物になり、比較解析したときにデータの信憑性が高くなると思います。 この選択で、51種類になります。

TemperatureRangeに加えて、Optimal temp (℃) の記載があるのが、38種類になります。

最後にですが、私が選択した18種類を黄色にセルで色を付けてみました。 理由は、種内(近縁種)で mesophilic と thermophilic があり、種内で自然界で再高温進化した可能性が高い菌を含むグループに注目しました。 と、非常に著名な高温菌を追加してリストにしてみました。

ということで、この19種類についてGenBankファイルをダウンロードする。

このうち、

Parageobacillus toebii60ThermophilicBDAQ00000000.1
Geobacillus jurassicus60-65ThermophilicBCQG00000000.1
Thermotoga profunda65Thermophilic AP014510.1
Thermotoga caldifontis75Thermophilic AP014509.1

については、GBファイルにCDSフィーチャーが付いていないので対象から外した。

また、GBファイルでは無くGBFF形式のファイルがGZ圧縮されたものがダウンロードできる BAWO01.1.gbff BCQG01.1.gbff BDAQ01.1.gbff JPYA01.1.gbff については、GZを解凍した後、GBFF形式のまま処理することにする。(次のセクションで処理の互換についてテスト)

gbff形式のファイルがbiopythonのgenbank入力で解読できるか

import pandas as pd
from ReadCDSwithGene import ReadCDS

def main():
    gbfile = 'heat/BFAG01.1.gbff'
    CDS = ReadCDS(gbfile)
    print(CDS.head())
    print(CDS.tail(10))
        
if __name__ == '__main__':
    main()
    print('complete')

で、出力は

    pos   len strand     locus_tag gene  \
0   431  1878      1  DAERI_010001        
1  2342   783      1  DAERI_010002        
2  3145  2448     -1  DAERI_010003        
3  5579   480      1  DAERI_010004        
4  6060   738      1  DAERI_010005        

                                             product  \
0                               hypothetical protein   
1  carboxypeptidase regulatory-like domain-contai...   
2  serine/threonine-protein kinase transcriptiona...   
3                               hypothetical protein   
4           transcriptional activator domain protein   

                                                 seq  \
0  (A, T, G, A, A, C, C, G, A, C, C, C, C, T, G, ...   
1  (A, T, G, A, A, C, A, A, G, C, G, T, T, C, C, ...   
2  (A, T, G, G, G, C, G, G, G, T, T, C, A, T, G, ...   
3  (A, T, G, A, A, C, C, C, G, C, C, C, A, T, T, ...   
4  (A, T, G, A, C, G, C, A, G, G, A, C, A, C, G, ...   

                                               AAseq  
0  [MNRPLTASTLLLTALLSACTTGGSTPGPTVKTIDLSPATASVAVG...  
1  [MNKRSLLAAALSLLLAGCTTGADGTGRPPTPAPNPAPRPAQAHTM...  
2  [MGGFMVHLGSRGLFVPSDPQLREGALAAHPWFGGGAASPQWGETR...  
3  [MNPPIPAPLRRVTPENTYALRADRFSVLLGGEDTGGRLAVIDLCA...  
4  [MTQDTVTGAASWTVQVLGQAGLRGPDGALRPLERKAAALLAYLAV...  

ということで、読めるらしい。

比較処理の実際

トップ200の抽出

トップ200とEssential Genes (e.g. Goodall)との比較

1)トップ200と、EssentialGenesを比較し、EssentialGenesに含まれないでかつトップ200に含まれるものを抽出する。

2)1)のうちで、すべての好熱菌に共通なものを探す。(おそらくproduct名の一致でフィルタリングする必要があるだろう)

進化比較のためのribosomal RNA S16の抽出

同じリストから、GBのフィーチャー中のrRNAのうちのribosomal RNA A16のシーケンスを抽出してみる。


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2019-11-04 (月) 16:00:40 (13d)