[[Pythonバイオ]] [[Pythonバイオ/ツール]]~
&counter();   &lastmod();~

*VCFフォーマットとBCFフォーマット [#i268f017]

参照
-[[VCF / BCFの高速なパーサ cyvcf2:http://kazumaxneo.hatenablog.com/entry/2018/03/26/002419]]
-[[WGSデータの参照ゲノム配列へのマッピング (5): VCF fileの生成、アノテーション:http://hashiyuki.hatenablog.com/entry/2015/08/06/143016]]
-[[VCF and BCF Formatted files:https://biojulia.net/GeneticVariation.jl/v0.1.0/io/vcf-bcf/]]

-[[samtools 使い方 mpileup ( calling SNPs ) & annotation:http://bioinfo-dojo.net/2016/07/13/samtools_calling_snps/]]
-[[samtoolsでvariant call - Qiita:https://qiita.com/motthy/items/38951f127dce26b22ce3]]
-[[バリアントコール結果のVCFフォーマット - macでインフォマティクス:http://kazumaxneo.hatenablog.com/entry/2017/06/02/140208]]
-[[SAMフォーマット | SAM ファイルの取り扱い方:https://bi.biopapyrus.jp/rnaseq/mapping/sam.html]]
-[[samtoolsでvariant call - Qiita:https://qiita.com/motthy/items/38951f127dce26b22ce3]]

Samtoolsのcallingについての、元ラボの説明 ⇒ [[Samtools:http://www.htslib.org/doc/#howtos]] の Calling and analysis を見よ~
具体的には当該箇所に曰く
-The original mpileup calling algorithm plus mathematical notes (mpileup/bcftools call -c):
--Li H, A statistical framework for SNP calling, mutation discovery, association mapping and population genetical parameter estimation from sequencing data, Bioinformatics (2011) 27(21) 2987-93. [[[21903627:http://www.ncbi.nlm.nih.gov/pubmed/21903627]]]
--Li H, Mathematical Notes on SAMtools Algorithms (2010) [[[link:http://www.broadinstitute.org/gatk/media/docs/Samtools.pdf]]]
-Mathematical notes for the updated multiallelic calling model (mpileup/bcftools call -m):
--Danecek P, Schiffels S, and Durbin R, Multiallelic calling model in bcftools (-m) (2014) [[[link:http://samtools.github.io/bcftools/call-m.pdf]]]
-Hidden Markov model for detecting runs of homozygosity (bcftools roh):
--Narasimhan V, Danecek P, Scally A, Xue Y, Tyler-Smith C, and Durbin R, BCFtools/RoH: a hidden Markov model approach for detecting autozygosity from next-generation sequencing data, Bioinformatics (2016) 32(11) 1749-51 [[[26826718:http://www.ncbi.nlm.nih.gov/pubmed/26826718]]]
-Copy number variation/aneuploidy calling from microarray data (bcftools cnv/bcftools polysomy):
--Danecek P, McCarthy SA, HipSci Consortium, and Durbin R, A Method for Checking Genomic Integrity in Cultured Cell Lines from SNP Genotyping Data, PLoS One (2016) 11(5) e0155014 [[[27176002:http://www.ncbi.nlm.nih.gov/pubmed/27176002]]]
-Haplotype-aware calling of variant consequences (bcftools csq):
--Danecek P, McCarthy SA, BCFtools/csq: Haplotype-aware variant consequences, Bioinformatics (2017) 33(13) 2037-39 [[[28205675:http://www.ncbi.nlm.nih.gov/pubmed/28205675]]]

-[[SAMtools/BCFtools/HTSlib - Downloads:http://www.htslib.org/download/]]
-[[samtools/samtools: Tools (written in C using htslib) for manipulating next-generation sequencing data:https://github.com/samtools/samtools]]
-[[bcftools:https://samtools.github.io/bcftools/bcftools.html]]

-[[SAMv1.pdf:https://samtools.github.io/hts-specs/SAMv1.pdf]]
-[[VCFv4.2.pdf:https://samtools.github.io/hts-specs/VCFv4.2.pdf]]

-(本家)SAMtools mpileupの使い方、SNPs/INDELs callingについて、mpileupのパラメータチューニング、VCF/BCF formatの意味 ⇒ [[Multisample SNP calling:http://samtools.sourceforge.net/mpileup.shtml]]

-(本家)[Variant Calling:http://samtools.github.io/bcftools/howtos/variant-calling.html]] ⇒ bcftools mpileup | bcftools call のパターンを推し。



**SAMフォーマット [#m96d1303]
-[[SAMv1.pdf:https://samtools.github.io/hts-specs/SAMv1.pdf]]

-[[crusade1096.web.fc2.com/sam.html:http://crusade1096.web.fc2.com/sam.html]]
-[[SAMフォーマット | SAM ファイルの取り扱い方:https://bi.biopapyrus.jp/rnaseq/mapping/sam.html]]

ヘッダーセクション 〜 一時忘れる~
アライメントセクション 〜 リードが1行ずつ
|Col |Field |Type |Regexp/Range |Brief description|
|1 |QNAME |String |[!-?A-~]{1,254} |Query template NAME|
|2 |FLAG |Int |[0, 2^16 − 1] |bitwise FLAG|
|3 |RNAME |String |\*[:rname:∧*=][:rname:]* |Reference sequence NAME|
|4 |POS |Int |[0, 2^31 − 1] |1-based leftmost mapping POSition|
|5 |MAPQ |Int |[0, 2^8 − 1] |MAPping Quality|
|6 |CIGAR |String |\*([0-9]+[MIDNSHPX=])+ |CIGAR string|
|7 |RNEXT |String |\*=[:rname:∧*=][:rname:]* |Reference name of the mate/next read|
|8 |PNEXT |Int |[0, 2^31 − 1] |Position of the mate/next read|
|9 |TLEN |Int |[−2^31 + 1, 2^31 − 1] |observed Template LENgth|
|10 |SEQ |String |\*[A-Za-z=.]+ |segment SEQuence|
|11 |QUAL |String |[!-~]+ |ASCII of Phred-scaled base QUALity+33|

BAMファイルはSAMファイルと同等内容で、形式がバイナリ(非文字)なだけ。量が減る。

pythonでSAM/BAMファイルを扱うライブラリ pysam
-[[pysam | Python で SAM/BAM ファイルを取り扱う:https://bi.biopapyrus.jp/python/module/pysam.html]]
-[[pysam: htslib interface for python — pysam 0.15.0 documentation:ttps://pysam.readthedocs.io/en/latest/]]
-[[GitHub - pysam-developers/pysam: Pysam is a Python module for reading and manipulating SAM/BAM/VCF/BCF files. It's a lightweight wrapper of the htslib C-API, the same one that powers samtools, bcftools, and tabix.:https://github.com/pysam-developers/pysam]]
-[[pysam はwindowsにインストールできない - Qiita:https://qiita.com/chaoi/items/6d7702cd70430610f844]] (Cのhtslibなどを使っているかららしい)⇒ [[bamnostic:https://github.com/betteridiot/bamnostic]]でBAMだけは読めるようにしたらしい。

ソートとインデックス(bai)

**VCFファイル [#n4b792aa]
-[[VCFv4.2.pdf:https://samtools.github.io/hts-specs/VCFv4.2.pdf]]
-[[バリアントコール結果のVCFフォーマット - macでインフォマティクス:http://kazumaxneo.hatenablog.com/entry/2017/06/02/140208]]

-[[GATK | Doc #1268 | What is a VCF and how should I interpret it?:https://software.broadinstitute.org/gatk/documentation/article.php?id=1268]]はGATKのドキュメントで、よく説明されている

-[[VCFtools:

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS