【n50】高通量测序基因组拼接技术指标中的ContigN50和Scaffold_数学_伪伪冻听0081
编辑: admin 2017-13-06
-
4
Contig N50:Reads拼接后会获得一些不同长度的Contigs.将所有的Contig长度相加,能获得一个Contig总长度.然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,contig 3...………Contig 25.将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50.举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准.
Scaffold N50:Scaffold N50与Contig N50的定义类似.Contigs拼接组装获得一些不同长度的Scaffolds.将所有的Scaffold长度相加,能获得一个Scaffold总长度.然后将所有的Scaffolds
按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25.将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上
的Scaffold长度即为Scaffold N50.举例:Scaffold 1+Scaffold 2+ Scaffold3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50.Scaffold N50可以作为基因组拼接
的结果好坏的一个判断标准.
其他同学给出的参考思路:
对一条染色体进行测序,将测序得到的reads进行拼接,能够完全拼接起来,中间没有gap的序列称为contig。 如果中间有gap,但是gap的 长度我们知道,这样的序列就叫做scaffold。
将测序得到的所有contig和scaffold从大到小进行排列,当其长度达到染色体长度的一半时,这一条contig和scaffold的长度就叫做Contig N50和Scaffold N...
互助这道作业题的同学还参与了下面的作业题
题1: 高通量测序中准确度Q20,Q30表示什么[数学科目]
高通量测序中,每测一个碱基会给出一个相应的质量值,这个质量值是衡量测序准确度的.碱基的质量值13,错误率为5%,20的错误率为1%,30的错误率为0.1%.Q20与Q30则表示质量值大于等于20或30的碱基所占百分比.比如一共测了1G的数据量,其中有0.9G的碱基质量值大于或等于20,那么Q20则为90%.
题2: 高通量测序基因组拼接技术指标中的ContigN50和Scaffold[数学科目]
给你举个例子,比如一个基因组大小是1M,测序得到若干条reads,这些reads进行拼接,如果完全可以拼接起来,中间没有gap的序列称为contig,即连续的意思.如果中间有gap,但是可以知道gap的 长度,这样的序列就叫做scaffold,即脚手架(非连续)的意思.
然后把contig 和 scaffold 从长到短进行排列,然后相加,当恰好加到1M的50%,也就是500k的时候 ,那一条contig 或者scaffold 的长度就叫做Contig N50和Scaffold N50.很明显这个数值越大说明组装的质量越好.
题3: 生物信息中的readscontigscaffoldN50具体点测序深度[英语科目]
Contigs and scaffolds
Contig The result of joining an overlapping collection of sequences or clones.
Scaffold The result of connecting contigs by linking information from paired-end reads from plasmids,paired-end reads from BACs,known messenger RNAs or other sources.The contigs in a scaffold are ordered and oriented with respect to one another.
Fingerprint clone contigs Contigs produced by joining clones inferred to overlap on the basis of their restriction digest fingerprints.
Sequenced-clone layout Assignment of sequenced clones to the physical map of fingerprint clone contigs.
Initial sequence contigs Contigs produced by merging overlapping sequence reads obtained from a single clone,in a process called sequence assembly.
Merged sequence contigs Contigs produced by taking the initial sequence contigs contained in overlapping clones and merging those found to overlap.These are also referred to simply as 'sequence contigs' where no confusion will result.
Sequence-contig scaffolds Scaffolds produced by connecting sequence contigs on the basis of linking information.
Sequenced-clone contigs Contigs produced by merging overlapping sequenced clones.
Sequenced-clone-contig scaffolds Scaffolds produced by joining sequenced-clone contigs on the basis of linking information.
Draft genome sequence The sequence produced by combining the information from the individual sequenced clones (by creating merged sequence contigs and then employing linking information to create scaffolds) and positioning the sequence along the physical map of the chromosomes.
N50 length A measure of the contig length (or scaffold length) containing a 'typical' nucleotide.Specifically,it is the maximum length L such that 50% of all nucleotides lie in contigs (or scaffolds) of size at least L.
题4: 【什么是普通的基因测序,它和高通量测序有什么区别吗?】[生物科目]
“普通的基因测序”应该是指“常规DNA测序”吧,是用Sanger法(也就是双脱氧法)进行测序的方法,目前非常普遍的是直接用ABI 3730xl 进行的自动测序,基本上可以做到600bp-800bp的读长.
高通量测序的概念其实是一个相对的概念,在2000年的时候,3700、MegaBace等仪器上的测序也是高通量测序,是相对手工测序或者跑平板胶来说的.
不过到2005年以后,高通量测序就改指第二代测序(Next generation sequencing),454、Solexa(后改为Illumina)和SOLiD等第二代测序,比3730等第一代测序的通量提高了成千上万倍,甚至上亿倍,所以称为高通量测序.
NGS的特点主要有:
1、通量高,一个RUN能产生500Mb-600Gb的数据量
2、读长相对较短,454(约400-500bp),Illumina(100-250bp),SOLiD(75-100)
3、单位数据的成本非常低,现在很多项目测序的费用,已经非常低,生物信息分析成本变得更为重要了.
题5: 高通量测序和重测序是怎么回事啊?还有一个相位的概念,Here,wedemonstrateamethodinwhichallele-specificpolymerasechainreaction(AS-PCR)andcomputationalphasingarecombinedforrelativelyhigh-throughput,efficientresolu[语文科目]
是这样的,高通量测序分为好多种,有不同的平台运作,共同的特点是极高的测序通量,相对于传统测序的96道毛细管测序,高通量测序一次实验可以读取40万到 400万条序列.读取长度根据平台不同从25bp到450bp,不同的测序平台在一次实验中,可以读取1G到14G不等的碱基数,这样庞大的测序能力是传统测序仪所不能比拟的.
重测序就是说,基于第二代测序,也可以是第一代的,对之前的测过序的基因组再测一边,并对个体或者群体样品进行分析.基因组的重测序可以辅助研究者发现单核苷酸多态性位点(SNPs)、拷贝数变异(Copy Number Variation,CNV)、插入(Insertion)、缺失(Deletion)等变异类型,以最廉价的方式将单个参考基因组信息扩增为生物群体的遗传特征.短序列(Short-Reads)与双末端(Paired-End),以及不同插入长度双末端的组合,使我们能够更深入地了解到序列和序列以外的基因组结构变异.
相位,就是说在测序的时候,测序的结果 会出现在电脑上,这个就叫做相位.在深一点就比较专业了,我还没用过第二代测序,也不太清楚.但是,据我所知相位经常会出现出现“超前”和“延迟”的现象.