无生物学重复RNA-seq分析
CORNAS: coverage-dependent RNA-Seq analysis of gene expression data without biological replicates
BMC Bioinformatics 的一篇文章中提出了一种新的差异基因分析方法。
这篇文章提出了CORNAS(COverage-dependent RNA-Seq) 方法,利用贝叶斯方法来推断真实基因表达数的 后验分布。
其创新型之一该方法包括了由RNA样品浓度决定的覆盖度参数,之二是真实基因表达量后验分布的比较为寻找差异表达基因提供了一个参照。
这种方法针对无重复样本的数据是有一定优势的
目前现有的差异基因计算方法主要思路是**通过某种方法矫正后的观测基因counts 代表了 实际为止的 真实基因counts。
**常用的矫正思路是首先考虑所含基因个数,基因表达量和样本library大小等因素进行样本间的标准化,然后使用校正后的基因counts数进行 有参或者无参差异表达检验。
这些软件都有一个假设是观测到的基因counts数充分代表了真实的基因表达情,但是这一假设并不是完全没有问题。
在基因组测序中,覆盖深度是一个非常重要的概念,但是在转录组测序中因为转录组大小在不同组织或者不同细胞中都有差别,而且细胞间的mRNA种类也是高度变化的,因此覆盖深度的概念并没有很好的延伸到转录组中。依据2009年的一篇报道,想要准确覆盖人细胞系的95%转录本大致需要700M reads (但是这个说法个人认为也不能全信),因为实际测序深度远远比这个要少,所以测序带来的强大的随机效应就对统计结果有非常大的影响,目前的通用做法是尽量增加样本的重复。除此之外,现在已知 RNAseq 文库制备和测序都存在一些误差和偏好性。
从以上问题和角度出发,这篇文章提出了CORNAS(COverage-dependent RNA-Seq) 方法,利用贝叶斯方法来推断真实基因表达数的后验分布。
其创新型之一该方法包括了由RNA样品浓度决定的覆盖度参数,之二是真实基因表达量后验分布的比较为寻找差异表达基因提供了一个参照。
这种方法针对无重复样本的数据是有一定优势的,在文章中,作者也是使用的真实无重复数据进行了测试,
另外比较对象也并非是DEseq和EdgeR这类有参检验的软件,而是NOISeq和GFOLD两款软件,至于使用这两款软件的原因作者提到是因为和常用的DEseq以及EdgeR相比,这两款软件返回的假阳性数目更少。
关于如何计算样本覆盖度的问题可以参考原文,另外作者发现在给定真实基因表达数时描述观测基因表达数最合适的模型是广义泊松分布(而不是过去常用的负二项分布),
将真实基因数和广义泊松分布参数 以及 通过RNAseq样品浓度, 得到测序覆盖度相关联就可以确定 真实基因表达量的后验分布,进而用这个分布作为无重复RNA-seq试验进行差异基因分析的基础。
综上,如果手上恰好有无重复试验的RNA-seq数据要做差异表达分析,不妨试试NOISeq,GFOLD和这个新出的CORNAS 这几个软件。
摘要
背景:
目前在RNA-Seq实验中,在调用差异表达基因的统计方法中,假设一个被调整的观察到的基因计数代表一个未知的真实基因计数。
这种调整通常包括一个归一化步骤来解释 异构样本库的大小,然后将结果归一化的基因计数作为参数或非参数差异基因表达测试的输入。
一个真实基因的分布,每一个都有不同的概率,可以导致相同的观察到的基因计数。
重要的是,序列覆盖信息目前没有明确纳入用于RNA-Seq分析的任何统计模型中。
结果:
我们开发了一种快速贝叶斯方法,该方法利用RNA样本浓度确定的测序覆盖信息来估计真实基因计数的后验分布。
与NOISeq和GFOLD相比,我们的方法有更好的或比较好的性能,根据模拟实验和真实的未复制数据的实验结果。我们将先前未使用的测序覆盖参数纳入RNA-Seq数据的差异基因表达分析的过程中。
结论:我们的研究结果表明,我们的方法可用于在有限数量的复制和低测序覆盖率的实验中克服分析瓶颈。
背景
与特定表型类型显着相关的大规模的基因签名挖掘是转录组分析通常期望的结果。
RNA测序(RNA-Seq)已成为基因表达谱分析的首选工具,它在几个重要方面补充了传统的微阵列:
它更彻底地采样转录组,检测异构体,并且在没有对靶转录组的预先知识的情况下工作[1,2]。
自从发表第一篇RNA-Seq论文[3]以来,对RNA-Seq的广泛兴趣导致了测序平台如454,Illumina和Solexa的快速开发和部署。这些平台自然促成数据处理和分析方法的并行开发,以从RNA-Seq数据中提取生物学意义。
典型的RNA-Seq数据分析首先选择通过质量控制标准的读数,将它们映射到