无生物学重复RNA-seq分析 CORNAS: coverage-dependent RNA-Seq analysis of gene expression data without biologi...-CSDN博客

文章介绍了一种新的RNA-seq差异基因分析方法——CORNAS，该方法利用贝叶斯统计和RNA样品浓度确定的覆盖度信息，推断真实基因表达的后验分布，尤其适用于无生物学重复的实验数据。相较于NOISeq和GFOLD，CORNAS在控制假阳性率和提高灵敏度方面表现出优势，为无重复RNA-seq实验提供了分析新途径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

无生物学重复RNA-seq分析

CORNAS: coverage-dependent RNA-Seq analysis of gene expression data without biological replicates

BMC Bioinformatics 的一篇文章中提出了一种新的差异基因分析方法。

这篇文章提出了CORNAS(COverage-dependent RNA-Seq) 方法，利用贝叶斯方法来推断真实基因表达数的 后验分布。

其创新型之一该方法包括了由RNA样品浓度决定的覆盖度参数，之二是真实基因表达量后验分布的比较为寻找差异表达基因提供了一个参照。

这种方法针对无重复样本的数据是有一定优势的

目前现有的差异基因计算方法主要思路是**通过某种方法矫正后的观测基因counts 代表了实际为止的 真实基因counts。

**常用的矫正思路是首先考虑所含基因个数，基因表达量和样本library大小等因素进行样本间的标准化，然后使用校正后的基因counts数进行 有参或者无参差异表达检验。

这些软件都有一个假设是观测到的基因counts数充分代表了真实的基因表达情，但是这一假设并不是完全没有问题。

在基因组测序中，覆盖深度是一个非常重要的概念，但是在转录组测序中因为转录组大小在不同组织或者不同细胞中都有差别，而且细胞间的mRNA种类也是高度变化的，因此覆盖深度的概念并没有很好的延伸到转录组中。依据2009年的一篇报道，想要准确覆盖人细胞系的95%转录本大致需要700M reads (但是这个说法个人认为也不能全信)，因为实际测序深度远远比这个要少，所以测序带来的强大的随机效应就对统计结果有非常大的影响，目前的通用做法是尽量增加样本的重复。除此之外，现在已知 RNAseq 文库制备和测序都存在一些误差和偏好性。

从以上问题和角度出发，这篇文章提出了CORNAS(COverage-dependent RNA-Seq) 方法，利用贝叶斯方法来推断真实基因表达数的后验分布。

其创新型之一该方法包括了由RNA样品浓度决定的覆盖度参数，之二是真实基因表达量后验分布的比较为寻找差异表达基因提供了一个参照。

这种方法针对无重复样本的数据是有一定优势的，在文章中，作者也是使用的真实无重复数据进行了测试，

另外比较对象也并非是DEseq和EdgeR这类有参检验的软件，而是NOISeq和GFOLD两款软件，至于使用这两款软件的原因作者提到是因为和常用的DEseq以及EdgeR相比，这两款软件返回的假阳性数目更少。

关于如何计算样本覆盖度的问题可以参考原文，另外作者发现在给定真实基因表达数时描述观测基因表达数最合适的模型是广义泊松分布（而不是过去常用的负二项分布），

将真实基因数和广义泊松分布参数以及通过RNAseq样品浓度, 得到测序覆盖度相关联就可以确定真实基因表达量的后验分布，进而用这个分布作为无重复RNA-seq试验进行差异基因分析的基础。

综上，如果手上恰好有无重复试验的RNA-seq数据要做差异表达分析，不妨试试NOISeq，GFOLD和这个新出的CORNAS 这几个软件。

摘要

背景:

目前在RNA-Seq实验中，在调用差异表达基因的统计方法中，假设一个被调整的观察到的基因计数代表一个未知的真实基因计数。

这种调整通常包括一个归一化步骤来解释异构样本库的大小，然后将结果归一化的基因计数作为参数或非参数差异基因表达测试的输入。

一个真实基因的分布，每一个都有不同的概率，可以导致相同的观察到的基因计数。