在教程(一)中最后有一个小问题,在从david数据库下载下方的表格时,并不能直接下载成xsl或csv格式的文件,下方实际上是点击download按钮后,用浏览器打开后,选择“全选“,然后粘贴到一个新的记事本中,再用excel打开,最后存成csv格式文件即可。
教程二主要讲解一下GO或KEGG富集分析中P值该如何理解。回忆一下t检验,t检验中P值代表了原假设成立条件下出现当前结果的概率值,一般以0.05和0.01作为两个阈值,但是近期P值这种一刀切的做法遭到了很多学者的联名反对,想一想之前天士力复方丹参滴丸在美国的试验也是因为显著性的问题遭到了打击,确实是非常可惜。但是在GO分析中,由于数据的结构,这时我们需要用超几何分布来描述随机过程中出现当前富集结果的概率值。先不谈这件事,我们先来看看基因富集分析的韦恩图表示情况。如下图所示:
上图中总的背景基因就是我们所研究的物种的所有基因(也就是在教程一中我们在david数据库中所选择的background),红色矩形框中的基因是我们输入的基因,背景基因中功能A相关基因共150个,用黄色的圆圈表示,功能B相关基因共1000个用紫色的圆圈表示。如果我们输入的基因中有100个基因和黄色的圆圈重合,另有100个基因和紫色的圆圈重合,那么我们并不能说明我们输入的基因中功能A和B富集程度是一样