edgeR进行差异分析

最新推荐文章于 2024-12-27 16:57:52 发布

原创最新推荐文章于 2024-12-27 16:57:52 发布 · 680 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#r语言

该文展示了如何利用R语言中的tidyverse和edgeR包对基因表达数据进行预处理、差异分析。首先，读取并处理数据，然后构建分组信息。接着，通过DGEList对象、CPM过滤、TMM标准化等步骤进行数据预处理。最后，运用glmFit和glmQLFit进行模型拟合，筛选出差异表达基因，并输出结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

##  1、准备数据
##########
library(tidyverse)
library(readr)
count <- read_delim("~/Program/Penaeus_chinensis/data/expression_matrix/count.tsv", 
                    delim = "\t", escape_double = FALSE, 
                    trim_ws = TRUE)
gene_exp = column_to_rownames(count,var = "gene_id")

library(tidyverse)
name = c()
for (m in c("FCN25_","FCN10_","FCM25_","FCM10_")) {
  for (i in 1:6) {
    name1 = str_c(m,i)
    name = c(name,name1)
  }
}
gene_exp = gene_exp %>% dplyr::select(name)


##  2、进行edgeR差异分析
##########
#1)构建分组信息
condition_edger <-factor(c(rep('normal',12),rep('moribund',12)))

library(edgeR)

#2)数据预处理
#（1）构建 DGEList 对象
dgelist <- DGEList(counts = gene_exp, group = condition_edger)

#（2）过滤 low count 数据，例如 CPM 标准化（推荐）
keep <- rowSums(cpm(dgelist) > 1 ) >= 2
dgelist <- dgelist[keep, , keep.lib.sizes = FALSE]

#（3）标准化，以 TMM 标准化为例
dgelist_norm <- calcNormFactors(dgelist, method = 'TMM')

#差异表达基因分析
#首先根据分组信息构建试验设计矩阵，分组信息中一定要是对照组在前，处理组在后
design <- model.matrix(~condition_edger)

#（1）估算基因表达值的离散度
dge <- estimateDisp(dgelist_norm, design, robust = TRUE)

#（2）模型拟合，edgeR 提供了多种拟合算法(示例两种任选一种)
#负二项广义对数线性模型
fit <- glmFit(dge, design, robust = TRUE)
lrt1 <- topTags(glmLRT(fit), n = nrow(dgelist$counts))

#拟似然负二项广义对数线性模型
fit <- glmQLFit(dge, design, robust = TRUE)
lrt2 <- topTags(glmQLFTest(fit), n = nrow(dgelist$counts))

lrt1$table %>% filter(abs(logFC)>1 &FDR <0.05) %>% nrow()
lrt2$table %>% filter(abs(logFC)>1 &FDR <0.05) %>% nrow()
write_tsv(lrt$table %>% rownames_to_column(var = "gene_id"),file = "~/Program/shrimp/data/edgeR_result")