
RNA-seq
文章平均质量分 77
RNA-seq数据分析是生物信息学的核心技术之一,本专栏由生信专家穆易青倾力打造,涵盖转录组、Ribo-seq、small RNA等全流程分析。文章实用性强,包含大量代码示例和实战经验,适合生物信息学初学者和进阶用户。专栏已收录46篇高质量文章,累计阅读量超20万,是学习RNA-seq分析的优质资源
穆易青
用大模型思维颠覆传统学习生信路径
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2025.07.04【转录组】| RNA-seq 组装“瘦身术”——BBNorm 归一化处理
摘要:本文介绍如何使用BBNorm工具对大规模RNA-seq数据进行数字归一化处理,显著降低内存和计算资源消耗。文章详细讲解了BBNorm的工作原理、安装方法、关键参数设置,并通过1.1TB数据的实际案例展示归一化效果(缩减83%文件大小)。同时提供了进阶技巧、常见问题解决方案及与其他归一化工具的对比。BBNorm作为BBTools套件中的高效工具,能保留低丰度转录本信息,大幅提升后续RNA-seq组装的可行性,是处理超大规模转录组数据的实用解决方案。(150字)原创 2025-07-04 11:21:58 · 166 阅读 · 0 评论 -
2025.07.01【转录组】无参转录组组装软件横向评估
摘要:本文对比了四种主流无参转录组组装工具(rnaSPAdes、Trinity、SOAPdenovo-Trans、Trans-ABySS)的关键特性。rnaSPAdes安装便捷、运行高效,适合大数据自动化;Trinity组装质量最优但资源消耗大;SOAPdenovo-Trans速度最快但安装复杂;Trans-ABySS支持多k-mer组装。选择建议:新手优先rnaSPAdes,追求质量选Trinity,超大数据用SOAPdenovo-Trans,复杂样本考虑Trans-ABySS。原创 2025-07-01 11:39:11 · 64 阅读 · 0 评论 -
2025.06.18【转录组】|Ribo-seq/small RNA数据分析:rRNA和smRNA比对率统计全流程
本文介绍了一种自动化统计rRNA/smRNA比对率的方法,用于评估Ribo-seq或small RNA测序数据的质量。主要内容包括:分析原理(比对率定义、参考序列来源)、实践流程(构建索引、比对统计)以及结果可视化方法。通过Python和R脚本实现自动化处理,可生成汇总表格和柱状图。比对率结果能反映样品污染程度,建议控制在20%以下。该流程有助于快速评估测序质量,为后续分析提供可靠依据。文中还提供了常见问题解决方案和脚本示例,适用于生物信息学标准化质控环节。原创 2025-06-18 16:24:00 · 1029 阅读 · 0 评论 -
2025.06.16【Ribo-seq】|sORF翻译能力预测:ORFscore计算与解读
ORFscore是评估开放阅读框(ORF)翻译活性的关键指标,通过分析Ribo-seq数据中核糖体足迹的分布特征来量化翻译活性。本文系统介绍了ORFscore的计算原理和实际应用。ORFscore计算基于三碱基周期性和读段分布特征,公式为标准化读段分布的方差值。分析流程包括数据准备、ORF信息提取、ORFscore计算及结果解读,并提供质量控制方法。ORFscore结果可用于新ORF发现和翻译效率分析,但需注意数据质量控制和多维度验证。典型阈值设定为:ORFscore>0.5表示高可信度翻译ORF,&原创 2025-06-16 10:52:54 · 1050 阅读 · 0 评论 -
2025.06.16【转录组】|Ribo-seq数据流程详解(二 基因组比对)
本文详细介绍了Ribo-seq数据分析中的比对流程,包括环境准备、STAR索引构建、比对参数设置及结果统计可视化。通过samtools和R脚本实现比对质量评估,提供常见问题解决方案和关键指标解读。该流程强调比对参数优化和质量控制,为后续翻译组学分析奠定基础。原创 2025-06-16 10:38:09 · 1152 阅读 · 0 评论 -
2025.06.11【Ribo-seq】|用CPAT预测sORF序列的编码潜能
摘要:本文介绍了使用CPAT工具预测sORF编码潜能的方法。sORF(small Open Reading Frame)在基因组中广泛存在且具有重要功能。文章详细讲解了CPAT安装、物种模型下载、sORF核酸序列准备(需拼接后的ORF序列)等步骤,并提供了Python示例脚本。运行CPAT后需重点关注"Coding_prob"值(人类阈值推荐0.364)。作者强调必须使用拼接后的ORF序列而非基因组区间,并解答了常见问题。最后建议结合多种工具和生物学证据综合判断结果。(148字)原创 2025-06-11 17:28:57 · 1122 阅读 · 0 评论 -
2025.06.11【Ribo-seq】|根据注释文件获取外显子及ORF序列
摘要:本文介绍从RiboCode生成的GTF文件中提取ORF外显子序列的流程。主要步骤包括:1) 使用Python脚本将GTF文件中exon条目转换为BED格式;2) 通过bedtools工具提取外显子FASTA序列;3) 根据orf_id拼接外显子获得完整ORF序列。关键点涉及GTF(1-based)到BED(0-based)的坐标转换,以及链特异性(-s)和序列命名(-name)参数设置。该流程最终输出包含ORF标识和基因组位置信息的FASTA序列,为后续ORF分析提供基础数据。(149字)原创 2025-06-11 17:26:46 · 337 阅读 · 0 评论 -
2025.06.09【RNA-seq】|逆转录元件(retrotransposon)表达分析全流程详解
逆转录元件(Retrotransposon)是一类能够通过“复制-粘贴”机制在基因组中移动的转座元件。它们首先将自身DNA转录为RNA,再通过逆转录酶反转录为DNA并插入到基因组新位置。 逆转录元件广泛存在于真核生物基因组中(如人类基因组约40%为转座元件),对基因组进化、基因调控、疾病发生等具有重要意义。原创 2025-06-09 14:37:13 · 826 阅读 · 0 评论 -
2025.06.07【Ribo-seq】|RiboCode定量命令ORFcount结果输出为0的原因与解决方案
ORFcount输出全为0,99%是因为BAM和GTF参考不一致。RiboCode_onestep用转录本BAM,ORFcount用基因组BAM。保证GTF和BAM参考一致,ORFcount才能输出真实的ORF定量结果。如果您觉得这篇文章对您有所帮助,或者激发了您对生物信息学的兴趣,我诚挚地邀请您:🔔 关注我的账号,不错过每一次知识的分享和探索的旅程。📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。原创 2025-06-07 10:27:32 · 520 阅读 · 0 评论 -
2025.06.06【Ribo-seq】|riboWaltz:P-site定位与三碱基周期性分析流程
同学们,大家好!今天我们要学习的是riboWaltz——一款专为Ribo-seq(核糖体足迹测序)数据设计的R包,主要用于P-site定位优化和三碱基周期性分析。P-site的准确定位是Ribo-seq下游所有翻译组学分析的基础,riboWaltz为我们提供了系统、可视化、易用的解决方案。P-site定位优化:自动识别不同长度RPF的最佳P-site偏移量。三碱基周期性分析:可视化RPF在CDS、UTR等区域的分布,评估数据质量。多样本/多条件支持:可同时处理多个样本,便于批量分析和对比。原创 2025-06-06 16:03:39 · 997 阅读 · 0 评论 -
2025.06.06【Ribo-seq】|RiboCode:基于Ribo-seq数据的全基因组翻译ORF检测工具详解与实战流程
大家好!今天我们要学习的是RiboCode——一个专为Ribo-seq(核糖体足迹测序)数据设计的高质量翻译ORF(开放阅读框)检测工具。RiboCode能够帮助我们在全基因组范围内精准识别翻译事件,发掘经典CDS之外的uORF、dORF、重叠ORF等新型翻译本,极大拓展了我们对转录本翻译潜能的认知。RiboCode 是由清华大学杨学睿课题组开发的开源软件,支持Linux/Mac平台,采用Python实现。自动化流程:一条命令即可完成注释准备、P-site定位、ORF预测。高灵敏度与特异性。原创 2025-06-06 15:44:34 · 996 阅读 · 0 评论 -
2025.05.30【转录组】|Ribo-seq数据流程详解(一 质量控制)
本文详细介绍了Ribo-seq数据的质控分析流程,重点讲解了使用fastp进行原始数据质控的关键步骤和参数设置。作者通过Snakemake自动化流程示例,展示了如何去除接头序列、过滤低质量reads、生成质控报告等操作。文章强调高质量的Ribo-seq数据对转录后调控和翻译动态研究的重要性,并提供了兼顾数据质量和下游分析需求的参数配置建议。该流程有助于研究人员规范高效地完成Ribo-seq数据质控,为后续分析提供可靠数据基础。原创 2025-05-30 11:23:56 · 166 阅读 · 0 评论 -
2025.05.28【读书笔记】|如何用SILVA和RFAM数据库高效去除rRNA污染
摘要: 在Ribo-seq等测序数据分析中,清除rRNA污染对结果准确性至关重要。仅使用SILVA数据库可能遗漏5S rRNA污染,建议结合RFAM数据库(特别是RF00001家族)全面清除。操作要点包括:下载两库序列、将RNA碱基U替换为DNA的T、合并序列建立索引,使用bowtie2过滤rRNA reads。注意U/T转换是关键,否则会导致比对失败。该方法能有效提升数据清洁度,为后续分析奠定基础。原创 2025-05-28 16:25:56 · 547 阅读 · 0 评论 -
2025.03.13【读书笔记】|kallisto:单细胞定量工具安装介绍
kallisto是一个用于转录本定量的软件工具,其独特的基于伪对齐的技术,使得在不需要传统比对的情况下,就能够快速准确地估计转录本的丰度。这种方法的主要优点包括速度快、准确性高和计算成本低。cDNA文件是kallisto分析中不可或缺的一部分,它包含了用于定量的参考转录本信息,直接影响定量结果的准确性。Kallisto 以其显著的计算速度优势,让研究人员能够更高效地处理 RNA-seq 数据,极大推动了转录组学研究的进展。原创 2025-03-13 10:25:29 · 809 阅读 · 0 评论 -
2025.03.12【读书笔记】|monocle:快速安装及使用
通过一个具体的实战案例,我们可以更直观地了解monocle工具的应用。Monocle 凭借其构建伪时间轴的能力,为我们深入理解细胞发育和分化过程提供了强有力的工具。它在识别关键基因、揭示细胞状态转变以及探索时间依赖性的表达模式等方面,具有显著优势。虽然随着单细胞技术的快速发展,涌现出许多新的分析工具,但 Monocle 依然是研究人员进行细胞轨迹分析和时间序列分析的重要选择。尤其是在以下情况下,Monocle 能够提供独到的见解:研究细胞发育过程中的动态变化识别在细胞分化过程中起关键作用的基因。原创 2025-03-12 10:39:13 · 1744 阅读 · 0 评论 -
2024.12.29 【RNA-seq】Rawdata数据缺失问题与解决方案
Fastq格式是一种用于存储高通量测序数据的文件格式,包含序列和相应的质量信息。第一行以开头,后接序列标识符;第二行是测序的DNA序列;第三行以开头,可能会跟随序列标识符;第四行是对应的质量值,以ASCII字符表示。Rawdata的数据完整性通常情况下是没有问题的,但我们仍然需要对下机数据进行验证,确保后续分析的正常进行,好的分析习惯可以提高整体的分析效率,避免很多不必要的麻烦。原创 2024-12-29 16:06:38 · 560 阅读 · 0 评论 -
2024.12.02.【读书笔记】|miRDeep2快速安装使用教程
miRDeep2是一个用于从小RNA测序数据中发现已知和新的miRNA的分析工具。它包含了多个模块,可以对测序数据进行预处理、比对到参考基因组、检测已知和新的miRNA等。原创 2024-12-02 17:07:44 · 1408 阅读 · 0 评论 -
2024.11.27【流程搭建L2】3句话搭建工业级生信流程(以RNA-seq为例)
Cursor是基于VSCode技术构建的AI代码编辑器,由Kite公司开发,旨在通过集成人工智能技术来提高开发者的编程效率和体验。Cursor是基于VSCode技术构建的高级代码编辑器。它从VSCode的代码库派生而来,继承了VSCode的所有基础功能和用户界面,布局和操作基本一致,使得VSCode用户可以无缝迁移到Cursor,无需重新学习新的操作习惯。最大的不同在于它内置了AI进行代码协作的功能,这是对VSCode的扩展和增强。原创 2024-11-28 00:50:52 · 1141 阅读 · 0 评论 -
2024.09.04【读书笔记】|如何使用Tombo进行Nanopore Direct RNA-seq(DRS)分析
首先,需要将原始的纳米孔读取数据(FAST5文件)转换为参考序列对齐的信号。这一步是Tombo分析的第一步,称为“重抖动”(re-squiggle),即将原始纳米孔读取转换为参考序列对齐的信号。可以通过Conda安装Tombo,这是推荐的安装方法。tombo run --input input FAST5文件路径 --output output 输出文件路径 --model model 模型名称其中,input参数指定输入的FAST5文件路径,output参数指定输出文件路径,model。原创 2024-09-04 11:42:07 · 1941 阅读 · 0 评论 -
2022.11.21【bug笔记】|bam文件报错:Cannot add sequence that already exists in SAMSequenceDictionary
sam文件是通过hisat2,bowtie2或者bwa将rawdata进行比对后得到的包含比对信息的数据格式。经过samtools处理后得到的bam文件经常用于后续分析,比如RNA-seq分析时,可以统计序列的插入片段也可以做后续定量,WGS流程里比对后生产的bam文件也可以去冗余获取snp位点。原创 2022-11-21 17:23:36 · 821 阅读 · 3 评论 -
2022.04.14【读书笔记】|转录因子分析
转录因子(transcription factors, TFs)是直接作用于基因组,与特定DNA序列结合,调控DNA转录过程的一类蛋白质原创 2022-04-14 15:42:57 · 3337 阅读 · 0 评论 -
2022.04.14【读书笔记】|WGCNA分析原理和数据挖掘技巧
WGCNA,全称weighted gene co-expression network analysis,即权重基因共表达网络分析。自2005年B Zhang, S Horvath等提出,在疾病以及其他性状与基因关联分析等方面的研究中被广泛应用。原创 2022-04-14 15:19:46 · 5468 阅读 · 3 评论 -
2021.11.23【bug笔记】丨picard运行报错:Exception in thread “main“ java.lang.UnsupportedClassVersionError
项目场景:RNA-seq对比对后bam文件绘制insert图片问题描述:执行picard命令时发生报错:JAVA报错代码: at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineClass(ClassLoader.java:800) at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:1原创 2021-11-23 22:16:11 · 1484 阅读 · 0 评论 -
2021.11.20【读书笔记】|差异可变剪接事件及DTU分析
一、可变剪接(Alternative Splicing) 定义: 同一前体mRNA分子,可以在不同的剪接位点发生剪接反应,生成不同的mRNA分子,最终产生不同的蛋白质分子的一种RNA剪切方式。 意义: 1. AS是形成生物多样性的重要原因之一 2. AS是基因表达调控的重要组成部分,与基因表达的时空性息息相关 3. 由于可变剪接直接造成表达产物的差异,因此可变剪接在一些性状、疾病中发挥重要作用。 识别: 分成了7个类型 识别..原创 2021-11-21 22:30:18 · 6476 阅读 · 0 评论 -
2021.06.29【R语言】丨png转pdf批量生成
摘要接到一个特别要求,客户想把结果里的png图片全部转化成pdf。刚开始,这边销售想着结果图片不多,打算手动一个一个处理,直到她发现了16差异分组里,每个分组都有个kegg_map的文件夹...环境与方法R version 3.6.0 (2019-04-26)环境包 require(stringr) EBimage: install.packages('BiocManager') BiocManager::install('EBImage')使原创 2021-06-29 15:03:45 · 1020 阅读 · 0 评论 -
2021.05.26【R语言】丨clusterProfiler注释大肠杆菌GO/KEGG富集图
摘要 之前写过一篇文章,对clusterProfiler常用注释包进行简单的整理分类2021.05.17【R语言】丨clusterProfiler注释表——KEGG/GO enrich富集图专用_穆易青的博客-CSDN博客。然而在遇到一个原核转录组项目想使用大肠杆菌注释包的时候却遇到了报错,经过一番查阅和测试。终于能够注释大肠杆菌,得到GO/KEGG富集图,在这里将整个过程做个梳理。 环境与方法 R version 3.6.1 Bioconductor version 3.10 packa原创 2021-05-26 15:01:13 · 3164 阅读 · 3 评论 -
2021.05.22丨snakemake报错positional argument follows keyword argument解决办法
摘要 从3月学习snakemake,到目前为止已经基本掌握了框架的思路,并且用snakemake将之前的RNA-seq流程重新串了起来。今天在处理项目的时候打算将里面的差异分析和注释分析串起来。遇到了报错,这里进行一个简单记录。 报错问题:positional argument follows keyword argument 翻译:位置参数跟在关键字参数之后 错误示范: rule anno:input:genome = config["reference"],gff = con原创 2021-05-22 11:24:42 · 1035 阅读 · 0 评论 -
2021.05.17【R语言】丨clusterProfiler注释表——KEGG/GO enrich富集图专用
摘要 刚开始接触项目的时候一直用公司搭建好的流程分析项目,慢慢学习后,发现有些地方的注释除了靠参考基因组相关的注释文档,还需要对应物种。在R中绘制KEGG.GO enrich富集图就需要根据物种来读取相应注释包,这里记录一份常用物种及对应注释包表,方便以后使用。注释表packages organism org.Ag.eg.db Anopheles org.At.tair.db Arabidopsis org.Bt.eg.db Bovine org.C..原创 2021-05-17 15:48:48 · 2223 阅读 · 0 评论 -
2021.05.11丨COG分析柱状图绘制
目录摘要环境与方法文档准备分类简称及描述比对结果使用代码结果展示总结摘要在RNA-seq项目中,需要将差异基因比对到各个数据库当中,生成相应的注释结果和图像,便于深度挖掘信息。COG(Cluster of Orthologous Groups ofproteins 同源蛋白簇)数据库可以帮助了解蛋白功能甚至进化关系(细/真菌)。此次记录一下COG分类图的绘制方法环境与方法R version 3.6.1 (2019-07-05)文档准备分类简称及描述 # Code Name原创 2021-05-11 16:48:30 · 5443 阅读 · 0 评论 -
2021.04.29丨KEGG富集点状图绘制问题——附绘制脚本
项目场景:KEGG富集图绘制问题问题描述:得到差异基因名称,却无法成功绘制富集点状图。@Override public void run() { bytes = mmInStream.read(buffer); mHandler.obtainMessage(READ_DATA, bytes, -1, buffer).sendToTarget(); }  v2.0.1 使用说明 安装featureCounts 该工具属于Subread软件中的定量工具,另外subread还可以进行比对和寻找SNP位点,在这里就不详述了。我们要做的就是安装Subread原创 2021-04-09 16:30:36 · 14618 阅读 · 4 评论 -
2021.04.08丨RNA-seq消除批量效应
摘要 按照正常情况,送去测序的样品最好是同一个批次上机测序,避免外部干扰。最近接到一个项目,拿到手的数据就是分了四批。组长提醒我研究一下批量效应的处理方式。因此,这里总结一下批量处理的分析流程。环境配置 R版本:3.6.1 依赖R包:limma使用代码:library(limma) #调用limma包,线性分析主要包data <- read.table("all_count.txt",header = T, sep = "\t", ...原创 2021-04-08 11:42:57 · 3332 阅读 · 2 评论 -
2021.03.30丨使用python提取与合并指定列
摘要 最近优化RNA-seq,在定量环节后,需要汇总各样品的count值生成一份总表,然后转换成FPKM值。之前使用的是组长写的perl脚本,奈何自己实在是看不懂,并且之后为了加入到snakemake流程中也只支持python。于是,今天使用python对这部分进行了重写。 环境配置 python:3.8.5 使用代码 import reimport osimport pandas as pdnewfile_name = "../02.align/htseq/all_coun原创 2021-03-30 16:49:27 · 725 阅读 · 0 评论 -
2021.3.24丨snakemake搭建转录组流程(一)
摘要 在公司已经待了一段时间,流程也尝试搭建了几个,但在使用过程中总是会由于项目之间的一些差异导致各种问题。同时由于bash命令看起比较乱,且某一个环节出错,整个封装程序就要全部重跑,导致面对不同项目时维护困难。跟同学一阵业务交流后,他建议我尝试使用Snakemake进行流程搭建。本篇文章将对snakemake进行简单的介绍,并且用质控工具fastqc进行示范,阐述单个命令的搭建方式。 简介 Snakemake工作流管理系统是生成可重现和可扩展的数据分析的工具,该工作流基于Python语言。 它可原创 2021-03-24 11:18:42 · 1276 阅读 · 2 评论 -
2021.3.20丨Cutadapt数据统计脚本
摘要 在使用sRNAnalyzer分析miRNA时,会调用到Cutadapt进行去接口。该过程的结果也将通过报告被记录下来。然而,报告作为单个样品的结果统计,没有对所有样品进行汇总,不方便客户统计查看。因此,我写了一个简单的统计脚本,用于抓取Cutadapt结果报告里的基本信息。 需要获取的基本信息 材料与方法 python版本:Python 3.8.5 使用代码 import reimport osnewfile_name = 'Cutadapt_stat.tx原创 2021-03-20 11:20:28 · 659 阅读 · 0 评论 -
2021.01.18丨sRNAnalyzer分析流程
最近接到一个miRNA的分析项目,经过网上初步的一个工具搜索,选择了本地分析工具sRNAnalyzer进行比对和统计miRNA分类,使用在线分析工具miRWalk预测了miRNA的Target Gene。本篇文章是对sRNAnalyzer工具使用的一个梳理,对使用过程中遇到的一些问题进行注释。 软件说明文档链接:http://srnanalyzer.systemsbiology.net/start.html 在安装sRNAnalyzer之前,我们需要预安装三款软件,这些使用conda/miniconda原创 2021-01-18 15:53:53 · 778 阅读 · 0 评论 -
2021.01.07丨使用fastp统计样品质量结果
各位小伙伴在对测序样品进行质控的时候,首选基本上都是fastQC,他能能够生成许多图片直观地展示质控结果。 然而,当我们有多个样品,希望对其结果以表格形式进行展示的时候,fastQC能提供的信息就比较少了,比如GC含量精确到小数点,或者Q30等等 fastQC能统计到的基本信息 我们希望得到的统计结果 那么如何能够批量统计到更详细的质控信息呢?fastp工具和这篇文章脚本的必要性就产生了,它可以统计测序数据较多的信息并以.json形式进行展示。 我们用Editplus打开f原创 2021-01-07 11:23:59 · 4834 阅读 · 0 评论 -
2021.01.05丨根据基因名称拼接表达量与相关注释
这一步是在进行最后的数据汇总工作中用到的,将基因的count与FPKM值和基因注释的结果组合在一起,得到一个完整的数据。方便客户进行后续研究。算法与之前那篇基因ID匹配注释文本一文相似,用了两个for循环嵌套进行比对,O=n²,在此也希望能够抛砖引玉,得到大神指点。输入文件:anno.DEG.txtall.anno.xls #这里用的Editplus打开本来之前我对all.anno.xls的geneID已经处理过了,但是正好遇到ftp出问题,无法下载最新文件,就将就前两天的结果进行处原创 2021-01-05 16:54:32 · 320 阅读 · 0 评论 -
2020.12.19丨根据差异基因ID匹配注释文本脚本
上周遇到一个比较麻烦的项目。物种是一种酵母菌,参考基因组是组装的,并没有像样的gtf文件,使用genemark-ES生成注释文件后,需要对差异基因进行注释。本来之前有一个脚本能够很流畅地处理这个步骤。然而,由于genemark-ES自动生成的geneID在perl脚本中存在bug,个人对perl又不是很熟悉,因此重新写了一个脚本,用于差异基因与注释文本的匹配注释,下面直接上脚本。import csvgenome_file = open('C:/Users/bbplayer/Downloads/ge原创 2020-12-19 15:17:31 · 718 阅读 · 1 评论