自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(225)
  • 收藏
  • 关注

原创 R中匹配函数

grepl是 R 语言中的一个基础函数,而不是tidyverse的函数。它用于检查字符串是否匹配某个模式(正则表达式)。虽然grepl不是tidyverse的一部分,但你可以在tidyverse的工作流程中使用它。grepl。

2025-07-24 11:26:30 394

原创 awk 学习笔记

是一个功能强大的文本处理工具,适用于处理结构化的文本数据。通过掌握基本命令、常用函数和实用脚本,你可以高效地处理和分析数据。希望这些学习笔记对你有所帮助!的知识,包括常用的命令、函数和一些实用的脚本示例。这些内容可以作为学习笔记,帮助你更好地理解和使用。脚本保存为文件,方便重复使用。好的,我将为你总结关于。:确保字段分隔符正确。

2025-07-24 10:59:36 375

原创 tidyverse中的数据合并

在数据处理中,横向合并(也称为宽合并)和纵向合并(也称为长合并)是两种基本的数据合并方式。

2025-07-23 09:39:38 891

原创 `tidyverse` 去除缺失值

在使用tidyverse包处理数据时,去除缺失值(通常表示为NA)是一个常见的操作。tidyverse包提供了一些函数来帮助处理缺失值,例如drop_na()函数,它可以从数据集中删除包含缺失值的行或列。以下是如何使用drop_na()drop_na()dfNAdrop_na()NA。

2025-07-23 09:29:02 193

原创 tidyverse-数据可视化 - 图形的分层语法

通过这些示例和练习,你应该能够理解ggplot2的基本概念,并能够创建各种类型的图形。如果你有任何问题,随时问我!

2025-07-20 23:47:19 679

原创 tidyverse-数据读入

使用read_csv()导入 CSV 文件,可以通过col_types参数显式指定列类型。处理数据导入过程中可能遇到的问题,例如列类型猜测错误和缺失值处理。使用和将数据写入文件以供后续使用。使用tibble()和tribble()手动创建数据框。通过这些工具,你可以高效地导入、处理和保存数据,为数据分析做好准备。

2025-07-20 21:58:29 884

原创 `tidyverse` 长表、宽表的处理

names_to:指定列名对应的变量名,可以使用.value提取变量名。:使用正则表达式匹配列名的结构,提取多个变量信息。names_sep:如果列名是用固定分隔符分隔的,可以使用names_sep参数。通过这些参数,你可以灵活地处理复杂的列名,将宽数据转换为长数据,从而更好地进行数据分析和可视化。整洁数据的重要性:整洁数据格式便于使用tidyverse工具进行分析。数据整理工具:将宽数据转换为长数据。:将长数据转换为宽数据。数据整理的灵活性。

2025-07-20 20:36:40 905

原创 `tidyverse` 中涉及的函数及其用法

函数用于去除重复行,可指定列名以查找特定列的唯一组合。包的核心工具,可以帮助你高效地进行数据转换和操作。函数用于按名称、范围或条件选择数据框中的列。函数用于按一个或多个列的值对数据框进行排序。函数用于基于现有列创建新列,支持数学计算。函数用于按一个或多个变量将数据集划分为组。函数用于根据逻辑条件保留数据框中的行。函数用于保留所有列,仅重命名指定列。函数用于对分组数据进行汇总计算。函数用于从每个组中提取特定行。函数用于移动列的位置。

2025-07-20 20:20:58 929

原创 9 种常用参数检验

────────────────────────────────────2. 数学模型与公式给定 n 个观测值 x₁,…,xₙ,欲检验H₀:μ = μ₀(μ₀ 为已知常数)H₁:μ ≠ μ₀(或单侧)样本均值  xˉ=(1/n)Σixi\bar{x} = (1/n) Σᵢ xᵢxˉ=(1/n)Σi​xi​样本方差  s2=Σi(xi−xˉ)2/(n−1)s² = Σᵢ (xᵢ - \bar{x})² / (n-1)s2=Σi​(xi​−xˉ)2/(n−1)检验统计量  t = ( xˉ−μ0)/

2025-07-13 16:41:35 405

原创 文献学习|全面绘制和建模水稻调控组景观揭示了复杂性状背后的调控架构。

解析调控复杂性状的机制对于推进作物改良至关重要。在此,我们提出了一个全面的水稻(Oryza sativa)调控组图谱,涵盖了来自三个代表性品种的23种不同组织的染色质可及性。我们的研究揭示了117,176个独特的开放染色质区域(OCRs),占水稻基因组的约15%,这一比例显著高于之前在植物中的报告。通过整合匹配组织的RNA-seq数据,我们自信地预测了59,075个OCR到基因的联系,其中增强子构成了这些关联的69.54%,包括许多已知的增强子到基因的联系。

2025-07-08 23:08:09 595

原创 wilcoxauc()替代findallmarker()

包中的一个工具,用于快速计算 Wilcoxon 秩和检验和曲线下面积(auROC)。这个函数特别适用于单细胞 RNA 测序数据,可以处理多种输入格式,包括密集矩阵、稀疏矩阵、Seurat 对象和 SingleCellExperiment 对象。函数是一个强大的工具,适用于单细胞 RNA 测序数据的差异表达分析。通过支持多种输入格式,您可以轻松地将其应用于不同的数据类型。希望上述指南能帮助您正确使用该函数。如果您有其他问题或需要进一步的帮助,请随时告诉我!如果您的数据是稀疏矩阵(如。首先,确保您已经安装了。

2025-07-08 13:21:01 645

原创 单细胞数据格式转换:rds 与 h5ad互转

将 RDS 格式的单细胞数据转换为 H5AD 格式。将 H5AD 格式的单细胞数据转换为 RDS 格式。

2025-07-07 16:46:41 212

原创 植物发育、适应和进化中的顺式调控元件

顺式调控元件(cis-Regulatory elements)是基因组蓝图的编码者,它们确保了基因表达在时间和空间上的适当模式,这对于正常的发育以及对环境的响应是必需的。越来越多的证据表明,基因表达的变化是真核生物表型创新的主要来源,包括哺乳动物中的急性表型,如疾病和癌症。此外,影响顺式调控序列的遗传和表观遗传变异在更长的进化时间尺度上已成为形态分歧和本地适应研究中的一个反复出现的主题。在这里,我们讨论了识别各种顺式调控元件类别及其在植物发育和环境响应中的作用的功能和方法。

2025-07-03 09:19:02 755

原创 DNBC4tools使用

这是华大基因开发的用于分析高通量。单细胞测序数据的开源分析流程工具。

2025-07-01 18:05:16 866

原创 《玉米中细胞类型特异性顺式调控的遗传结构》

基因表达和复杂的表型是由顺式调控元件的活性决定的。然而,目前对于现存的遗传变异如何影响顺式调控的理解仍然有限。在这里,我们利用单细胞基因组学研究了超过70万个玉米(Zea mays)自交系的细胞核,以探究顺式调控多样性的后果。我们的分析确定了独特的顺式调控元件,这些元件是驯化玉米所特有的,并揭示了历史上的转座子活动是如何塑造顺式调控格局的。利用群体遗传学原理,我们精细定位了约22,000个与染色质可及性相关的遗传变异,这些变异具有广泛的细胞类型特异性效应。

2025-07-01 15:30:33 732

原创 安装 COSGR 包的学习笔记

如果加载成功,说明 COSGR 包已经正确安装。你可以尝试运行一些示例代码来验证功能是否正常。后,R 会提示你输入用户名和令牌。输入你的 GitHub 用户名和之前生成的令牌。git在~/miniconda3/envs/seruat/bin/git。,可以通过设置环境变量来指定 R 使用的。如果你使用的是 Miniconda 环境,安装完成后,可以通过以下命令查找。在终端中运行以下命令查询系统中。,可以通过以下命令查找所有。在终端中运行以下命令查询。如果系统中安装了多个。

2025-06-16 16:42:57 345

原创 单细胞相关教程

2025-06-11 15:02:36 107

原创 【无标题】

2.单细胞常用数据库介绍及使用: 是美国国立生物技术信息中心(NCBI)维护的公共基因表达数据库,网址为。GEO数据库包含高通量基因表达数据,支持从单个细胞到组织水平的基因表达分析。: 是由加州大学圣克鲁兹分校提供的数据库,网址为。它提供了多种细胞类型的基因表达数据,支持对单细胞RNA测序数据的查询和分析。: 是一个旨在建立人体所有细胞类型的参考图谱的项目,网址为。HCA数据库包含大量的单细胞RNA测序数据,有助于理解细胞的多样性和功能。: 由国家基因库生命大数据平台(CNGBdb)提供,网址为。

2025-06-09 21:18:36 199

原创 SCFSlRAE1通过调节SlWRKY1的稳定性来调控番茄对灰霉菌的抗性。

泛素化是一种关键的翻译后修饰,在植物免疫反应的精细调控中发挥着核心作用。番茄(Solanum lycopersicum)因灰霉菌(Botrytis cinerea)这种毁灭性病原体的侵害而遭受严重的产量和品质损失。我们发现SlRAE1基因(编码一种E3泛素连接酶)是番茄抗灰霉菌的关键负向调控因子。SlRAE1与SlSKP1(SKP1–Cullin1–F-box [SCF]复合体的一个组分)相互作用,通过26S蛋白酶体途径调节转录因子SlWRKY1的蛋白稳定性。SlWRKY1靶向并抑制茉莉酸(JA)信号传导的

2025-06-08 13:24:43 635

原创 molgenis/systemsgenetics

希望这些笔记能够帮助您更好地理解和使用。

2025-06-08 10:31:33 865

原创 基于 GWAS 的群体遗传分析将 bZIP29 确定为玉米中的异种基因

了解异质基因在杂种优势形成中的作用对于推进杂交育种至关重要。我们分析了玉米杂交种群体的株高(PH)、穗高(EH)和转录组数据。全基因组关联研究(GWAS)表明,数量性状位点(QTL)的显性效应在杂交性状和中亲优势中起着重要作用。通过整合GWAS、表达GWAS(eGWAS)和模块eGWAS分析,我们优先确定了六个候选异质基因,这些基因位于六个QTL之下,其中包括一个跨越bZIP29基因的QTL。在杂交种群体中,bZIP29表现出对杂交性状和中亲优势的加性表达和显性效应,其有利等位基因与PH和EH呈正相关。

2025-06-07 21:19:29 1135

原创 indel_snp_ssr_primer

脚本头部信息和模块加载。命令行参数的解析。提供帮助信息。为未指定的参数设置默认值。初始化全局变量,用于存储参考基因组序列及其长度。读取参考基因组文件,并将其存储到哈希表中。处理 VCF 文件路径,确保文件可以正确读取。初始化相关变量,用于存储 SSR 和基因型信息。逐行读取 VCF 文件,提取 indel 信息,并获取 indel 两侧的侧翼序列。检测 SSR,并生成 Primer3 的输入文件。将 Primer3 输入文件分批保存,生成对应的 Shell 命令行。

2025-05-28 21:06:19 1204

原创 分子生物学:内含子、外显子、ORF、CDS、可变剪切

2025-05-26 09:29:56 225

原创 文章代码|皮层/表皮特异性转录因子 bZIP89 的自然变异决定了玉米侧根发育和抗旱能力

本研究中的大量 RNA-seq 读数存放在 NCBI 序列读取档案 (www.ncbi.nlm.nih.gov/sra) 中,登录代码为 SRP446501/PRJNA980895。scRNA-seq、DAP-seq 和 DNA 测序源数据存放在基因组序列档案 (https://bigd.big.ac.cn/gsa) 中,登录号为 CRA018050、CRA018051 和 CRA017878。本文中使用的代码可在 https://doi.org/10.5061/dryad.nzs7h451h 处访问。

2025-05-25 14:21:55 184

原创 MADS-box编码基因Tunicate1通过增加玉米果穗上方的叶片数量正向调控玉米产量。

玉米果穗上方的叶片是玉米籽粒灌浆的主要碳水化合物来源。然而,在现代玉米育种中,通过增加果穗上方叶片数量来增强碳源并提高玉米产量仍然是一个挑战。在此,我们克隆了与果穗上方叶片数量相关的数量性状位点(QTL)的致因基因。该致因基因是之前报道的MADS-box结构域编码基因Tunicate1(Tu1),它负责有稃玉米或Tunicate玉米的表型。我们发现,Tu1可以在保持源—库平衡的同时显著增加果穗上方的叶片数量。

2025-05-25 13:28:50 1003

原创 文献学习|DBB2 调节玉米株高和避阴反应

在模式植物拟南芥(Arabidopsis thaliana)中,多种光受体,如光敏色素(phyA、phyB)、隐花色素(CRY1)和UVR8,已被鉴定为与SAR相关的各种细胞过程的关键参与者(Keller等,2011;Burko等,2022)、B盒蛋白(BBX21、BBX22、BBX24)(Crocco等,2010,2015)以及同源框蛋白(HB、HB2、HB4)(Sorin等,2009),都参与了SAR的调控。Xu等,2023)。作物的株高受到茎秆中节间数量和长度的共同影响(Le等,2022)。

2025-05-20 08:57:24 1092

原创 玉米籽粒发育

这段文字强调了BETL在玉米籽粒发育中的关键作用,以及ZmMRP1、ZmMn1、ZmSWEET4c和ENB1等基因在BETL细胞形态建成和功能中的重要性。这些基因的表达和功能对于BETL细胞的分化、细胞壁形成、糖分运输等过程至关重要,影响籽粒的灌浆和最终的粒重。对这些基因的研究有助于我们更好地理解植物种子发育的分子机制,为作物改良和农业生产提供理论基础。

2025-05-19 16:36:23 853

原创 禾本科植物胚乳的发育

在草类植物中,胚乳的发育具有相当的一致性,特别是在早期阶段(Weatherwax,1930;通常,大多数草类植物的胚乳在成熟时是淀粉质和干燥的,这当然是一个有价值的特性,但也有例外。例如,在对169个草类属(占该科总属数的25%以上)的调查中,发现有30个属在成熟时具有液态或软质胚乳的物种,胚乳的粘性状态可以保持几十年。胚乳是由胚囊中央细胞中的两个极核与一个精子细胞核受精产生的,这产生了一个三倍体(3n,3C)的核,而二倍体(2n,2C)的胚则起源于第二个精子细胞核与卵细胞的受精。

2025-05-18 23:52:13 518

原创 R for Data Science(3)

重点:介绍了dplyr包中用于操作数据框的工具,包括行操作、列操作和组操作。下一步:深入学习特定类型数据的转换方法(如数字、字符串、日期等)。

2025-05-18 14:30:19 1084

原创 单细胞转录组(4)Cell Ranger

使用Cell Ranger进行单细胞数据分析是一个多步骤的过程,包括数据转换、质控、生成基因表达矩阵以及结果解读和可视化。数据转换 BCL2FASTQ使用Illumina提供的bcl2fastq软件将测序仪生成的BCL格式数据转换为FASTQ格式,这是进行下游分析的前提。数据质控利用FastQC等工具对FASTQ数据进行质控,确保数据质量符合分析要求。生成矩阵 COUNT使用Cell Ranger软件对原始数据进行比对和定量分析,生成基因表达矩阵。

2025-05-17 22:00:07 984

原创 单细胞转录组(3)

是 10x Genomics 提供的官方数据分析软件,它支持从原始测序数据(FASTQ 或 BCL 格式)到基因表达矩阵的生成,并提供聚类、降维等分析功能。需要下载大鼠的基因组序列和GTF文件,过滤GTF文件,最后构建参考序列。对于猕猴(Rhesus macaque)等其他物种,步骤与斑马鱼类似,需要下载对应的基因组序列和GTF文件,然后进行过滤和构建参考序列。是 Illumina 提供的软件,用于将 BCL 格式的测序数据转换为 FASTQ 格式,这是单细胞测序数据分析的前置步骤。

2025-05-17 21:40:59 1206

原创 单细胞转录组(2)单细胞测序原理

10x Genomics 单细胞测序技术通过 GEM、Barcode 和 UMI 的结合,实现了高通量、低成本的单细胞测序。这些技术的结合不仅提高了单细胞测序的通量,还提高了数据的准确性和可靠性。10x Genomics 平台因其高效性和经济性,已成为单细胞测序领域的主流选择。10x Genomics 单细胞测序平台通过其高效、高通量和低成本的特点,为单细胞基因表达分析提供了强大的工具。这些优势使得该平台在单细胞研究领域中非常受欢迎,适用于各种生物学和医学研究。

2025-05-17 21:21:29 1039

原创 单细胞转录组(1)

细胞是生物体的基本结构和功能单位,所有生物体(除病毒外)均由细胞组成。传统测序基于多细胞进行,提取组织的DNA或RNA后测序。而单细胞测序(scRNA-seq)能够对单个细胞进行测序,提供单细胞水平的基因表达观测方法,有助于更好地研究组织中不同类型的细胞及其相互作用。传统测序的局限性传统测序方法(如bulk RNA-seq)是基于多细胞样本进行的,检测的是样本中所有细胞的基因表达平均值。这种方法无法反映细胞间的异质性,即不同细胞之间的基因表达差异。

2025-05-17 17:31:44 1337

原创 多态性标记设计

2025-05-16 17:16:11 253

原创 kasp标记设计

UUID=81edf4f6-3266-4d57-a532-01066f6b1997)之后检查特异性,使用blast(https://www.maizegdb.org/popcorn/search/sequence_search/home.php?在NCBI(https://www.ncbi.nlm.nih.gov/gene/?选择包含该位点的前20bp为正向引物,注意其中不能包含4个碱基的重复,且CG含量相当。之后选择包含正向引物往后80-120bp设计反向引物(与序列反向互补)选择该位点前100bp。

2025-05-16 16:42:48 442

原创 测序的原理

第一代测序技术(Sanger 测序):准确性高、读长长,但速度慢、成本高,适合小规模、高精度的测序项目。第二代测序技术(NGS):高通量、成本低、应用广泛,但读长短、有偏向性,适合大规模基因组测序和转录组分析。第三代测序技术(PacBio 和纳米孔测序):长读长、无需 PCR 扩增、适合复杂基因组分析,但数据量小、成本高、设备昂贵,适合特定应用场景,如基因组组装、结构变异检测和现场快速测序。

2025-05-15 23:34:39 940

原创 常用的关系性统计方法

相关性分析:回归分析:降维分析:聚类分析:ROC曲线:相关性分析的定义和重要性:线性相关:Pearson相关和Spearman相关:相关系数的比较:不同类型的相关性分析:假设检验:结果展示:

2025-05-15 23:19:35 360

转载 常见生信分析

涵盖:33种癌症的基因组、临床、生存等数据官网TCGA使用方式:下载RNA-seq、mutation、clinical、survival数据,适合生存分析、免疫分析、建模等涵盖:多种疾病的转录组芯片/RNA-seq数据官网GEO数据形式:系列矩阵 + 临床表型 + 平台注释适用分析:差异表达、聚类、诊断模型构建内容:美国大型肿瘤登记数据库,提供生存、发病率、治疗方式官网SEER应用方向:长期随访、生存模型、流行病研究cBioPortal内容:多种肿瘤的基因突变 + 临床数据,适合网络探索。

2025-05-15 23:11:24 166

原创 文章复现|(1)整合scRNA-seq 和空间转录组学揭示了子宫内膜癌中 MDK-NCL 依赖性免疫抑制环境

目标:肿瘤微环境(TME)在子宫内膜癌(EC)的进展中起着重要作用。我们旨在评估EC的TME中的细胞群体。方法:我们从GEO下载了EC的单细胞RNA测序(scRNA-seq)和空间转录组(ST)数据集,并从TCGA下载了TCGA-UCEC项目的RNA-Seq (FPKM)和临床数据。使用R软件对这些数据集进行了分析。结果:我们获得了5个scRNA-seq数据集,1个ST数据集和569个RNA测序样本。在来自scRNA-seq的33,162个细胞中,共检测到20亿个转录本和33,408个基因。

2025-05-15 22:46:19 899

原创 16S&18S_OTU分析(3)

OTU:操作分类单元是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(如品系、种、属、分组等)设置的同一标志。目的:OTU用于将相似的序列归为一类,以便于研究和比较不同样本中的微生物多样性。OTU是一种基于序列相似度的分类方法,它将高度相似的序列归为一类,以便于研究微生物的多样性和群落结构。在实际应用中,OTU的划分标准可以根据研究的具体需求进行调整,但97%的相似性阈值是常用的标准。通过OTU分析,研究人员可以更好地理解和比较不同环境或条件下的微生物群落组成。

2025-05-14 23:44:09 491

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除