自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1414)
  • 收藏
  • 关注

原创 CentOS 7 安装OpenJDK 17 JRE

CentOS 7 自带的java 版本为:java version "1.8.0_311", 有些软件的运行需要更高的java版。CentOS 7 自带的默认仓库里 没有 OpenJDK 17,但是 Adoptium 项目(前身 AdoptOpenJDK)提供了稳定的 OpenJDK 17 版本。

2025-05-07 17:43:24 203

原创 HHsuite3 的 HHblits 和 HHsearch比较

HHsearch 在远源同源检测中更灵敏,因其直接基于双 Profile HMM 的概率对齐,能捕捉序列相似性之外的结构和进化保守信号;而 HHblits 作为加速版迭代工具,通过扩大同源序列池间接提升灵敏度,是大规模数据分析的首选。两者互补,共同构成 HH-suite 高灵敏度搜索的核心工具。

2025-05-06 19:53:10 424

原创 Linux /dev/null文件用法介绍

在类 Unix 系统(如 Linux、macOS)里,/dev/null 是一个特殊的设备文件,常被称作 “黑洞” 或者 “空设备”。它的作用是接收并丢弃所有写入的数据,且从它读取数据时会马上返回文件结束符。

2025-05-05 12:05:03 296

原创 HHsuite多序列比对格式转换脚本reformat.pl介绍

reformat.pl 是 HH-suite 工具包中的一个 格式转换脚本 用于 快速转换多序列比对 (MSA) 文件格式,让比对结果能在不同软件/流程中通用。

2025-05-05 11:57:13 415

原创 多序列比对软件MAFFT介绍

MAFFT(Multiple Alignment using Fast Fourier Transform)是一款广泛使用且高效的多序列比对软件,由日本京都大学的Katoh Kazutaka等人开发,最早发布于2002年,并持续迭代优化至今。

2025-05-05 11:49:41 531

原创 多序列比对可视化和分析软件Jalview介绍

Jalview 是一款功能强大且广泛使用的多序列比对可视化和分析软件。

2025-05-05 11:37:40 319

原创 美国国家生物技术信息中心NCBI介绍

美国国家生物技术信息中心(National Center for Biotechnology Information,简称 NCBI)是全球生物医学领域最权威的综合性数据资源与技术平台之一,隶属于美国国立卫生研究院(NIH)下属的国家医学图书馆(NLM)。

2025-04-30 19:13:53 430

原创 AlphaFold蛋白质结构数据库介绍

AlphaFold Protein Structure Database (AlphaFold DB) 是 DeepMind + EMBL-EBI 合作开发的公开蛋白质结构预测数据库,是利用 AlphaFold2/AlphaFold3 AI模型 预测的全基因组级蛋白质三维结构库。

2025-04-30 17:37:27 751

原创 美国国立卫生研究院NIH介绍

NIH(National Institutes of Health) 是美国联邦政府下属的国家级生物医学研究机构,隶属于 美国卫生与公众服务部 (HHS)

2025-04-30 16:09:01 877

原创 蛋白质数据库UniProt介绍

UniProt 是全球最权威、最广泛使用的蛋白质序列与功能信息数据库。

2025-04-30 15:52:19 841

原创 蛋白质数据库InterPro介绍

InterPro 是一个综合性的蛋白质家族、结构域和功能位点注释数据库,由欧洲生物信息研究所(EMBL-EBI)维护。它的核心目标是通过整合多个蛋白质签名数据库,为蛋白质序列提供统一的注释,帮助研究人员识别蛋白质的功能、结构域、家族关系等。

2025-04-30 15:10:40 418

原创 EMBL-EBI介绍

欧洲生物信息学研究所(EMBL-EBI,European Molecular Biology Laboratory - European Bioinformatics Institute)位于英国剑桥附近的欣克斯顿,它是欧洲分子生物学实验室(EMBL)五个分部之一。EMBL 是一个由 27 个国家组成的政府间组织,旨在支持基础生物科学研究。EMBL - EBI 主要专注于生物信息学领域,其使命是为全球科研界提供生物信息资源和数据分析服务。

2025-04-30 15:04:51 432

原创 欧洲分子生物学实验室EMBL介绍

欧洲分子生物学实验室(EMBL,European Molecular Biology Laboratory)是欧洲领先、全球知名的生命科学研究机构之一。它在分子生物学、结构生物学、生物信息学和生物技术等多个方向有重大贡献,并且是很多生物信息数据库和工具的诞生地。

2025-04-30 14:55:32 895

原创 Pfam数据库介绍

Pfam 数据库是一个广泛用于对蛋白质序列进行家族和结构域分类的重要资源,为分析新基因组、宏基因组以及指导特定蛋白质和系统的实验工作提供了有力支持。

2025-04-30 14:34:26 321

原创 HHsuite同源序列搜索数据库构建

HHsuite 是用于蛋白质序列比对和同源性检测的工具套件,它使用特定的数据库格式以实现高效的数据存储和快速的检索。HHsuite 常用的数据库格式主要基于 FFINDEX(Flat-File Index),这是一种简单而高效的文件索引系统,它将数据文件(如蛋白质序列或 HMM 模型)和对应的索引文件分开存储。这种设计允许快速随机访问数据,而无需将整个数据库加载到内存中,从而提高了处理大型数据库的效率。

2025-04-29 17:41:35 737

原创 Python Transformers 库介绍

Hugging Face 的 Transformers 库是一个用于自然语言处理(NLP)的强大 Python 库,它提供了对各种预训练模型的访问和使用接口。

2025-04-25 20:33:04 670

原创 蛋白质大语言模型ESM介绍

ESM(Evolutionary Scale Modeling)是 Meta AI Research 团队开发的一系列用于蛋白质的预训练语言模型。这些模型在蛋白质结构预测、功能预测和蛋白质设计等领域展现出了强大的能力。

2025-04-25 19:54:34 674

原创 Linux防火墙工具UFW介绍

UFW(Uncomplicated Firewall)是 Ubuntu、Debian 等 Debian 系 Linux 发行版默认的防火墙管理工具,基于 iptables 开发,旨在通过简化的命令行接口(CLI)降低防火墙配置门槛,适合新手和简单场景。

2025-04-25 15:02:18 991

原创 CentOS系统防火墙服务介绍

CentOS 系统使用的是 firewalld 防火墙服务(从 CentOS 7 开始),它基于 zone(区域) 和 service(服务) 的机制来配置网络访问控制,替代了传统的 iptables。

2025-04-25 14:44:35 323

原创 SSH服务介绍

SSH(Secure Shell) 是一种加密的网络协议,用于在不安全的网络中安全地远程登录系统并执行命令。

2025-04-25 11:34:43 176

原创 linux sudo 命令介绍

​​​​​​​sudo(superuser do)是一个用于 Linux 系统的命令,它允许授权用户以其他用户(通常是 root 超级用户)的安全权限执行命令。

2025-04-24 20:40:31 262

原创 远程访问服务器的Jupyter Notebook

在 Linux 服务器上安装 Jupyter Notebook 可以直接调用服务器资源,适合处理大规模数据处理、复杂模型训练等计算密集型任务,避免本地设备算力不足的限制。

2025-04-24 20:09:49 659

原创 AF3 unify_alignment_db_indices脚本解读

AlphaFold3 unify_alignment_db_indices 脚本在源代码的scripts/alignment_db_scripts文件夹下。该脚本是统一多个对齐数据库索引文件(.index),生成一个总的索引文件 super.index,便于模型后续统一查找对齐数据。即把由多个 create_alignment_db.py 脚本生成的 .index 索引文件合并成一个统一的大索引。

2025-04-19 14:13:41 316

原创 AF3 create_alignment_db_sharded脚本解读

AlphaFold3 create_alignment_db_sharded 脚本在源代码的scripts/alignment_db_scripts文件夹下。该脚本是对 OpenFold 中 create_alignment_db.py 的增强版,加入了 多进程/多线程并发处理、支持数据库分片(sharding) 和 自动生成 super index(不再需要 unify_alignment_db_indices.py),显著提高了构建对齐数据库的效率。

2025-04-19 11:03:33 330

原创 AF3 create_alignment_db_sharded脚本main函数解读

​AlphaFold3 create_alignment_db_sharded 脚本在源代码的scripts/alignment_db_scripts文件夹下。 该脚本中的 main 函数是整个对齐数据库生成脚本的核心入口,它 orchestrates(编排)了所有流程,从读取链目录到生成 .db 文件、构建索引、处理重复链、写入最终索引文件。

2025-04-19 10:56:58 433

原创 Python concurrent.futures模块的as_completed函数介绍

concurrent.futures 模块的 as_completed 函数用于获取并发执行的任务的结果,当任务完成时,生成器会生成对应的 Future 对象。

2025-04-19 10:29:02 451

原创 Python concurrent.futures模块的ProcessPoolExecutor, ThreadPoolExecutor类介绍

concurrent.futures 模块中的 ProcessPoolExecutor 和 ThreadPoolExecutor 类是用于实现并发编程的两种主要工具,它们分别基于进程和线程来执行任务。

2025-04-19 10:27:56 416

原创 Python concurrent包介绍

concurrent 包是 Python 用于实现并发编程的一个重要工具集,它通过提供高层次的接口来管理并发执行的任务,简化了并发编程的复杂性。

2025-04-19 10:26:08 860

原创 AF3 create_alignment_db_sharded脚本create_shard函数解读

AlphaFold3 create_alignment_db_sharded 脚本在源代码的scripts/alignment_db_scripts文件夹下。 该脚本中的 create_shard 函数的功能是将一部分链(shard_files)中的所有对齐文件写入一个 .db 文件,并返回这些链的索引信息(字节偏移+长度+文件名)供上层构建 super index。

2025-04-16 20:28:43 375

原创 AF3 create_alignment_db_sharded脚本process_chunk函数解读

AlphaFold3 create_alignment_db_sharded 脚本在源代码的scripts/alignment_db_scripts文件夹下。该脚本中的 process_chunk 函数通过调用 read_chain_dir 函数,读取每个链的多序列比对(MSA)文件并整理成统一格式的字典结构chunk_data 返回。

2025-04-16 19:40:56 415

原创 AF3 create_alignment_db脚本解读

​AlphaFold3 create_alignment_db 脚本在源代码的scripts/alignment_db_scripts文件夹下。该脚本的作用是将分散在多个文件夹中的链级(chain-level)MSA比对结果打包成一个统一的二进制数据库(.db文件)和一个 JSON 格式的索引文件(.index 文件),以便后续更高效地加载。

2025-04-16 16:53:37 1012

原创 Python 引用介绍

在Python中,引用操作是核心概念之一,涉及到变量如何指向对象、对象的生命周期管理等。

2025-04-16 16:39:22 246

原创 AF3 add_non_unique_to_alignment_db脚本解读

​AlphaFold3 add_non_unique_to_alignment_db 脚本在源代码的scripts/alignment_db_scripts文件夹下。该脚本是 AlphaFold3 数据预处理流程中的一个辅助工具,主要用于补全 alignment database(比对数据库)的超级索引(super index)文件。

2025-04-16 11:25:17 411

原创 Python ctypes模块介绍

Python 的 ctypes 模块是一个强大的工具,用于在 Python 中调用外部动态链接库(DLL)或共享库(如 .so 文件)中的函数,并与 C 语言数据类型进行交互。它允许 Python 程序直接操作 C 语言编写的代码,从而实现高性能计算、调用系统 API 或与其他语言编写的库进行交互。

2025-04-16 10:19:01 539

原创 Python import语句的搜索路径设置

在 Python 中,import 语句用于导入模块或包。Python 会根据一个称为 模块搜索路径 的列表来查找模块。

2025-04-16 09:08:29 405

原创 AF3 generate_chain_data_cache脚本解读

AlphaFold3 generate_chain_data_cache 脚本在源代码的scripts文件夹下。该脚本从指定目录中批量解析 mmCIF/PDB 文件的工具,并将每个链的基本信息(序列、分辨率、是否属于聚类等)提取并写入 JSON 文件,主要用于后续蛋白质建模、过滤或训练数据准备。

2025-04-15 20:08:11 731

原创 Python multiprocessing模块Pool类介绍

multiprocessing.Pool 类是 Python 中用于并行处理任务的强大工具,它可以创建一个进程池,允许你在多个进程中并行执行任务,从而充分利用多核 CPU 的性能。

2025-04-15 19:51:03 907

原创 Python multiprocessing模块介绍

multiprocessing 是 Python 标准库中的一个模块,用于实现多进程并行计算,可以在多核 CPU 上显著提升程序性能,尤其适用于 CPU 密集型任务。Python 的多线程由于 GIL(全局解释器锁)限制,在进行 CPU 密集型任务时无法真正实现并行。而 multiprocessing 模块通过创建多个子进程,每个子进程拥有独立的 Python 解释器,因此可以实现真正的并行运行。

2025-04-15 19:48:22 423

原创 Python Path对象symlink_to方法介绍

Python 的 pathlib 模块中,Path 对象的 symlink_to 方法用于创建符号链接(软链接)。符号链接是一种特殊的文件,它指向另一个文件或目录,类似于快捷方式。

2025-04-14 21:38:56 277

原创 AF3 ProteinDataModule类解读

AlphaFold3 protein_datamodule 模块 ProteinDataModule 类继承自 PyTorch Lightning 数据模块(LightningDataModule),负责 ProteinFlow 数据的准备、加载、拆分、变换等逻辑封装在一起,便于训练过程中的统一管理和复现。

2025-04-14 21:34:45 943

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除