
产品背景知识
文章平均质量分 84
# 产品背景知识
爱吃芝麻汤圆
西交22级软工学子,云原生、后端开发、神经网络、机器学习、AI系统、机器人、算法等方向均有涉猎,欢迎关注,大家一起进步成长
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《AI系统》分布式优化器精讲
本文系统讲解了分布式优化器的核心技术与演进路线。重点分析了ZeRO技术的三级优化策略(ZeRO-1/2/3)及其内存降幅与通信开销,介绍了突破物理限制的ZeRO-Infinity异构内存管理方案。对比了LOMO即时更新技术与传统方法的差异,并提供了技术选型指南。文章指出当前分布式训练正向"万亿参数+千卡规模+90%效率"的目标发展,涉及通信压缩、异构计算等前沿趋势。通过分而治之的思想,这些技术实现了用通信换内存的优化目标,支持了超大规模模型的训练。原创 2025-07-07 19:28:05 · 759 阅读 · 0 评论 -
《AI系统》数据并行详解
数据并行技术通过分配训练数据到多个设备加速模型训练,主要包括数据并行(DP)、分布式数据并行(DDP)和异步并行三种模式。DP实现简单但存在通信瓶颈;DDP采用多进程和高效通信算法,扩展性更强;异步并行无需同步但可能影响收敛稳定性。前沿技术如ZeRO优化内存占用,支持超大规模模型训练。实际应用中需根据硬件条件和模型规模选择合适方案,DDP通常是首选,异步并行适合异构设备,而混合并行技术可进一步提升训练效率。原创 2025-07-07 19:09:01 · 408 阅读 · 0 评论 -
《AI系统》单设备高效训练
在学习分布式训练之前,我们需要了解一些单个设备高效训练的实用技术,包括等。这些技术通过优化内存利用率、加快训练速度或两者兼而有之来提高模型训练效率。即使在拥有多块设备的机器上,这些方法仍然有效,还可以结合分布式训练的其他方法进一步优化训练过程。原创 2025-07-07 16:53:07 · 940 阅读 · 0 评论 -
GGUF、Safetensors、ONNX三种格式
参考:https://github.com/karminski/one-small-step/blob/main/20250122-how-to-run-gguf-LLM-model/how-to-run-gguf-LLM-model.md。总而言之,GGUF 是一种重要的 LLM 文件格式,它通过提高存储效率、加载速度和兼容性,简化了 LLM 的使用和部署,并有望成为未来大模型文件标准格式之一。(图片来自 ultralytics.com)原创 2025-07-04 18:27:38 · 764 阅读 · 0 评论 -
RAG、向量嵌入、向量数据库
RAG技术、向量嵌入与向量数据库的关系,如同“翻译官+智能仓库+指挥官”:向量嵌入将世界翻译为机器可理解的数字语言,向量数据库高效存储并快速调取知识,RAG则指挥大模型基于实时知识生成智能回答。三者的协同,让AI系统从“记忆型智能”进化为“检索型智能”,成为企业落地AI应用的核心技术路径。原创 2025-07-04 18:09:16 · 768 阅读 · 0 评论 -
多模态和表示空间简介
是什么:一个"数学翻译层",把不同形式的数据(文本/图片/音频)都转换成统一格式的向量(一串数字),让计算机能比较和处理。关键特点跨模态可比:比如"狗"的图片向量和"狗"的文字向量在空间里位置接近语义计算:支持向量加减(如:国王 - 男 + 女 ≈ 女王)维度统一:所有模态的向量长度相同(如512维)类比:像货币兑换——把人民币、美元、黄金都换成"标准货币"(向量),才能直接比较价值。原创 2025-07-04 17:46:35 · 180 阅读 · 0 评论 -
大语言模型优化:微调、蒸馏与量化
微调、蒸馏与量化构成了大型语言模型优化落地的"三驾马车",理解它们的核心原理适用边界以及组合潜力,是AI从业者在实践中做出合理技术选型的基础。随着技术的不断发展,这三种方法将继续演化并产生更多创新的结合方式,为不同场景下的模型部署提供更加丰富和高效的解决方案。在实际应用中,没有"放之四海而皆准"的最佳选择,只有最适合特定需求和约束的技术组合。明智的工程师应当根据业务目标、资源限制和性能要求,灵活搭配这些技术,打造出既高效又专业的语言模型应用。原创 2025-07-04 17:17:47 · 648 阅读 · 0 评论 -
大模型微调:从理论到实践的全方位指南
微调是指在预训练好的大型语言模型基础上,使用特定领域或任务的数据集对模型进行进一步训练的过程。与从头训练相比,微调具有数据效率高计算资源需求相对较少和灵活性高等显著优势。微调是将通用大模型转化为专业工具的关键技术。通过理解其核心原理、掌握最佳实践、避免常见陷阱,开发者可以高效地创建出满足特定需求的AI解决方案。记住,成功的微调不是简单的技术实现,而是数据、算法和评估体系的有机结合。随着技术的进步,微调的门槛将不断降低,但其战略价值将愈发重要。原创 2025-07-04 17:05:59 · 1117 阅读 · 0 评论 -
微调——什么是LoRA
这种低秩适应有效的深层原因是:模型在不同任务间的知识迁移主要发生在低维子空间,通过调整这些关键方向就能实现高效适应。这些矩阵W是模型在预训练阶段(如GPT在海量文本上训练)学习到的参数,承载了通用语义理解能力。(如d=hidden_size=768,k=hidden_size=768)。,即ΔW可通过两个小矩阵的乘积近似表示。原创 2025-07-04 16:54:59 · 954 阅读 · 0 评论 -
产品背景知识——Region和Zone
摘要: Region和Zone是资源管理与地理划分中的层级概念。Region指大范围地理或逻辑区域(如云计算中的“亚太地区”),包含多个Zone(如独立的数据中心)。Zone是Region的子单元,具备独立基础设施,故障隔离性强。两者协同应用:Region用于宏观合规性选择(如数据存储地域),Zone用于微观资源部署(如多Zone容灾)。典型区别在于范围、隔离性与应用场景(如AWS的Region vs. Zone)。理解其关系有助于优化云计算、分布式系统等架构的高可用设计。原创 2025-07-02 10:28:02 · 459 阅读 · 0 评论 -
产品背景知识——在线推理和离线推理
摘要: 在线推理与离线推理是AI模型部署的两种主要方式,核心差异体现在数据处理、架构设计、模型更新和应用场景上。在线推理处理实时数据,强调低延迟(毫秒级响应),适用于电商推荐、金融风控等场景,需高并发架构支持;离线推理处理批量历史数据,时效性要求低(小时/天级),适合用户画像、广告评估等分析场景,依赖分布式计算框架。二者协同互补:离线训练模型供在线调用,在线反馈数据优化离线模型。实际应用中,企业通常混合使用两者,如离线生成候选集,在线实时排序。选择依据取决于业务需求:实时交互选在线,大规模分析选离线。(14原创 2025-07-02 10:27:00 · 782 阅读 · 0 评论 -
产品背景知识——API、SDK、Library、Framework、Protocol
API、SDK、Library、Framework和Protocol是软件开发中的核心概念。API是应用程序编程接口,提供标准化交互方式;SDK是包含API、工具和文档的开发工具包,用于简化开发。两者关系密切,SDK通常封装API并提供更友好的接口。开发者可根据API"手搓SDK",通过封装底层调用提供更高层抽象。Library是可复用代码模块,Framework是提供基础结构的开发框架,Protocol是数据交换规则。这些概念形成技术栈层级:协议→API→库→SDK→框架→应用。理解它原创 2025-06-30 21:44:26 · 912 阅读 · 0 评论 -
产品背景知识——CIFS、SMB 和 Samba
本文介绍了三种网络文件共享协议/工具:SMB、CIFS和Samba。SMB是微软开发的网络协议,经历了多个版本演进;CIFS是SMB 1.0的公开扩展版本,已逐渐被取代;Samba则是开源的SMB协议实现,使Linux系统能与Windows共享资源。三者区别在于:SMB是不断发展的协议家族,CIFS是其早期扩展版本,Samba是开源实现工具。文章还指出CIFS存在安全隐患,建议使用较新的SMB版本,并提供了不同环境下的选择建议。原创 2025-06-30 17:54:30 · 754 阅读 · 0 评论 -
产品背景知识:鉴权与认证
认证(Authentication)和鉴权(Authorization)是安全体系中两大核心机制。认证用于验证用户身份(如密码、指纹),确保“你是谁”;鉴权则决定用户权限(如角色权限分配),控制“你能做什么”。两者需协同工作,先认证后鉴权才能构建完整访问控制。常见技术包括多因素认证(MFA)、RBAC权限模型等。若缺少认证,系统无法识别身份;缺少鉴权则可能导致越权操作。最佳实践是将两者逻辑分离,并遵循最小权限原则,以提升整体安全性。原创 2025-06-25 18:29:27 · 662 阅读 · 0 评论 -
产品背景知识:CA证书
是数字证书的核心信任锚点,属于公钥基础设施(PKI)的核心组件。原创 2025-04-28 16:26:52 · 244 阅读 · 0 评论 -
产品背景知识:基于P2P的文件分发系统
P2P是去中心化资源共享模式。基于P2P的文件分发系统(如Dragonfly)通过节点互助提升效率,适合大规模场景。Dragonfly作为企业级方案,在P2P基础上引入智能调度和混合架构,平衡性能与可控性。原创 2025-04-22 11:02:17 · 478 阅读 · 0 评论 -
产品背景知识:大模型的参数
在人工智能的前沿领域,大模型正以其强大的能力重塑着我们对智能的认知。而大模型参数,作为模型的“内部零件”,则是理解这一强大技术的关键所在。这些参数各有独特用途,共同支撑起大模型的智能架构。原创 2025-02-20 18:34:25 · 1190 阅读 · 0 评论 -
产品背景知识:模型精度和模型量化
在实际应用中,经常需要使用一些工具或库来实现浮点数和定点数之间的转换。原创 2025-02-20 17:51:06 · 655 阅读 · 0 评论 -
产品背景知识:离在线混部
类型排它(特指离线)支持共享(特指离线)是否绑核(特指CPU)是否独占(特指CPU)备注说明exclusive离线不可用不支持绑核独占排它独占,仅自己能用reserved离线可用支持允许绑核独占不排它独占,自己和离线可用、其它在线不可用shared离线可用支持不绑核不独占不排它共享,自己和其它在线shared、离线均可用none离线可用支持不绑核不独占不排它共享,离线使用,与reserved、shared共用。原创 2025-02-19 21:43:55 · 806 阅读 · 0 评论 -
产品背景知识:网关
南北向流量关注的是内外互通与用户体验,需要保障安全性和延迟。东西向流量侧重于内部高效协同,需要优化带宽和实时性。两者共同保障了现代分布式系统的性能与可靠性。传统网关:分为流量网关和业务网关,分别处理全局策略和业务域策略。适用于单体架构或简单分布式架构。微服务网关:在分布式架构中提供统一入口、跨域、日志、认证和限流功能,适用于微服务架构。云原生网关:如Higress,将流量网关、微服务网关和安全网关集成,简化运维并提升性能。适用于容器化和Kubernetes主导的云原生架构。原创 2025-02-18 21:49:37 · 1183 阅读 · 0 评论 -
产品背景知识:AI训练框架的角色
AI训练框架的角色原创 2025-02-17 18:40:50 · 847 阅读 · 0 评论 -
产品背景知识:算力拦截、算力超分、算力隔离、热迁移
算力拦截、算力超分、算力隔离、热迁移原创 2025-02-17 14:53:36 · 511 阅读 · 0 评论 -
产品背景知识:推理引擎
在深度学习和人工智能领域,推理引擎(Inference Engine)是一个极为重要的工具或框架,其主要职责是将训练好的模型部署到实际应用中,并快速、准确地完成预测任务,即推理过程。为满足生产环境的严苛要求,推理引擎通常在性能、延迟、内存占用等方面进行深度优化。原创 2025-02-17 10:58:27 · 775 阅读 · 0 评论 -
产品背景知识:超卖
超卖(Overcommit)是云服务厂商(如AWS、Azure、Google Cloud等)或虚拟化平台提供商(如VMware、KVM等)常用的一种资源管理策略。其核心目的是提高资源利用率,降低成本,同时为用户提供更灵活的资源分配方式。原创 2025-02-13 14:44:21 · 1257 阅读 · 0 评论 -
产品背景知识:显存和算力
产品背景知识:显存和算力原创 2025-02-13 14:41:38 · 644 阅读 · 0 评论