0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

光通信+分布式架构,突破传统网络架构瓶颈

Hobby观察 来源:电子发烧友 作者:综合报道 2025-06-20 09:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网综合报道,随着大语言模型(LLM)参数规模突破万亿级,传统数据中心网络架构(如NVL、TPUv4、SiP-Ring)逐渐暴露出瓶颈。

传统方案依赖昂贵的交换机(如NVIDIA的NVLink Switch)或光学电路(如TPUv4的OCS),其成本随集群规模呈指数级增长。例如,NVLink Switch单台成本高达数万美元,且仅支持单节点级扩展(如DGX H100集群最多8-GPU互联)。TPUv4虽采用光学环形网络,但其OCS交换机需定制化光纤布线,限制了跨Pod级扩展能力。

由于拓扑限制,单个GPU故障可能引发级联失效。以SiP-Ring为例,其静态环形拓扑要求所有节点严格同步,若某一节点故障,整个TP组需重新初始化,导致GPU浪费率高达37%(TP-64场景)。NVL架构中,单节点故障甚至会中断全局通信,迫使作业暂停重试。

跨ToR(Top of Rack)通信也成为网络架构的性能瓶颈。研究显示,GPT-3训练任务中35%的通信流量为跨机架传输,导致网络拥塞,带宽利用率不足40%。传统Fat-Tree拓扑虽支持高带宽,但其树状结构易在核心层形成热点,限制了大规模并行效率。

为了解决这些问题,最近,曦智科技联合北京大学、阶跃星辰的研究团队提出了一种以光交换(OCS)模组为中心的高带宽域架构InfiniteHBD。InfinitePOD通过无交换机架构设计 、动态拓扑编排算法和光通信技术优化 ,系统性解决了现有的问题。

InfinitePOD采用分布式节点直连网络,每个GPU节点配备QSFP-DD OCSTrx光模块(51.2Tbps带宽),通过预定义光纤链路实现跨ToR的3跳内直连。可以省去专用交换机,仅使用标准化光模块,单节点互连成本下降60%。

同时物理层支持任意规模集群互联,实验验证可扩展至65536 GPU,远超NVL(16384 GPU)和TPUv4(单Pod级)。在拓扑灵活性上,通过软件动态配置通信组,支持K-Hop Ring(环形)和K-Hop Line(线性)等拓扑,适配TP、DP、PP等不同并行策略。

InfinitePOD采用了两阶段部署机制,首先是物理层预定义,在部署阶段规划节点间3跳光纤连接,形成Rail-Optimized拓扑,减少跨机架流量;在运行时动态编排,基于图切割算法(Graph Partitioning)和贪心策略,实时调整通信组拓扑。

容错机制上,当GPU故障时,编排算法自动重构通信路径,仅隔离故障节点而不影响全局。实验表明,在TP-64场景下,GPU浪费率从NVL的24%降至11%,作业中断概率降低72%。

在光通信技术上,InfinitePOD采用QSFP-DD OCSTrx光模块,光模块基于曦智科技硅光子技术的分布式光交换dOCS,将基于马赫曾德(MZI,Mach-Zehnder Interferometer)交换矩阵的光交换芯片集成到商用QSFP-DD 800Gbps光电转换模组中,大幅简化了器件结构的同时,有效提升了器件集成度,从而降低了成本和功耗,显著提升了InfiniteHBD的性价比和系统可扩展性。

同时采用Rail-Optimized拓扑,针对机架间通信优化,通过3跳内光纤直连实现流量局部化 ,AllReduce带宽利用率提升至77.26%,接近理论极限。

InfinitePOD的核心价值在于将光通信技术与分布式架构深度融合 ,通过“硬件简化+软件智能”的设计理念,重新定义了高带宽数据中心网络。尽管当前方案仍需解决长距离光信号衰减和模块功耗问题,但其开创性的设计已为下一代数据中心网络指明方向——去中心化、软硬协同、极致扩展 。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 光通信
    +关注

    关注

    20

    文章

    938

    浏览量

    34671
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    携手共探无线光通信新未来!六博光电邀您相聚第六届无线光通信理论与组网技术论坛

    通信技术飞速发展的今天,无线光通信凭借高速、大容量、低延迟和高安全性等显著优势,成为突破当前通信网络瓶颈、推动
    的头像 发表于 07-10 17:17 374次阅读
    携手共探无线<b class='flag-5'>光通信</b>新未来!六博光电邀您相聚第六届无线<b class='flag-5'>光通信</b>理论与组网技术论坛

    突破精度极限,赋能光通信未来——武汉昊衡科技OLI光纤微裂纹检测仪引领行业革新

    光通信网络高速发展的今天,光纤及光器件的质量直接决定了通信系统的稳定性和传输效率。然而,传统检测技术受限于精度不足、效率低下等问题,难以满足日益严苛的行业需求。武汉昊衡科技有限公司凭借深厚的技术积累
    的头像 发表于 06-05 17:31 2166次阅读
    <b class='flag-5'>突破</b>精度极限,赋能<b class='flag-5'>光通信</b>未来——武汉昊衡科技OLI光纤微裂纹检测仪引领行业革新

    见合八方邀您相约2025国际光通信网络会议

    第二十三届IEEE国际光通信网络会议(ICOCN 2025) 将于7月份在中国张家界启幕!天津见合八方与ICOCN 2025联手深度合作,共同打造一场 “产学研用”全链贯通的全球光通信盛宴。
    的头像 发表于 05-26 15:04 854次阅读

    六博光电船载激光通信系统:开启水上高速通信新纪元

    在浩瀚水域中实现稳定、高速的无线通信,一直是海洋监测、应急救援及水上作业领域的技术难点。传统射频通信易受干扰、带宽有限,而卫星通信则面临高延迟、高成本的
    的头像 发表于 04-01 09:15 588次阅读
    六博光电船载激<b class='flag-5'>光通信</b>系统:开启水上高速<b class='flag-5'>通信</b>新纪元

    六博光电支持OpenVLC推出高性价比可见光通信模组

    在科技飞速发展的今天,通信技术领域不断涌现出创新成果。可见光通信(VisibleLightCommunication,VLC)作为一种极具潜力的新兴通信技术,正逐渐走进人们的视野。六博光电致力于无线
    的头像 发表于 03-14 09:52 671次阅读
    六博光电支持OpenVLC推出高性价比可见<b class='flag-5'>光通信</b>模组

    光通信技术的原理和基本结构

    本文介绍了硅光芯片的发展历史,详细介绍了硅光通信技术的原理和几个基本结构单元。
    的头像 发表于 02-26 17:31 1049次阅读
    硅<b class='flag-5'>光通信</b>技术的原理和基本结构

    光通信网络故障排除技巧

    光通信网络以其高速、大容量和抗干扰性在现代通信系统中占据着举足轻重的地位。然而,随着网络规模的扩大和复杂性的增加,故障排除成为了网络维护中的一项重要任务。 1. 故障诊断的基本原则 在
    的头像 发表于 01-23 09:42 929次阅读

    光通信网络的优势分析

    。光纤通信利用光信号传输信息,相较于传统的电信号,光信号在光纤中的传输速度更快,损耗更低。这使得光通信网络能够支持更高的数据传输速率,满足现代高速互联网、数据中心等应用场景的需求。 2. 大容量传输
    的头像 发表于 01-23 09:36 899次阅读

    光通信与电通信的区别

    在现代通信技术中,光通信和电通信是两种主要的通信方式。随着科技的发展,这两种技术在各自的领域内都取得了显著的进步。 1. 传输介质 光通信
    的头像 发表于 01-23 09:35 1943次阅读

    光通信在数据中心的应用

    在数字化时代,数据中心作为信息处理和存储的核心,承担着海量数据的传输和处理任务。随着云计算、大数据、人工智能等技术的发展,数据中心的规模和复杂性不断增加,对内部通信网络的性能要求也越来越高。光通信
    的头像 发表于 01-23 09:33 883次阅读

    硅光芯片技术突破,引领光通信新时代

    随着信息技术的飞速发展,数据量的爆炸增长对通信技术的要求越来越高。传统的基于电子的微电子技术已经遇到了物理极限,而基于光子的光电子技术则凭借其高速、低功耗、高带宽等优势,正在成为未来光通信
    的头像 发表于 01-13 10:38 1552次阅读
    硅光芯片技术<b class='flag-5'>突破</b>,引领<b class='flag-5'>光通信</b>新时代

    基于ptp的分布式系统设计

    。 PTP概述 PTP是一种网络时间同步协议,它允许网络中的设备同步它们的时钟。PTP基于IEEE 1588标准,旨在提供亚微秒级别的时间同步精度。PTP通过在网络中传播时间信息,并使用这些信息来校正本地时钟,从而实现精确的时间
    的头像 发表于 12-29 10:09 647次阅读

    分布式、域控及SOA架构车身功能测试方案

    北汇信息推出分布式、域控以及SOA架构的车身功能测试解决方案,支持在实验室环境下完成车身单部件、系统级功能自动化测试,可以极大地提升车身功能的可靠性和稳定性。
    的头像 发表于 12-27 09:05 2834次阅读
    <b class='flag-5'>分布式</b>、域控及SOA<b class='flag-5'>架构</b>车身功能测试方案

    分布式通信的原理和实现高效分布式通信背后的技术NVLink的演进

    大型模型的大小已经超出了单个 GPU 的范围。所以就需要实现跨多个 GPU 的模型训练,这种训练方式就涉及到了分布式通信和 NVLink。 当谈及分布式通信和 NVLink 时,我们进
    的头像 发表于 11-18 09:39 1411次阅读
    <b class='flag-5'>分布式</b><b class='flag-5'>通信</b>的原理和实现高效<b class='flag-5'>分布式</b><b class='flag-5'>通信</b>背后的技术NVLink的演进

    光通信芯片将迎来涨价潮

    随着人工智能需求的急剧上升,美国网络通信光通信芯片巨头Marvell近期宣布,自2025年1月1日起,其全产品线将实施涨价。这一举措标志着在光通信领域的涨价浪潮中,Marvell率先迈出了步伐。
    的头像 发表于 10-29 11:05 1314次阅读