你的位置:小学生手淫和邻居女孩 > bt工厂爱唯侦察 > パナソニック 分電盤 大形リミッタースペース付 露出・半埋込両用形 800G硅光交换机,如何成为新一代AIGC卷王?
パナソニック 分電盤 大形リミッタースペース付 露出・半埋込両用形 800G硅光交换机,如何成为新一代AIGC卷王?
发布日期:2024-10-10 08:26 点击次数:126
2022 年,OpenAI开拓的ChatGPT 爆火出圈,掀翻新一轮AIGC(Artificial Intelligence Generated Contentパナソニック 分電盤 大形リミッタースペース付 露出・半埋込両用形,东谈主工智能生成内容)波浪,开启AI新纪元。
据分析公司SimilarWeb数据领路,自客岁11月底ChatGPT的网站上线后,专家考察量搜索引擎握续领跑 ,照旧杰出了必应、DuckDuckGo等其他外洋搜索引擎。
图1SimilarWeb数据
在ChatGPT上涨里,专家各大巨头企业王人在积极拥抱AIGC,发布我方的AI 大模子产物和应用。截止到本年的7月初,至少5家上市公司接踵举办AI产物发布会。如百度的“文心”大模子、腾讯的“混元”大模子、谷歌的“LaMDA”大模子、阿里的“通义千问”,火山引擎的“火山方舟”、以及京东行将发布的“言犀大模子”等。
当下带宽速度带来的限度戒指与挑战
公开数据领路,从GPT-1到GPT-3,模子的参数目从1.1亿个增长到了1750亿个。有传言称,GPT-4模子的参数达到5000亿个,以致可能杰出万亿限度。因此智算中心的成立,GPU照旧成为大模子查验的核默算力援救。
NVIDIA最新发布的H800 GPU卡,浮点算力(FP32)较上一代A800晋升3X,新华三的R5500 G6做事器最大可支握8卡GPU,单机高达32P FP8算力。其配套的Cx7高速网卡也支握到单端口400Gb/s。按照单POD 400G 的Spine-Leaf 2级组网架构1:1管制揣测,最大支握2K的端口接入本事,约256台做事器限度,无法得志改日大模子的组网需求。为幸免通讯成分红为制约超算的短板,则需要更高速度的网罗带宽及高速光模块传输。因此,大模子下的超高算力撑握,或使改日800G、1.6T 高速度带宽或将成为大限度查验的主力需求。
而在本色运转中,以太网中1%的丢包率就会导致揣测集群50%的性能失掉;而关于大模子、AIGC应用等,对集群限度和性能有着强需求的业务应用而言,这些性能失掉昭彰是无法接收的。需要网罗支握RDMA条约,减少传输时延,晋升网罗糊涂。
因此,在 AI 大模子的大限度查验集群中,如何筹画高效的集群组网决策,得志低时延、高糊涂的机间通讯,从而缩短多机多卡间数据同步的通讯耗时,晋升 GPU 有用揣测时刻占比(GPU 揣测时刻/举座查验时刻),关于 AI 分散式查验集群的效率晋升至关迫切。而大限度组网带来的高功耗,亦然阻止暴戾的。
800G发布 冲突AIGC大限度组网戒指
现时各通讯厂商,正在围绕着高性能揣测及AIGC等产物积极向800G以太网过渡。其中新华三集团在2023年领航者峰会,专家首发800G CPO硅光数据中心交换机,H3CS9827-64EO,单芯片51.2T交换本事,支握64个800G端口,并会通CPO硅光本事、液冷散热筹画、智能无损等先进本事,全面终了智算网罗高糊涂、低时延、绿色节能三大需求,适用于AIGC集群或数据中心高性能中枢交换等业务场景中,助力AIGC时间极致算力开释。
图2 H3C S9827-64EO
该800G 产物的发布,可撑握单个AIGC集群限度冲突3.2万台节点,较上一代400G组网限度大幅晋升。比如:谋齐整张8K个GPU卡的大限度查验网罗,每张卡1个400G端口,揣测需要8K个节点接入。在1:1管制比的情况下,使用64口400G交换机盒盒组网,2级Spine-Leaf架构,单POD最多支握2K的端口接入,此时需要使用3级组网架构才可得志用户需求;而使用800G交换机组网,2级Spine Leaf架构下,单POD最多支握8K的400G接入,即可得志用户需求。因此,800G在澈底得志中大限度AIGC集群无阻扰传输需求的基础上,进一步晋升单集群的网罗限度,从而最猛进程保险AIGC集群的运算遵循。
图3 单POD 400G组网最大限度
图4 单POD 800G组网最大限度
性能飞涨与低碳环保之间的平衡
在并交运算经过中,AIGC集群的不同节点之间需经常地同步模子参数,一朝出现网罗延伸问题,将会对查验效率和收尾产生严重影响,因此关于网罗时延有着极高条件。全新CPO硅光本事的使用,将认真数据交换的NPU与TRX光电迁移模块进行融合封装,以此减少交换机里面的电路复杂度、澄澈延伸、传输损耗,终明晰单端口授输时延度缩短20%,意味着在单元时刻内,AIGC集群中GPU的数据交互本事不错晋升25%,大大晋升GPU的运算效率。
同期,AIGC的握续升谦让大限度的算力运转,使得数据中心的“能耗暴燥”日益加重,高速互联下的绿色数据中心的成立也成为了改日的发展趋势。
各芯片和模块厂商均在该规模握续发力中,其中以光模块的厂商为代表的LPO(线性驱动可插拨光模块)本事和芯片厂商为代表的CPO(芯片封装优化)本事突显上风。两种本事均具备低时延、低功耗、降资本的上风。区别在于LPO是光模块的封装体式,是可插拔模块向下演进的本事门道,主要用来终了降功耗,同期缩短时延和资本;CPO则是用于在不成插拔光模块架构下,把光模块移到集结交换机芯片,封装在沿途,将数据信号从传统的PCB互联径直向上到光IO互联,极大缩短了芯片用于克服传输阻抗所付出的功耗,搭配“风冷+液冷”的散热筹画,可终了单集群内的TCO缩短30%,有用助力绿色数据中心网罗成立。
高速网罗中的无损本事再演进
AIGC网罗除了对集群限度、带宽、时延、功耗等有显耀条件外,网罗贯通性及自动化也存在一定的成立需求。智能无损网罗的构建时时基于RDMA条约及拥塞戒指机制,开启RDMA后,GPU之间(GDR,GPU Direct RDMA)互访或GPU考察存储(GDS,GPU Direct Storage)均绕过了内存和CPU,缩短传输时延,开释算力。
针对AIGC场景,H3C发布的800G CPO交换机 S9827-64EO,自然支握无损关系功能,如:PFC、ECN、AI ECN、iNOF(Intelligent Lossless NVMe Over Fabric,智能无损存储网罗)、IPCC(Intelligent Proactive Congestion Control,智能主动拥塞戒指)等功能,同期,在传统RoCE基础上,差别在流量识别与探伤、动态负载平衡两个本事上进行了酌量探索,推出了SprayLink和AgileBuffer功能。
SprayLink在拥塞谢却和负载平衡本事上终明晰篡改,通过及时监控LACP/ECMP中各物理链路的带宽行使率、出口部队、缓存占用、传输时延等风雅化数据,对大象流作念到基于Per-Packet方法的动态负载分摊,也等于将每个数据包分派到那时资源最优的链路上,而非按照固定哈希算法分派。基于此方法不错使链路的带宽行使率提高到95%以上。通过带宽行使率的晋升,减少了大象流在网罗中端到端传输的时延,晋升了AI查验效率。
在晋升大象流传输效率的同期,阿谀AgileBuffer本事,也不错减年少速度流量(老鼠流)的丢包概率。AgileBuffer通过依期检测老鼠流部队对Buffer的占用比例及丢包情况,自动养息Buffer空间和丢弃概率,最猛进程优化大象流对老鼠流的影响,终了多业务平衡贯通运转。
临了,在搪塞网罗拓扑变化的切换反应上,S9827硅光交换机支握ns级硬件自动感知本事,概况快速识别链路切换看成,并完成相应的表项刷新,条约对接、无损参数养息等一系列看成,终了自动感知、自我转变后果,极大缩短了网罗故障对业务的影响进程,有劲撑握AIGC智算集群贯通运转。助力AIGC网罗的高糊涂、零丢包、低时延的智能无损新体验。
结语
AIGC产业的爆发及强算力带动了800G以太网的需求。新华三集团深耕网罗二十余载,勉力于于先进网罗本事的探索和篡改, 800G CPO硅光数据中心交换机的首发、助力数据中心网罗变革,全面拥抱AIGC时间。改日,新华三将秉握“精耕求实,为时间赋灵敏”的理念,握续晋升云智原生数字平台的本事,为数字经济高质料发展夯实智能集合基石。
注:参考以下文件
中国移动酌量院本事白皮书—《面向 AI 大模子的智算中心 网罗演进白皮书》(2023年)
知乎—《AIGC引爆800G以太网需求,如何通过IP和考据赋能以太网?》
新华三公众号—《专家首发!新华三推出800G CPO硅光数据中心交换机》
相关资讯