大模型计算性能有瓶颈?也许你该检查下网络吞吐了
(CWW)随着人工智能的快速发展,AI模型不断向大规模方向发展,而分布式并行计算是实现AI大模型训练的关键手段。在这个计算过程中,网络吞吐是影响分布式训练质量和速度的重要因素。本文将就网络吞吐对AI训练的影响以及如何通过增加通信效率促进AI集群算力线性提升进行探讨。
一、分布式并行计算是实现AI大模型训练的关键手段
随着AI模型规模的不断扩大,单GPU,单服务器已经无法满足计算和存储需求,分布式并行计算应运而生,即将计算任务以数据并行、流水线并行及张量并行等分布式并行方式分配到多台服务器上,来加快模型训练速度。
【资料图】
在数据并行模式下,数据被分割成多个部分,分配给不同的计算设备进行并行计算。这种并行模式需要多次集合通信操作来传递计算结果;在流水线并行模式下,不同的计算设备分别处理输入数据的不同阶段,每个阶段的结果通过集合通信操作传递给下一个阶段;在张量并行模式下,不同的计算设备分别处理输入数据的不同维度或不同部分,进行并行计算,这种并行模式同样需要多机多卡间的集合通信操作,以保证计算结果的准确性和训练效率。
因此,整网的集合通信性能对于Al网络的性能至关重要,网络性能决定了数据并行、流水线并行和张量并行等不同并行模式的效率,并直接影响集群对大模型训练的时间。
二、网络性能会直接影响分布式训练的效率
在分布式计算环境中,不同计算机之间需要频繁地进行数据交换和通信。因此,网络性能的优劣会直接影响分布式训练的质量和速度。如果网络吞吐不够大,数据传输就会成为瓶颈,从而限制了分布式训练的效率。
首先,让我们来看看allreduce通信特征。allreduce是一种集合通信操作,用于将所有工作节点的结果进行汇总并返回。在allreduce中,同一时间均为点到点通信,无多打一,流数少,单流带宽大,流量模型是对分流量。理想目标是所有流量都能够在1:1无收敛的网络中均衡传输,从而使整网吞吐达到100%。
然而,在实际应用中,ECMP多路径时流量哈希冲突会导致带宽不均衡,进而影响端侧数据发送带宽。在allreduce的流数少,流量大的情况下,基于ECMP进行负载均衡的网络中,网络节点仅站在自身视角将流量通过哈希选路发送,会出现流量Hash不均甚至HASH极化最终导致链路拥塞、出端口拥堵,整网利用率低等问题。
图1:Hash冲突的两种典型场景
另外,由于这个流量特征是由于通信库导致的,因此不论是IB还是RoCE都面临这个网络负载不均衡问题。
图2:英伟达在2023云网智联大会上介绍IB的负载均衡问题
图3:基于经典模型Halving Doubling Allreduce算法仿真的数据
在拥塞时,拥塞时队列深度增加,导致长尾时延增大,这是影响集合通信性能的关键因素,降低网络长尾时延可有效提升训练完成时间。
图4:集合通信里的长尾效应
因此,网络性能对分布式训练的质量和速度有着重要的影响。在AI DC中必须要采取相应措施来优化网络负载均衡的问题,以保证整网利用率的最大化进而保障整个AI集群的效率最大化。AI集群网络的吞吐效率将直接影响整个智算中心集群的效率。
三、通过增加通信效率促进AI集群算力线性提升
在没有实现全局负载均衡的网络中,整体通信效率为30%~56%之间,这说明有一半的网络性能没有被使用,也就意味着整个集群的算力使用率仅仅为30%~56%左右。在AI计算场景下,网络负载分担不均问题是当前业界的一个重大的难题,Google就曾指出在其数据中心中存在多级HASH不均问题导 致10K规模组网下整网吞吐低于25%的问题。
为了提高网络吞吐,进一步释放集群算力,业界已经有很多尝试和方案:
3.1英伟达通过自适应路由来解决负载不均问题,网络吞吐从50%提升到90%
图5:英伟达InfiniBand网络自适应路由方案
图6:英伟达RoCE网络自适应路由方案原理
图7:英伟达RoCE网络自适应路由方案效果
在ECMP图中,某些流具有相同的带宽和完成时间,而其他的流因为冲突,导致完成时间更长,带宽更低。具体来说,在ECMP场景中,一些流实现了13秒的最佳完成时间T,而最慢的流量需要31秒,大约是最佳流量的2.5倍T时间。而在RoCE自适应路由图中,所有流都在大约相同的时间,峰值带宽相似。
3.2中国移动发布全调度以太网架构白皮书,旨在解决网络负载不均衡问题
与传统以太网基于流进行负载分担的机制不同,GSE (全调度以太网)交换网络采用定长的PKTC 进行报文转发及动态负载均衡,通过构建基于PKTC 的DGSQ 全调度机制、精细的反压机制和无感知自愈机制,实现微突发及故障场景下的精准控制,全面提升网络有效带宽和转发延迟稳定性。
图8:GSE网络端到端流量转发示意图
GSE 面向无损、高带宽、超低时延等高性能网络需求业务场景,兼容以太网生态链,通过采用全调度转发机制、基于PKTC 的负载均衡技术、基于DGSQ的全调度技术、精细的反压机制、无感知自愈机制、集中管理及分布式控制等技术,实现低时延、无阻塞、高带宽的新型智算中心网络。
3.3华为AI Fabric基于NSLB实现整网吞吐提升至98%
AI训练大流为主(100MB~几GB),流数量少,单流通信数据量大,传统网络更易负载不均,常年吞吐仅有50%;每个周期内最慢的一条流到达后,才能进行下一轮通信,性能取决于最慢的流。
华为采用NSLB2.0算法,可根据整网交换机节点流拥塞状态和全网拓扑进行全局算路,识别出最优路径,整网吞吐可提升至98%。
图9:NSLB优化以太网负载均衡机制,实现整网满吞吐
图10:NSLB在某实验室测试效果,网络性能最高提升113%
网络吞吐是AI DC的核心关键指标,AI网络的吞吐直接决定整个智算中心的效率高低
由于网络作为整个数据中心内的通信高速公路,其枢纽作用对计算效率,整体投资和能源消耗都有放大效应,网络性能10%的提升,能够撬动整体性能、投资和能耗数倍的提升:
1.更高效完成训练任务,降低TTM:运力驱动算力,通过全局网络负载均衡技术可以使训练任务更高效的完成,效率最高可提升22%左右。如使用512张V100完成1750亿参数的GPT3训练,配套传统负载均衡技术训练大约需要8.75个月,而在全局负载均衡下的训练可以缩短到7个月,提前释放的资源可用于其他任务,为算力集群带来更高收益。
2.实现集群性能完美线性扩展,降低Capex:在智算中心软硬件基础设施的建设中,近70%投资用于计算设备,网络占比低于20%,剩余部分为存储和安全设备。如果网络存在负载不均问题,此时能释放的集群算力仅有60%左右。但通过改进网络负载均衡技术,可通过占比不到20%的网络拉动3倍以上投资的算力资源,实现集群性能完美线性扩展。
3.节能减排,降低Opex:节省的算力资源除一次性购置成本外,其所配套的机架、能耗等成本同样可观。千卡昇腾910B集群的整体供电需求可达760KW,通过网络负载均衡技术节省的算力资源以外,还可节省由于非线性扩展带来的额外电费80万/年。
综上所述,网络吞吐是AI DC的核心关键指标。衡量AI网络性能的关键指标是整网的集合通信性能(allreduce),在规划、建设AI DC的前期,需要针对网络性能制定相应的建设规范和设定性能指标,并在正式部署前进行严格的功能和性能测试,确保网络不能成为算力释放的瓶颈。例如可以设定网络线性度指标来衡量网络的整体性能:
最后,没有针对性进行负载均衡优化的网络不适用于AI DC,不论是IB网络还是RoCE网络。
关键词:
相关阅读
-
大模型计算性能有瓶颈?也许你该检查下...
随着人工智能的快速发展,AI模型不断向大规模方向发展,而分布式并行计 -
大酒店(00045):廖宜菁获任执行董事及企...
大酒店(00045)发布公告,廖宜菁将加入董事局为公司执行董事及企业及管 -
新疆巴州森林消防走进武警中队参观学习
8月2日,巴州森林消防支队组织库尔勒、阿克苏大队以及勤务中队班长以上 -
赛力斯汽车上榜2023《财富》中国500强 ...
近日,2023年《财富》中国500强榜单出炉,赛力斯汽车首次上榜,位列第3 -
墨玉的分级一细
墨玉的分级有一细、二细、三细等级。一细墨玉是指墨玉的颜色较浅,纹路 -
生意社:山东苯乙烯市场行情下跌
证券时报网讯,生意社数据显示,8月2日苯乙烯市场行情下跌。山东苯乙烯 -
跟男友旅游,他开了间房,想与我亲热,...
【粉丝来信】我和男友相识一年,彼此都很相爱。我们共同兴趣相投,彼此 -
关于校园参观,北大清华最新通知!
近日,北京大学和清华大学相继发布消息称,今年的暑期预约参观即将结束 -
6年亏超40亿,AI芯片第一股寒武纪裁员过冬
本文来源:时代周报作者:杨玲玲“AI芯片第一股”寒武纪(688256 SH) -
胜宏科技:公司“超导线路悬空电路板研...
每经AI快讯,有投资者在投资者互动平台提问:请问贵公司“超导线路... -
测试品胜电池实际容量
1、电池的实际容量是指电池能够存储的电荷量,通常用毫安时(mAh)表示 -
饮料杯历险记(关于饮料杯历险记的基本...
大家好我是小蝌蚪,饮料杯历险记,关于饮料杯历险记的基本详情介绍很多 -
建设银行龙鼎金条价格今天多少一克(202...
金投网提供建设银行龙鼎金条价格今天多少一克(2023年08月04日),建设 -
最高人民法院原副院长沈德咏受贿案一审宣判
新华社报导,2023年8月4日,浙江省宁波市中级人民法院公开宣判十三届全 -
国米有意在明夏,签下法甲23岁1米90自由...
蓝黑军团正在转会市场上,寻找一名中卫。虽然今年夏天,国米签下了22岁 -
河北启动重大气象灾害(暴雨)Ⅳ级应急响应
中新网石家庄8月4日电(郝烨)河北省气象台于8月4日11时36分发布暴雨 -
《原神》3.8版迪奥娜武器圣遗物推荐
原神最近进行了版本更新,新版本更新了很多东西,《原神》3 8版迪奥娜 -
海沧文化产业蓬勃发展 将以文博会为契...
今年文博会,海沧区将带来玛瑙、漆器、雕塑等海沧工艺美术拳头产品。海 -
铁电材料首次被制成“橡皮筋” 为可穿...
8月4日,国际学术期刊《科学》刊登了中国科学院宁波材料所柔性磁电功能 -
港股开盘:指数高开,恒生科技指数涨2.3...
8月4日,港股开盘,指数高开,恒生指数涨1 29%,恒生科技指数涨2 38%。