中国财富新闻网

您的位置:首页 > 金融理财 >

大模型训练的必修课:要想快,先修“路”

大模型狂奔近两年,Scaling law依然有效,这使得大模型的参数规模将持续增长,从亿级向跃升至万亿级。

在这个过程中,对算力的挑战也随之而来。为支撑海量数据的大规模训练,研究人员把大量服务器通过高速网络组成大规模算力集群,共同完成训练任务。

然而,集群训练会带来额外通信开销。由于各个节点之间要相互通信,这导致随着集群规模的扩大,通信损耗也随之增加。有数据显示,部分大模型训练过程中通信占比最大可达50%。

因此,大集群不等于大算力,N个GPU的算力也达不到单个GPU算力的N倍。而要提高算力集群的利用效率,关键在于提升算力网络的性能。

7月1日,腾讯云副总裁王亚晨向21世纪经济报道记者打了一个比方:AI大模型就像是一场F1比赛,GPU是马力强大的F1赛车,算力网络则是比赛赛道。“现在参加比赛的赛车越来越多,如果还用原来的赛道,那每辆赛车都跑不快,所以整个赛道也需要进行升级”。

算力网络迎来新挑战

当下,大模型对算力集群规模的需求正快速提升。以OpenAI为例,ChatGPT训练使用了千卡集群,到了GPT4变成万卡集群,而对于尚未发布的GPT5,业界普遍认为可能会是十万卡集群。

算力集群规模的增长,对算力网络也提出更多新需求。首先,大模型的训练,几乎无一例外需要使用高性能的RDMA网络,它允许计算节点之间直接通过GPU进行数据传输。

王亚晨表示,这种数据传输方法可以显著提高吞吐量并降低延迟,从而使计算节点之间的通信更加高效。同时,这也需要对网络设备持续升级,让交换机、光模块、网卡等端口速率保持在业界最领先的水平,并能灵活扩展网络规模。

其次,算力网络还要通过优化底层的通信协议来提升网络通信效率。王亚晨称,AI分布式训练采用的是集合通信的模式,与传统的通信模式差异较大,不同大模型架构也存在通信模式的差异。传统的通信模式主要是一对一、一对多等,AI分布式训练采用集合通信的模式,包括如alltoall多对多、allreduce环形通信等模式。

“这样的模式是为了更充分地利用GPU的算力,但是,该模式天然拥塞比较多,很容易增加网络通信成本。”王亚晨说。因此,算力网络要通过对网络传输协议、通信库等的提升,优化底层网络通信效率,降低网络通信成本。

最后,分布式训练也意味着单点的故障将导致整个集群不可用,但软硬件的故障本身又是难以避免的,所以如何做到在故障发生时快速定位与恢复训练,把损失降到最低,也至关重要。

自研技术助力网络升级

针对这些需求,腾讯云近日推出了全新升级的星脉网络2.0。相较去年6月发布的星脉网络1.0,星脉网络2.0可支持超10万卡大规模组网,网络通信效率提升60%,让大模型训练效率提升20%。

王亚晨表示,以前修赛道,腾讯云会从外部采购很多材料,而这次修赛道,腾讯云开始自己生产相关材料,让整个赛道的硬件水平得到大幅提升。

比如在星脉网络2.0中,交换机、光模块和网卡等网络设备均由腾讯云自研。数据显示,采用自研设备后,星脉网络交换机容量从25.6T升级到51.2T,光模块速率从200G升级到了400G,让网络延迟降低40%。

值得关注的是,星脉网络2.0搭载的腾讯自研算力网卡CNIC,是公共云业内首款为AI训练设计的网卡。网卡采用最新一代FPGA芯片,整卡带宽可达400Gbps,整机通信带宽可达3.2T。

除了对赛道硬件的升级,CNIC算力网卡上还运行着新一代腾讯自研通信协议TiTa。在赛事当中,TiTa协议相当于指挥中心,可对赛车进行调度,避免单一车道拥堵。

据王亚晨介绍,相比上一代,TiTa协议2.0从部署在交换机转移到了端侧的网卡上,协议算法也从原来的被动拥塞算法升级到了更为智能的主动拥塞控制算法,可主动调整数据包发送速率,从而避免网络拥堵。

简单来说,以前的TiTa协议是在堵塞发生后才去处理,而TiTa2.0让每辆车都知道自己开多快合适,尽量不会造成拥堵。

另外,星脉网络2.0对通信库TCCL也进行了升级。原先的通信库TCCL相当于智能导航系统,能够告诉赛车最短路径。而2.0的通信库TCCL就像把车载导航升级成一支专业车队,除了导航,它现在可以根据不同的场景,对赛车本身进行改装,让赛车时刻处于最佳性能。

针对故障修复问题,星脉网络2.0的运营系统新增灵境仿真平台,从原来仅能定位网络问题,变为可定位GPU节点问题。这相当于对星脉网络进行了360度无死角的立体监控,可以更快发现与定位网络问题,让整体故障的排查时间大幅缩短。

大模型的未来趋势是,参数规模越来越大,算力集群规模也将随之扩大。这意味着算力网络需要持续迭代,来匹配算力集群的训练需求。未来,只有通信效率不断提升,以及通信成本不断下降,才能真正充分利用算力资源。

栏目导读

赛菲尔珠宝官宣新生代最佳女演员黄米依为代言人

赛菲尔珠宝官宣新生代最佳女演员黄米依为代言人

作者:资源部

2024年4月22日,赛菲尔珠宝正式官宣「黄米依」为全新品牌代言人。据悉,赛菲尔与黄米依的携手,源于两者身上的共同特质。这场双向奔赴,基于双方共通的阳光、纯粹、一路精进的信念感,也看好彼此在各自领域里的深耕、钻研、打磨,黄米依做到了“金子般...

消博会“神仙打架”:国际巨头入华抢滩新赛道,本土品牌欲出海

消博会“神仙打架”:国际巨头入华抢滩新赛道,本土品牌欲出海

作者:叶子琪

作者:周嘉宝尽管上半年本土疫情的反复让零售市场承压,但中国这片消费热土仍被所有人寄予厚望。7月25日,第二届中国国际消费品博览会在海南海口拉开帷幕。时代财经发现,上半年零售市场的低迷情绪并没有蔓延至这场规格颇高的展会中。作为此次展会主战场,...

2023年定为“消费提振年”,广州消费市场大派“红包”

2023年定为“消费提振年”,广州消费市场大派“红包”

作者:子墨

兔年第一个工作日,刷屏的除了有“开工大吉”,还有政府派发的“大红包”。1月28日,全省高质量发展大会在广州召开。紧随其后,当天下午,广州召开全市高质量发展大会。会上,广州市商务局局长洪谦透露一个重磅信息——广州将2023年定为“消费提振年”...

无人货架凉了新零售的发展新机会在哪?

无人货架凉了新零售的发展新机会在哪?

作者:张璠

摘要:正如电商概念的完善和发展经历了一个过程一样,新零售的发展同样要经历一个从萌芽到成熟的过程。从这个逻辑来看,当前出现的无人货架困境是新零售概念发展成熟的过程当中必然要经历的一个阶段。图片来源:视觉中国从某种程度上来讲,无人货架打了新零售...

华润啤酒欲牵手喜力啤酒业“利润时代”打响高端之争

华润啤酒欲牵手喜力啤酒业“利润时代”打响高端之争

作者:苏婉蓉

中新经纬客户端3月13日电(贺陈慧)积极探索并购机会的华润啤酒,正在加快对啤酒高端市场的布局。3月9日,因传华润啤酒欲收购喜力中国业务,华润啤酒发布价格和成交量异常波动的公告,公告中提到,公司及公司控股股东经常探索和进行有关潜在交易的商业和...