腾讯发布星脉网络:大模型训练效率相比上代提升%

7月2日消息,腾讯昨日发布其自研星脉网络2.0版本,升级后的星脉网络支持单集群10万卡组网,网络通信效率比上一代提升60%,大模型训练效率提升20%,故障定位从天级降低至分钟级。

IT之家获悉,腾讯自研交换机从25.6T升级到51.2T,容量提升一倍;自研硅光模块从200G升级到400G,速率提升一倍;搭载自研算力网卡;整机通信带宽3.2T,腾讯发布星脉网络:大模型训练效率相比上代提升%为业界最高。

腾讯自研全新通信协议TiTa2.0的部署位置从交换机转移到了网卡上,拥塞算法也从被动拥塞算法升级为主动拥塞控制算法,将星脉网络的通信效率提升30%,让大模型的训练效率提升10%。

腾讯全新高性能集合通信库TCCL2.0采用NVLINK NET异构并行通信,实现数据的并行传输。Auto-TuneNetworkExpert自适应算法可以根据机型、网络规模、模型算法等差异,自动调整数据包分割大小、匹配算法等参数。星脉网络通信性能提升30%,让大模型的训练效率再提升10%。

▲数据的并行传输(腾讯云)

TiTa与TCCL升级带来的效果叠加,让星脉网络的通信效率共提升60%,大模型训练效率共提升20%。

【来源:IT之家】

免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052

分享:

扫一扫在手机阅读、分享本文