百度沈抖：面向10万卡算力集群升级计算平台能力文心大模型日调用量超7亿次

　　随着大模型的参数规模越来越大，对算力的需求呈现指数级增长趋势。在9月25日召开的2024百度云智大会上，百度集团执行副总裁、百度智能云事业群总裁沈抖表示，大模型领域的著名定律Scaling Law（尺度定律）仍在持续，这一定律指出，模型性能会随着参数、算力、数据集的规模增加而提高，“很快，就会有更多10万卡算力集群出现”。

　　据沈抖观察，过去一年，已经感受到客户的模型训练需求猛增。他介绍，“2024年大模型的产业落地正在加速，目前在千帆大模型平台上，文心大模型日均调用量超过7亿次，累计帮助用户精调了3万个大模型，开发出70多万个企业级应用。”
　　大模型训练需求增加，意味着所需要的算力集群规模越来越大，与此同时，对模型推理成本的持续下降的预期也越来越高。沈抖表示，这些都对GPU管理的稳定性和有效性提出了更高要求。9月25日，百度升级AI异构计算平台百舸4.0，具备了10万卡集群部署和管理能力。
　　沈抖介绍，GPU算力集群有三个特征——极致规模、极致高密和极致互联，建一个万卡集群，仅仅是GPU的采购成本就高达几十亿元。沈抖强调，构建算力资源，并不是简单地买来GPU，把GPU连接上就好了，而是需要很多技术，“比如，GPU芯片的型号更多样，管理更复杂；GPU需要执行大量并行计算；数据的传输量变大、对速度的要求更高”，他介绍，因此，百舸计算平台需要支持异构芯片、高速互联、高效存储。
　　沈抖也表示，管理10万卡的集群与管理万卡集群也有着本质不同。首先，在物理层面，部署10万卡规模的集群，要占据大概10万平方米的空间，相当于14个标准足球场的面积，其次，在能耗方面，这些服务器一天就要消耗大约300万千瓦时的电力，相当于北京市东城区一天的居民用电量。10万卡集群对于空间和能源的巨大需求，远远超过了传统机房部署方式所能承载的范畴，若考虑跨地域部署机房，就又在网络层面带来巨大挑战。此外，十万卡集群中的GPU故障将会非常频繁，有效训练时长占也将迎来新的挑战。
　　沈抖介绍，针对这些难题，百舸4.0已经构建了十万卡级别的超大规模无拥塞HPN高性能网络、10ms级别超高精度网络监控，以及面向十万卡集群的分钟级故障恢复能力。“百舸4.0正是为部署十万卡大规模集群而设计的。今天的百舸4.0，已经具备了成熟的十万卡集群部署和管理能力，就是要突破这些新挑战，为整个产业提供持续领先的算力平台。”沈抖说。
　　不仅是百度，越来越多的科技巨头正面向AI大模型需求，提升自身的算力基础设施能力。9月初，马斯克宣布，旗下AI初创公司xAI 打造的超级AI训练集群Colossus已经正式上线，共搭载10万块英伟达H100 GPU加速卡，而在未来几个月将再翻倍增加10万块GPU。9月19日2024年云栖大会上，阿里云也表示，以GPU为主的AI算力将是未来计算范式的主导，阿里云正在从芯片、服务器、网络、存储到散热、供电、数据中心等方面，升级面向未来的AI基础设施。

百度沈抖：面向10万卡算力集群升级计算平台能力 文心大模型日调用量超7亿次