马斯克启动“全球最强大AI训练集群” 背后隐藏内忧外患
ty实话实说2017
发表于 2024-7-24 11:50:05
1091
0
0
据马斯克介绍称,该集群在单个RDMA fabric上使用10万张液冷H100,是“世界上最强大的AI训练集群”。其目标是在今年12月前训练出“按每项指标衡量都是世界上最强大的人工智能。”
马斯克此前曾表示,xAI计划于8月发布Grok 2,但目前并未宣称利用新的超级计算集群训练Grok 2。不过,确定的是计划于2024年底发布的Gork 3将在孟菲斯超级训练集群进行训练。本月早些时候,马斯克在X的一篇文章中指出,xAI的Grok 3将在100,000个 H100 GPU上进行训练,因此“它应该非常特别”。
从规模上看,新的xAI孟菲斯超级集群确实在GPU算力方面超越了最新Top500榜单上的任何一台超级计算机。如Frontier(37,888 个 AMD GPU)、Aurora(60,000个Intel GPU)和Microsoft Eagle(14,400个Nvidia H100 GPU),似乎都远远落后于xAI机器。
尽管规模庞大,但“世界上最强大的AI训练集群”的名头难以长期保持。
目前,微软、谷歌和Meta等其他科技巨头也都在扩建数据中心来训练和运行他们的人工智能模型。路透社曾报道称,微软和OpenAI正在计划建设一个数据中心项目,该项目将包含一个拥有数百万专用服务器芯片的超级计算机,而目前项目耗资可能1150亿美元,包括一个名为 Stargate(「星际之门」)的人工智能超级计算机,预计将于2028年启动。
Meta首席执行官扎克伯格也在今年一月份表示,到2024年底,公司的计算基础设施将包括3万张H100显卡。他还补充道,“如果包括其他GPU,则大约有60万台H100等效计算。”
此外,除了算力竞争激烈的外患以外,xAI建设算力中心的内忧也一直存在。
据孟菲斯当地媒体报道,xAI将在占地785,000平方英尺的前伊莱克斯孟菲斯工厂建造一个超级计算机集群,“将是该市历史上一家新进入市场的公司最大的资本投资。”
负责这笔交易的经济增长非营利组织大孟菲斯商会会长泰德·汤森称,经过3月份几天的激烈谈判,马斯克和他的团队(其中包括来自他几家公司的代表)选择了田纳西州的孟菲斯市,因为这里电力充足,而且建设速度快。
然而,xAI还没有与当地公用事业公司田纳西河谷管理局(Tennessee Valley Authority)签订合同,“TVA 尚未与xAI签订合同。我们正在与xAI和MLGW的合作伙伴就提案和电力需求的细节进行合作。”TVA还指出,任何超过100兆瓦的项目接入电力系统都需要TVA批准。
尽管大孟菲斯商会团体赞扬xAI在该地区开设设施的决定,但一些当地人对该设施的能源和水消耗表示担忧。孟菲斯社区反污染组织和其他两个环保组织警告说,计算机设施会造成严重的“能源负担”。他们表示,“xAI预计每天至少需要一百万加仑的水用于其冷却塔。”
孟菲斯市议会的几名成员正敦促政府停止马斯克算力工厂在孟菲斯建设,因为社区对这笔交易的秘密性质以及数据中心对电力和水的要求越来越担忧。
CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
You may like
- 国际货物贸易保持强大韧性
- 黄仁勋重磅官宣!“全球最强大的芯片”已开始投产
- 蔚来创新业务集群多部门更名?官方回应:公司会根据业务发展规划组织、人事等事务
- 特斯拉得州超级计算集群被命名为“Cortex”,拥有近10万颗英伟达芯片
- 马斯克:史上最强AI训练集群上线 将再增加10万颗GPU
- AI周报|xAI上线全球最大AI训练集群;谷歌高管警告称AI未必能影响生产力
- 百度沈抖:面向10万卡算力集群升级计算平台能力 文心大模型日调用量超7亿次
- 报告编译|欧盟1200个集群,数字化和绿色能源占45%
- 报告编译|欧盟1200个集群,数字化和绿色能源占45%
- 谷歌放出最强大模型狙击OpenAI 重心转向AI智能体