华为这次是真要放大招了。
上海人工智能大会上即将发布的昇腾384超节点,384颗NPU+192颗CPU抱团干大事,专门解决大模型训练时算力堵车的顽疾。
这场算力突围战背后,藏着中国科技企业最硬核的反杀。
看看参数就刺激。
官方透露每台设备能塞下12000张加速卡,算力密度直接比英伟达DGX SuperPOD高30%。
最狠的是带宽拉到2.4Tbps,相当于同时传输50部4K电影。
这玩意跑通千亿参数大模型,训练时间能压缩到三天以内,对比去年某互联网巨头用英伟达卡搭的集群,效率直接翻倍。
关键是能无限堆叠,现在华为廊坊基地已经搞出万卡级集群,据说单集群日均训练成本比进口方案低40%。
懂行的都清楚,这波操作其实是逼出来的。
去年美国卡住A100/H100出货,国内大厂急得跳脚。
现在昇腾910B实测算力虽然只有H100的75%,但胜在互联技术牛逼。
华为把自家光通信技术融进去,搞出这个能跨机柜组网的怪物。
业内流传某头部AI公司测试时惊了,用384颗昇腾跑175B参数模型,训练速度居然比同规模英伟达集群快15%,数据堵车问题真给解决了。
但别急着沸腾。
现在供应链还卡着脖子呢,昇腾芯片用的7nm工艺全靠中芯国际撑着,良率据说才60%。
隔壁英伟达的H20虽然性能阉割,但靠着成熟生态,今年在国内已经卖出20亿美元。
华为现在急缺软件生态,自家MindSpore框架市占率才12%,跑通昇腾集群得专门配算法优化团队,普通企业根本玩不转。
最骚的操作在商业层面。
华为把算力集群当水电卖,搞出个“算力加油站”模式。
郑州人工智能计算中心已经接单,企业按模型训练时长租用,每小时收费比云服务低三成。
这招直接捅破英伟达的利润护城河,毕竟老黄卖的是铲子,华为直接开挖金矿的服务。
看客们可能没注意,这波算力竞赛背后藏着大国博弈。
美国刚更新的AI芯片禁令里,特别点名要限制集群规模。
华为这时候亮剑,明摆着告诉对手:物理封锁没用,架构创新照样破局。
苏州超算中心的人私下说,他们用昇腾集群跑气象大模型,原本需要进口设备三个月才能搞定的预测任务,现在二十天就能交差。
当然也别神话华为。
实测中发现跑某些Transformer模型时,昇腾的显存带宽还是瓶颈。
业内都在等下一代芯片,听说已经在测试12nm工艺,内存容量打算翻倍。
现在最现实的问题是,国内互联网大厂到底会不会真金白银支持?
百度去年买了上万张昇腾卡,但核心业务还是用着库存的A800。
