国家领域掀起超级节点：华为、阿里领跑，AI算力提升系统级效率 – 新京报

随着大规模模型参数进入爆发式增长阶段，对AI算力的需求正在加速从单点提升到系统级集成。在这种情况下，“超级节点”作为打破传统算力瓶颈的新形态产品，在业界逐渐司空见惯。华为副总裁、轮值总裁徐直军在华为全联接大会2025上表示，从构建大规模AI计算基础设施的技术角度来看，超级节点已经成为主要的产品形态，正在成为构建AI基础设施的新常态。在超级节点轨道上，国内各大科技公司已经率先给出了答案。华为此前发布了CloudMatrix384超级节点，通过高速MatrixLink网络全面连接384个Ascend NPU和192个鲲鹏CPU，组成超级“AI服务器”，单卡推理性能达到2300 token/秒nd。近日，阿里云推出了新一代攀九128超级节点AI服务器，该服务器集成了阿里巴巴自研CIPU 2.0芯片和EIC/MOC高性能网卡。一柜支持128颗AI计算芯片。全球范围内，人工智能基础设施建设正在按下“加速键”。 Nvidia、OpenAI 和 Meta 等科技巨头推出了新的人工智能基础设施计划，以推动人工智能计算能力的规模化。华龙证券认为，中美之间的AI竞争正在从“单卡性能”转向“系统级效率”。中国正在利用集群创建+生态环源引导+工程提供的优势，完成AI基础设施的突破。超级节点国家领域发展AI计算能力的努力正面临着导致超级节点诞生的真正瓶颈。中国信息通信研究院在《超级节点发展报告》中澎湃科技表示，当前的人工智能明确指出，计算能力的创造面临三大挑战：“通信障碍、能耗和散热障碍、复杂性障碍”。我们注意到，数千亿个模型的单次梯度同步产生的TB级数据使传统以太网带宽难以承受。同时，随着算力规模的增大，万级处理器导致的故障变得常态化，这进一步增加了自动化运维和RAS功能的需求。在技术定义方面，信通院明确超级节点是由AI计算节点通过高速互联协议组成的、具有较大内存空间的AI系统。一个超级节点可以支持超过32颗AI芯片。 AI芯片到交换芯片的带宽大于400GB/s开关器件的延迟小于500ns。超级节点域的AI芯片支持统一内存寻址，允许AI芯片利用内存语义直接访问其他AI芯片的内存。为了实现大规模高效组网，超级节点必须通过扩展网络来突破单机计算能力的限制，构建高速互联系统。同时，您可以跨可扩展的网络扩展集群并克服单节点计算能力的限制。这两个特性直接决定了AI模型的训练和推理效率，以及扩展算力的极限。华为等公司已完成超级节点服务的落地。徐直军表示，CloudMatrix384超级节点是基于A.所有900个超级节点之上构建的一个云服务实例。自今年3月上线以来，Atlas 900超级节点已累计使用超过300套已部署，服务超过20家客户。 Atlas 950超级节点计划于2026年第四季度推出。与同样将于明年下半年发布的NVIDIA NVL144相比，Atlas 950超级节点卡的尺寸据称增加了56.8倍，总计算能力增加了6.7倍，内存容量增加了15倍，达到1152 TB，互连带宽增加了62倍，达到1152 TB。 16.3 PB/秒华为云还发布了灵趣2.0超级节点互联协议的技术规范，并推出了全球首个通用计算超级节点——TaiShan 950超级节点。阿里巴巴集团CEO、阿里云智能事业群总裁兼首席执行官吴永明在2025云栖大会上强调，超级人工智能云是下一代计算机。新的人工智能计算范式需要更密集的计算能力、更高效的网络和更大的集群。盘九128超级节点AI服务器采用开放式该架构具有增强的可扩展性，据报道能够实现高达 Pb/s 的可扩展带宽和 100ns 的超低延迟。相比archi传统架构，相同的AI算力可以提升50%的推理性能。吴永明还宣布，阿里巴巴正在积极实施三年3800亿美元的人工智能基础设施建设计划，并将继续加大投资。国内其他厂商也在加速超级节点的设计。曙光推出国内首个基于人工智能计算开放架构设计的曙光AI超级集群系统。浪潮信息推出“元脑SD200”超级节点AI服务器，适用于万亿参数的大规模模型。沐希科技推出了多种超级节点格式，包括光互连超级节点（GPU 16-64x）和耀龙3D网格超级节点（GPU 32/64x）。巨头加大投资，全球AI基础设施遭遇冲击国信证券认为，超级节点架构的核心在于“总线级互联”和“公平协作”机制，让万卡集群像一台统一的计算机一样逻辑高效地运行，实现计算和内存资源的全局调度。华为在升腾AI芯片和超级节点上的突破，恰逢全球人工智能投资热潮计算能力。得益于华为的开放战略，国内算力产业链在芯片制造、HBM封装、光通信、液冷温控等多个领域获得了发展机遇，但主要挑战仍然集中在生态成熟度水平。与此同时，行业官员表示，超级节点正在给智能计算中心的基础设施带来重大变革。未来智能计算中心应具备“f我们的高度”：高密度、高效率、高灵活性、大规模。目前全球范围内正在掀起一场新的AI基础设施热潮。OpenAI于当地时间10月6日宣布与AMD达成战略合作伙伴关系。OpenAI将部署6GW的AMD GPU算力，以AMD Instinct系列GPU为其下一代AI基础设施提供动力。据悉，首批 1GW AMD Iinstinct MI450 GPU 已发布，预计将于 2026 年底开始部署。当地时间 9 月 22 日，OpenAI 与 NVIDIA 宣布签署意向书。两家公司计划在 OpenAI 的下一代人工智能基础设施上部署至少 10 吉瓦的 NVIDIA 系统，以训练和运行实现超级智能的下一代模型。英伟达投资增加我计划投入 1000 亿美元用于 OpenAI，以支持数据中心和电力容量部署。此前，OpenAI还签署了为期五年的算力合作协议与数据库巨头甲骨文达成价值高达3000亿美元的运营协议。多方之间潜在的利益冲突和合作行为，引发了人们对英伟达、OpenAI和甲骨文之间“循环交易”的质疑，但也指出了加速人工智能基础设施建设的行业趋势不可阻挡。 NVIDIA高管此前在财报电话会议上表示，预计到2030年AI基础设施支出将达到3万亿至4万亿美元。开元证券研报指出，全球科技巨头持续加大对AI计算基础设施的投资，这将促进智能体模型和能力的不断迭代，在内容创作、社交网络、广告、电子商务。教育和金融。新京报贝壳财经记者、微博编辑、王金宇校对、赵琳