从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点
2025-08-28 13:35:00
8月27日,在第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点,通过xDeepServe架构创新,单芯片最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能,超过业界水平。

华为云Tokens服务全面接入384超节点
过去18个月,中国AI算力需求指数级增长,2024年初日均Token消耗量1000亿,今年6月底突破30万亿,增长超300倍,对算力基础设施提出更大挑战。在以往按卡时计费的基础上,今年3月,华为云推出基于MaaS的Tokens服务,提供多种服务规格,为大模型等AI工具提供灵活、便捷、低成本的算力。此次接入CloudMatrix384,吞吐量从年初的1920TPS提升至2400TPS。
据悉,大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新,充分依托了华为的“大杂烩”能力。
目前,华为云MaaS服务支持DeepSeek、Kimi等主流大模型及versatile等主流Agent平台。华为云积累了大量模型性能优化、效果调优的技术和能力,实现“源于开源,高于开源”。其Tokens服务在性能、模型适配、效果调优方面的基础,助力企业快速开发构建AI Agent。在应用层,华为云与超100家伙伴深入行业场景,共建丰富Agent,解决产业难题,加速企业智能化。
文、图|记者 潘亮