异构协同新范式:Arm Lumex引领端侧AI计算革命

Arm Lumex重新定义端侧AI,开启智能计算新纪元

Arm Lumex 异构协同 AI 计算 子系统

每日讯闻2025年09月14日 09:02消息,Arm Lumex计算子系统平台,引领端侧AI异构协同新趋势。

   9月10日,在ArmUnlocked2025峰会上,Arm正式发布了全新的ArmLumex计算子系统(ComputeSubsystem,CSS)平台。该平台专为高端智能手机和下一代个人电脑设计,旨在提升设备端的人工智能体验。

   LumexCSS平台由Arm官方推出,集成了搭载第二代可伸缩矩阵扩展(SME2)技术的高性能Arm CPU、GPU及系统IP,不仅能够助力生态合作伙伴加速AI设备的开发与上市进程,还能支持桌面级移动游戏、实时翻译、智能助手等多种应用场景,为消费电子产品注入“更智能、更高效、更个性化”的能力。 从行业发展趋势来看,LumexCSS平台的推出标志着Arm在推动边缘计算和人工智能融合方面迈出了重要一步。其技术优势不仅体现在性能提升上,更在于对多样化应用场景的支持,这将有助于提升终端设备的用户体验。随着AI技术不断渗透到日常生活中,这样的平台无疑将为整个产业链带来新的发展机遇。

   Lumex平台的核心组件包括:采用第二代可伸缩矩阵扩展(SME2)技术的全新Armv9.3CPU集群、搭载新一代光线追踪技术的ArmMaliG1-UltraGPU、先进的系统IP模块,以及为3纳米工艺节点优化的物理实现方案。

   这一高度集成的平台化交付方式,为Arm的合作伙伴带来了前所未有的灵活性。他们既可以直接使用Arm提供的、经过先进物理实现优化的平台,从而加快产品上市进程;也可以根据自身目标市场的需求,对平台的寄存器传输级(RTL)设计进行定制,并自主完成核心模块的硬化工作。

   Arm在发布会上展示了令人瞩目的技术进展:凭借全新的SME2技术,CPU的AI性能提升了五倍;而新一代GPU则在光线追踪性能上实现了两倍的突破。 从技术演进的角度来看,这些提升不仅体现了Arm在芯片架构优化上的持续投入,也反映出其在人工智能与图形处理领域的战略聚焦。五倍的AI性能增长,意味着未来终端设备在本地化AI任务处理上将更加高效,有助于推动边缘计算的发展。而光线追踪性能的显著增强,则为游戏和专业图形应用带来了更逼真的视觉体验,进一步拓展了GPU的应用边界。这些技术进步无疑将对整个行业产生深远影响。

   这些数字背后,体现了Arm对未来发展计算架构的深入思考,以及在日益复杂的芯片设计挑战中,为整个生态系统提供的战略性解决方案。 从行业发展的角度来看,Arm通过这些数据展现的不仅是技术实力,更是一种面向未来的布局。随着人工智能、物联网等新兴领域的快速演进,芯片架构的灵活性与能效比变得愈发重要。Arm的策略性布局,不仅有助于推动自身生态的持续壮大,也为全球开发者和企业提供了更可靠的底层支持。这种前瞻性思维,正成为推动行业进步的重要力量。

   9月10日下午,Arm举办了针对ArmLumex计算子系统的专题技术分享活动,笔者也受邀参与其中。接下来,我们将深入了解ArmLumex计算子系统在技术细节上的创新之处。 从此次技术分享来看,ArmLumex在计算架构设计上展现出更强的灵活性与能效比,尤其在多核协同与异构计算方面有明显突破。这种技术升级不仅有助于提升终端设备的性能表现,也为未来AI、边缘计算等应用场景提供了更坚实的基础。可以看出,Arm正在持续强化其在计算平台领域的竞争力。

   ArmLumexCSS平台的核心是其全新推出的C1CPU集群。此次升级的最大亮点并不局限于传统的单线程性能提升,而是通过战略性地引入第二代可伸缩矩阵扩展(SME2)技术,重新塑造了CPU在异构AI计算环境中的定位。

   C1CPU集群是首款采用Armv9.3架构并原生支持SME2技术的CPU系列。该技术为边缘端人工智能带来了突破性进展,在相同条件下,相比前代CPU集群,其AI性能提升最高达五倍,同时能效优化提升了三倍。

   在实际应用中,这些宏观性能的提升能够显著改善用户的使用体验。例如,在处理语音任务时(基于WhisperBase模型),系统延迟减少了4.7倍;在运行GoogleGemma3模型进行对话交互时,AI的响应效率提升了4.7倍;而在使用StabilityAIStableAudio模型生成音频时,处理速度也提高了2.8倍。 这些数据反映出技术进步正在从底层架构向用户体验层面逐步渗透。尤其是在人工智能领域,计算效率的提升不仅意味着更快的响应速度,更意味着用户能享受到更自然、更流畅的交互体验。随着模型优化和硬件协同的不断深入,未来这类性能跃迁将更加频繁地出现在各类应用场景中。

   然而,SME2的战略价值远不止于表面的性能提升。在媒体问答环节,Arm高管透露,SME2技术可为CPU提供额外的2到6TOPS算力。尽管这一数值与一些宣称拥有上百TOPS算力的专用NPU相比显得微不足道,但这也恰恰体现了Arm的长远布局。实际上,许多实际应用中的AI任务,例如语音唤醒、图像预处理以及实时情境感知助手等,其性能瓶颈往往并非计算能力,而是内存带宽。一个具备百TOPS算力的NPU,如果因数据传输速度受限而无法充分发挥作用,其理论上的高性能也就失去了意义。 从技术发展的角度来看,SME2的推出表明Arm正在尝试通过优化内存与计算之间的协同效率,来应对当前AI应用中更复杂的需求。这种策略或许能在特定场景下带来更高效的解决方案,而非单纯追求更高的算力指标。

   CPU由于能够以低延迟直接访问系统缓存和内存,在处理规模小、触发频繁且对延迟极为敏感的任务时,效率明显优于启动高功耗的NPU。因此,Arm并不是试图用CPU替代NPU,而是在打造一个更加精细化的三级异构计算架构。

   搭载 SME2 的 CPU:负责处理“持续在线、低延迟”的小模型任务。

   GPU:负责处理与图形渲染相结合的大规模并行 AI 任务。

   NPU:负责处理高吞吐量、计算密集型的大模型推理任务。

   这是一种基于工作负载特性的精细化处理器优化策略,已逐渐成为行业内的成熟做法,而非一味追求峰值算力的“军备竞赛”。SME2的引入,为系统带来了全新的、高效且灵活的AI计算层级,进一步提升了整体性能表现。这一技术升级不仅体现了对实际应用场景的深入理解,也标志着芯片设计思路向更智能、更实用方向的重要转变。

   为了满足从旗舰到入门级市场的不同需求,Arm 推出了分工明确的 C1 CPU 系列,所有核心均可通过全新的 Arm C1-DSU(DynamIQ Shared Unit)进行多达 14 个核心的灵活组合。该 DSU 本身也经过优化,与上一代 DSU-120 相比,功耗节省高达 26%。

   ArmC1-Ultra作为旗舰核心,延续了Arm连续六年实现两位数IPC增长的强劲势头,其单线程峰值性能相比上一代Cortex-X925提升了高达25%。这一突破性进展得益于其领先的前端设计、业内最宽的微架构以及高效的预取器优化,进一步巩固了Arm在高性能计算领域的领先地位。 从技术角度看,ArmC1-Ultra的性能提升不仅体现了架构设计的进步,也反映出其在提升能效比和处理能力上的持续投入。这种持续的性能跃升,对于移动端和高性能计算市场来说,无疑是一个积极的信号,也为未来更多创新应用奠定了基础。

   Arm C1-Premium 是 Arm 首次推出的次旗舰处理器。其核心创新在于卓越的面积效率,在 SPEC 等基准测试中保持了与 C1-Ultra 相当的性能水平,但其核心面积(包含私有 L2 缓存)却缩小了 35%,为次旗舰 SoC 设计提供了更优的成本与性能平衡点。

   ArmC1-Pro专注于提升持续能效表现。相比Cortex-A725,在相同主频下,其持续性能提升了16%;而在视频播放、社交媒体等日常使用场景中,同等性能下能效提高了12%。这一改进表明,处理器在保持高性能的同时,对功耗的控制也更加精准,有助于延长设备续航时间,提升用户体验。对于用户而言,这意味着在日常使用中,设备不仅运行更流畅,同时也能更省电,具备更强的实用性与稳定性。

   ArmC1-Nano在能效和面积优化方面表现出色,相比Cortex-A520,其能效提升了26%,核心面积则缩小了2%。这一进步使其成为可穿戴设备和小型消费电子产品中的理想选择,尤其适合对功耗和空间有严格要求的应用场景。 从技术发展的角度来看,ArmC1-Nano的推出体现了芯片设计在精细化方向上的持续突破。在移动设备日益轻薄化的趋势下,提升能效比和缩小芯片面积成为关键竞争点。这种改进不仅有助于延长电池寿命,还能为设备提供更多内部空间用于其他功能模块的集成。对于厂商而言,这意味着可以在不牺牲性能的前提下,打造更轻便、更智能的产品。

   在 Arm Lumex CSS 平台的图形与 AI 推理环节,全新 Arm Mali G1-Ultra GPU 扮演着核心角色。

   作为 Arm 迄今为止性能最强的移动 GPU,Mali G1-Ultra 不仅延续了 Arm 在手游领域的优势(截至目前,搭载 Arm GPU 的芯片出货量已逾 120 亿颗),更通过新一代光线追踪技术与 AI 加速设计,将移动设备的图形体验推向桌面级水准,同时强化了端侧 AI 推理能力。

   从核心技术升级的角度来看,Mali-G1 Ultra的突破主要体现在第二代光线追踪单元(RTUv2)、AI加速指令以及架构优化三个方面。这些改进不仅提升了图形处理能力,也为未来的游戏和AI应用奠定了更坚实的基础。可以看出,此次升级在技术层面具有明显的前瞻性,反映出芯片设计在兼顾性能与能效上的持续探索。

   其中,RTUv2 作为专为移动端实时性能设计的硬件单元,较上一代 Immortalis-G925 GPU 的 RTUv1 实现了两倍光线追踪性能提升,且采用单光线模型与独立电源域设计 —— 独立电源域可在设备空闲时为 RTUv2 断电,进一步节省功耗;单光线模型则大幅增强了对非一致性光线的支持,使移动设备能呈现桌面级的光照、反射与阴影效果。

   在实际游戏测试中,Mali G1-Ultra 的表现尤为突出:《暗区突围》性能提升 25%,《崩坏:星穹铁道》提升 19%,《原神》提升 17%,《堡垒之夜》提升 11%,而在 Arm 内部游戏演示《Mori 林间鼯语》中,性能提升更是达到 26%。此外,在启用硬件光线追踪的游戏中,Mali G1-Ultra 的帧率较上一代提升 40%,彻底改变了移动设备“光追性能不足”的现状。

   在AI加速方面,Mali-G1-Ultra引入了全新的矩阵乘法单元(MMUL)FP16指令,专门针对语义分割、去噪、深度估计、物体检测等端侧关键AI任务进行优化。相比上一代Immortalis-G925 GPU,其AI与机器学习网络推理速度提升了20%,在部分应用场景中性能提升最高可达104%。

   同时,通过扩大 L2 缓存与优化互连设计,Mali G1-Ultra 实现了 AI 与图形工作负载的并行处理,大幅减少内存瓶颈,确保实时 AI 应用(如计算摄影、AI 滤镜)的流畅运行。

   架构层面,Mali G1-Ultra 作为 Arm 第五代 GPU 架构的代表,引入了双堆叠着色器核心与快速访问统一寄存器设计:双堆叠着色器核心使内部带宽加倍,减少了数据拥塞;快速访问统一寄存器则在着色器执行期间大幅减少内存提取,显著提升了实时光照、基于物理渲染等计算密集型工作负载的响应速度。此外,新增的 Arm 图像区域依赖(IRD)调度特性,可让 GPU 同时处理屏幕不同部分,在复杂场景中减少空闲时间、提升性能。

   Arm推出了MaliG1-Premium与MaliG1-Pro两款GPU,配合已有的MaliG1-Ultra,共同构成了MaliG1系列。这一系列提供了从1到24个着色器核心的多种配置选项,使系统级芯片(SoC)设计厂商能够根据目标市场——从旗舰手机到中端设备——灵活选择,从而在性能与成本之间找到最佳平衡点。 从市场布局来看,Arm此次的策略更加精细化,针对不同层级的设备需求进行差异化设计,有助于提升其在移动图形处理领域的竞争力。同时,多样化的核心配置也为企业提供了更大的定制空间,有利于推动更广泛的应用场景落地。

   Mali-G1系列在开发者工具方面表现出更强的可观测性,其通过基于块(tile)的硬件计数器,为开发者提供了更细致的性能数据支持。借助Vulkan扩展,开发者可以访问这些计数器,进一步优化应用表现。未来安卓版本还将引入对RenderDoc的支持,帮助开发者更精准地识别性能瓶颈,实现工作负载的合理分配与平衡。 从技术发展角度看,这一改进不仅提升了图形处理的透明度,也为开发者提供了更强大的调试手段。随着安卓生态对高性能工具的持续完善,开发者将能更高效地进行性能调优,推动移动应用体验的持续提升。

   同时,Mali G1 系列支持 Arm 精锐超级分辨率技术(Arm ASR),该时域类超分技术已集成至虚幻引擎 5 与《堡垒之夜》手游,可在减少 GPU 工作负载的同时提升图像质量,帮助开发者在保持高帧率的前提下,实现更清晰的视觉细节。

   不久前,ARM 还宣布了一项名为“Arm 神经技术”(Arm Neural Technology),这项技术将专用神经加速器引入 2026 年推出的 Arm GPU 上。在本次技术分享会上,Arm 也提到了这项未来技术,它将是一个可编程的、基于 AI 的硬件模块,专门用于处理超级采样、降噪等任务。

   这展现了一条明确的发展路线:首先借助软件方案(ASR)建立生态、验证可行性,未来再通过专用硬件实现性能与能效的显著提升。这一路径与桌面GPU领域从通用渲染架构向专用TensorCore的演进过程高度相似,表明Arm正在为移动端下一代AI原生图形技术的发展奠定基础。

   Lumex平台在硬件方面的进步确实引人注目,但其真正价值的实现,仍有赖于一个强大且经过精心设计的软件生态系统。其中,ArmKleidiAI软件库是这一生态体系的核心。可以说,软件是Arm推动其硬件创新被开发者迅速、广泛采用的关键战略工具。

   KleidiAI是一个免费的软件库,其核心优势在于能够让开发者在不修改任何代码的前提下,无缝调用SME2等硬件的加速功能。

   它通过深度集成到所有主流 AI 框架中来实现这一点,包括 PyTorch ExecuTorch、Google LiteRT、阿里巴巴 MNN 以及微软 ONNX Runtime。当开发者使用这些框架构建应用时,其 AI 工作负载就能在兼容的硬件上自动获得加速。

   这一策略的成功,从数据上可见一斑。目前,KleidiAI在搭载Arm架构的设备上累计安装量已超过80亿次,并且仍在持续增长中,这表明其在开发者社区中获得了广泛认可和高度采纳。 从行业发展趋势来看,Arm架构凭借其低功耗、高能效的优势,在移动设备、边缘计算乃至数据中心领域正逐步扩大影响力。KleidiAI能够取得如此庞大的安装量,不仅反映了其技术的成熟与实用性,也说明开发者对其在不同应用场景下的适应性持积极态度。这一成绩的背后,是持续的技术创新与生态合作的结果,也为未来更多基于Arm平台的应用开发提供了坚实基础。

   此外 Arm 还为不同操作系统提供了清晰的 AI 加速路径:

   在安卓平台,加速功能主要通过Kleidi技术集成至Google的XNNPack库中,而XNNPack是LiteRT的核心运行时环境。这意味着数以千计使用标准GoogleML工具的安卓应用将自动享受到性能提升。

   在Windows on Arm平台上,主要路径是通过ONNX Runtime框架,该框架为Copilot、Office 365等核心应用的AI功能提供支持。

   这种对开发者生态的深度支持,有效破解了新硬件推广中常见的“鸡生蛋,蛋生鸡”困境。KleidiAI实现了从Armv8的Neon指令集到Armv9的SME2的兼容性,构建了一个稳定且统一的软件抽象层。

   开发者只需面向高层框架进行一次开发,KleidiAI便会自动在不同设备上选择最优的执行路径。这大幅降低了开发难度,同时确保当消费者购买搭载Lumex平台的手机时,已有大量应用能够迅速发挥该设备的高性能优势。 从技术角度来看,这种跨设备优化能力是提升用户体验的关键。它不仅减少了开发者的适配负担,也让终端用户无需担心应用兼容性问题。随着更多厂商采用Lumex平台,这种生态优势将更加明显,进一步推动移动应用生态的繁荣。

   总体来说,ArmLumexCSS平台的推出,远不止是硬件层面的一次升级。这标志着Arm从IP授权商向平台提供商的战略转型,也是其针对当前半导体行业在端侧AI应用迅速增长以及先进制程制造日益复杂这两个关键挑战所作出的明确回应。

   通过C1CPU集群和SME2技术,Arm重新定义了异构计算中各处理单元的角色,为低延迟AI任务提供了更高效的技术路径。MaliG1-Ultra与RTUv2的结合,显著提升了移动游戏的视觉表现,推动了AI与图形处理的深度整合。而KleidiAI软件生态则让开发者能够更便捷地发挥这些硬件的优势,从而创造出更丰富的用户体验。 从行业发展的角度看,Arm此次的技术布局不仅强化了其在移动计算领域的领先地位,也预示着未来AI与图形处理将更加紧密地协同工作。这种软硬件结合的模式,有助于提升整体系统效率,也为终端用户带来更流畅、更智能的使用体验。

   将所有这些创新整合进一个经过3纳米工艺优化、并已预验证的“计算子系统”中进行交付,这本身便是一项重要的技术突破。

   它有效缓解了芯片设计合作伙伴在转向先进工艺节点时所面临的高昂成本、巨大风险以及紧迫的时间压力。通过同步应对“为AI构建什么”(架构层面的挑战)和“如何在3纳米工艺上实现”(技术实现的挑战)两大核心问题,Arm正逐步成为未来十年移动与消费电子领域中不可或缺的关键力量。而LumexCSS平台,则为下一代智能设备的开发提供了坚实的基础。 在我看来,Arm在这一阶段展现出的综合解决方案能力,不仅体现了其在技术布局上的前瞻性,也反映出其对行业痛点的深刻理解。随着AI应用的不断深化,这种能够兼顾架构创新与制造落地的能力,将成为推动产业发展的关键因素。

相关阅读

AI赋能民航未来,2030年将全面深度融合
威联通TS-464C NAS震撼降价至1092元,数字化新风口来了!
英特尔芯粒架构引领未来,定制芯片助力中国数字化跃升
2027数字园区蓝图:200个高标准园区将如何重塑产业未来?

发表评论

请输入您的姓名
请输入有效的邮箱地址
请填写评论内容

行业数字化栏目

每日讯闻行业数字化栏目为您提供第一时间的新闻报道、深度分析和独家视角。

即时资讯

全天候更新热点事件,第一时间传递重要新闻

深度分析

专业团队解读事件背景与深层影响

24小时热文

微软震撼发布Arm架构Cobalt 200处理器,开启云原生高效安全计算新纪元
2025-11-20 12:50

微软重磅推出Arm架构Cobalt 200芯片,重新定义云原生算力边界

拼多多百亿补贴来袭!中兴星云MAX交换机仅199元引爆数字化行业
2025-11-20 12:05

拼多多百亿补贴再掀风暴,中兴星云MAX交换机199元引爆数字化浪潮

何弦预言:2025中国机器人大会揭秘——未来工程师将从经验匠人迈向数据指挥官
2025-11-14 13:24

副标题:数据重塑工匠精神:2025中国机器人大会预见指挥官时代降临

10大平台联手出击,重塑知识产权代理营销新秩序
2025-11-14 13:20

平台联动引爆知识产权营销新革命

四川舰启航试水,数字化浪潮再掀波澜
2025-11-14 11:43

四川舰启航试水,数字浪潮重塑未来战场

我国数据基建突破性进展:18城节点全线贯通,引爆百个创新应用场景
2025-11-08 16:50

副标题:十八城数据动脉全面打通,百景创新喷涌在即

宽温域全气候锂电池问世,引领新能源未来新纪元
2025-11-08 16:49

宽温域全气候锂电池突破极限,开启新能源时代新篇章

AI赋能按摩:贝乐智能开启智慧舒适新体验
2025-11-08 15:08

AI重塑按摩体验,贝乐智能引领健康新潮流

陈睿卸任哔哩哔哩总经理,背后有何深意?
2025-11-08 15:01

陈睿卸任背后:哔哩哔哩迎来新纪元?

惠州HIAF装置首次实现束流贯通,引领数字化新纪元
2025-10-31 09:18

惠州HIAF首通束流,开启粒子物理数字化新时代

友情链接

与优秀科技平台合作,共同构建创新数字生态

合作伙伴持续增加中,期待与更多优秀平台建立联系