百万Token时代来袭，推理算力争夺战悄然打响

推理算力面临挑战，百万Token时代来临，产业竞逐加速。

　　《科创板日报》9月13日讯在AI发展热潮中，模型参数的激增和算力的不断堆砌曾是行业竞争的重点。然而，如今在生成式AI逐步实现大规模应用的背景下，竞争焦点已转向推理能力：在实际应用场景中，面对海量数据的即时调用、百万Token级别的连续推理以及长上下文的高效处理，不仅提高了对算力的需求，也重新塑造了算力基础设施的价值链条。

　　在最近的AI基础设施峰会上，英伟达推出了全新的RubinCPX GPU。据官方介绍，这款芯片专门针对长上下文推理任务进行优化，是英伟达首款为需要一次性处理大量知识（数百万级别tokens）并执行AI推理的模型而设计的芯片。

　　英伟达称，这颗芯片为客户带来了“前所未有的投资回报率”——每部署价值1亿美元的新芯片，预计将带来50亿美元的收入，投资回报率高达50倍，远超GB200NVL72的约10倍回报率。与此同时，公司还宣布GB300NVL72机架级系统在最新的MLPerf推理基准测试中刷新了推理性能记录。从市场角度来看，这一高回报率的数据不仅展示了该芯片的技术优势，也反映出其在实际应用中的强大潜力。随着人工智能计算需求的持续增长，具备如此高效能与高回报的产品，无疑将在竞争激烈的市场中占据重要地位。而MLPerf测试成绩的突破，则进一步验证了公司在高性能计算领域的技术实力。

　　花旗研究表示，在ASIC市场竞争日益激烈的背景下，英伟达以往每年一次的产品发布节奏正在加快，RubinCPX提前进入产品路线图，预示着“推理时代”已正式开启。

　　分析师表示，RubinCPX的推出以及在MLPerf中取得的新成绩，进一步体现了英伟达在AI基础设施领域的持续创新实力。随着AI推理需求，尤其是长语境推理需求的快速增长，英伟达的新产品组合有望推动收入实现明显提升。

　　值得关注的是，本周引发全球市场关注的甲骨文公司，也提及了推理市场需求的激增。

　　在业绩会上，公司创始人拉里·埃里森明确表示，人工智能正在深刻重塑甲骨文公司。他指出，AI推理市场将“远大于”AI训练市场，而当前市场上的推理算力正面临紧张局面，逐渐被消耗殆尽。

　　尽管甲骨文因订单指数级增长引发市场关注，且其对OpenAI的依赖性受到质疑，导致股价在一度飙升后连续两天下跌。但摩根大通也指出，甲骨文在获取OCI业务方面表现出色，展现出“令人印象深刻的成就”，同时对其在人工智能领域的长期发展持积极态度。从当前市场反应来看，投资者对甲骨文短期内的业绩表现存在分歧，但机构对其技术布局和战略方向仍保持一定信心。这反映出科技行业在AI赛道上的竞争日趋激烈，企业能否持续创新并建立独立的技术生态，将成为未来发展的关键因素。

　　 ▌算力基础设施进入长上下文推理新阶段

　　实际上，从更长的时间线来看，可以发现海内外大型科技公司在Token调用量方面已出现明显加速的拐点，推理端的算力需求正在快速增长。这一趋势反映出人工智能应用的持续深化，以及对计算资源依赖程度的不断提升。随着大模型在各行各业的落地，算力瓶颈或将逐步成为影响技术发展的重要因素。

　　根据今年5月Google I/O大会的数据显示，Google的Token月均调用量从去年同期4月的9.7万亿增长至今年4月的480万亿，增幅达到50倍。微软在三季度电话会议中透露，其Azure AI基础设施在今年第一季度处理的Token总量超过100万亿，与去年同期相比增长了5倍，其中3月份单月的Token调用量达到50万亿。从国内互联网大厂的情况来看，今年5月字节火山引擎的Token日均调用量为16.4万亿（月均约508万亿），是去年5月的137倍。

　　过去一年，随着生成式AI逐步进入规模化应用阶段，行业对“长上下文”处理能力的需求迅速增长。无论是企业级知识库问答、代码生成，还是多模态长视频生成，都要求模型在面对超长输入序列时仍能保持推理的准确性与计算的高效性。然而，当前的GPU在处理这类任务时，普遍存在内存带宽瓶颈和计算冗余问题，导致算力利用率难以充分发挥。在我看来，这一技术瓶颈不仅影响了模型的实际应用效果，也制约了生成式AI在复杂场景下的进一步拓展。要突破这一限制，除了硬件层面的优化外，算法层面的改进同样关键。未来，如何在保证性能的同时提升效率，将成为推动生成式AI持续发展的核心议题之一。

　　东吴证券分析指出，从产业角度看，RubinCPX的发布不仅是英伟达产品线的一次升级，也标志着海外算力基础设施迈入“上下文处理与内容生成协同运作”的新阶段。随着百万Token推理能力和长视频生成成为AI应用的标配，硬件与软件之间的耦合程度显著增强，算力产业链的整体价值也随之提升。无论是GPU、存储设备、网络设备，还是相关的高速PCB、光模块和封装技术，相关厂商都将有望获得深度受益。