首页>商情资讯>行业新闻

AI推理芯片需求爆发,OpenAI欲寻求新合作伙伴

2026-2-4 9:23:00
  • 当下,人工智能技术正以前所未有的速度渗透到各行各业,与之相伴的是AI推理芯片需求的爆发式增长,这一赛道已成为半导体行业新的增长引擎,也吸引了全球科技企业的密集布局

AI推理芯片需求爆发,OpenAI欲寻求新合作伙伴

当下,人工智能技术正以前所未有的速度渗透到各行各业,与之相伴的是AI推理芯片需求的爆发式增长,这一赛道已成为半导体行业新的增长引擎,也吸引了全球科技企业的密集布局。

很多人可能对AI推理的概念并不熟悉,简单来说,它就是支撑ChatGPT这类AI模型响应用户提问、完成各类指令的核心计算过程。回顾AI行业的发展历程,过去相当长一段时间里,英伟达在大型AI模型训练所需的芯片领域占据着绝对主导地位,其GPU凭借超强的海量数据并行处理能力,成为推动全球AI技术爆炸式发展的重要基石。但随着AI技术的不断成熟和落地场景的持续拓展,行业发展重点正悄然从大规模的模型训练,转向对已训练完成模型的推理与推断,推理赛道已然成为各大企业同台竞技的新战场。据业内多数机构和人士分析预测,到2026年,全球AI推理场景的需求规模,将正式超越AI训练场景,成为AI芯片市场的核心支柱。

值得关注的是,AI推理与AI训练对芯片的性能要求有着显著差异,不能一概而论。其中,模型训练的核心需求是海量数据的快速并行处理,对芯片的算力密度要求极高;而AI推理的核心痛点则集中在内存性能上,因为在推理过程中,芯片需要花费大量时间从内存中读取和调用数据,内存的读写速度、容量大小,直接决定了AI模型的响应效率,也影响着用户的使用体验。

目前,英伟达和AMD的GPU大多依赖外部内存进行数据存储和调用,这种设计模式不可避免地会增加数据处理的延迟,进而降低用户与聊天机器人等AI产品的交互速度。以OpenAI为例,其推出的、用于生成计算机代码且全力推广的产品Codex,部分性能不尽如人意的根源,就在于其采用的是基于英伟达GPU的硬件架构。也正因为深刻意识到这一问题,OpenAI首席执行官Sam Altman曾公开表示,使用其编程模型的客户,愿意为更快的编码速度支付更高的溢价。为了满足客户的这一核心需求,OpenAI近期已与Cerebras达成深度合作,积极寻找更适配推理场景的芯片解决方案。

事实上,从去年开始,OpenAI就已经在主动寻找GPU的替代方案,其关注的核心方向非常明确,就是那些能够在同一块硅片上集成大量内存(SRAM)的芯片制造商。业内人士解释,在每颗芯片上集成更多成本较高的SRAM,能够让聊天机器人等AI系统在同时处理海量用户请求时,大幅提升数据读取和调用速度,进而带来更流畅的交互体验——这也是当前AI推理芯片研发的核心技术突破口之一。

面对AI推理市场蕴含的巨大发展潜力,全球范围内的科技企业纷纷加快布局步伐,行业竞争日趋激烈。除了OpenAI的积极探索,Anthropic的Claude、谷歌的Gemini等AI头部产品,在实际部署过程中,更多依赖的是谷歌自研的TPU芯片。这款芯片是谷歌专为AI推理计算场景量身打造的,相较于英伟达GPU这类通用型AI芯片,它在推理性能上具备明显优势,能够更好地适配自身AI模型的运行需求,进一步提升产品竞争力。

作为AI芯片领域的传统龙头,英伟达自然不会坐视竞争对手崛起、错失这一市场机遇。不久前,英伟达斥资200亿美元,收购了一家专注于AI推理芯片研发的初创企业Groq的技术授权,并且将其核心研发团队全部纳入麾下,以此快速补强自身在推理赛道的短板。据悉,Groq长期聚焦于极致推理性能的突破,其创始人Jonathan Ross带领着谷歌TPU的原班核心团队,耗时七年时间,成功打造出独特的LPU(语言处理单元)架构。该架构的表现十分亮眼,Groq曾公开宣称,其推理性能是英伟达H100 GPU的10倍,而成本仅为其十分之一,在AI推理场景中具备极强的市场竞争力。

在全球AI推理芯片赛道的激烈竞争中,国内企业也没有掉队,而是积极布局、奋力追赶,加快实现核心技术的自主可控。曦望董事长徐冰就曾对市场趋势做出预判,他认为到2030年,AI推理在整个AI计算市场中的份额将达到80%,那些聚焦极致推理性能的AI芯片,未来将迎来更强的爆发性增长。

今年1月27日,国产GPU厂商曦望正式发布了新一代推理GPU芯片——启望S3。这款芯片是专为大模型推理场景打造的定制化GPGPU芯片,在典型的推理场景下,其整体性价比较上一代产品提升超过10倍,表现十分突出。在算力与存储设计方面,启望S3支持FP16至FP4的精度灵活切换,能够根据不同推理场景的需求调整性能;同时,它采用了先进的LPDDR6显存方案,显存容量较上一代产品提升4倍,有效缓解了大模型推理过程中常见的显存瓶颈,也是国内首款采用这一先进显存方案的推理芯片。在主流大模型的推理测试中,这款芯片的单位Token成本较上一代降低了约90%,极大地降低了大模型推理规模化应用的门槛,为AI技术更快走向普惠提供了有力支撑。

另一家国内企业云天励飞,自2014年成立以来,就将AI推理芯片研发作为核心发展方向,持续加大研发投入,目前已成功推出四代基于深度神经网络架构的自研NPU芯片。与此同时,云天励飞还基于最新的NPU架构,打造了多款适配不同场景的芯片产品,广泛应用于端侧与边缘侧的AI推理场景,覆盖多个行业领域。

云天励飞副总裁郑文先表示,公司正在研发的新一代芯片,采用了创新的GPNPU架构。这款架构兼具优势,既能够适应GPU的CUDA生态,方便客户快速完成模型的迁移与适配,降低客户的使用成本;又兼顾了NPU的高效灵活优势,在成本控制上更具竞争力,完全符合未来大模型在端侧与边缘侧规模化落地的核心需求。

公司董事长陈宁博士也进一步强调,未来AI行业的需求重心将全面转向推理,与之相对应,市场对AI芯片的需求也将从训练芯片逐步转向推理芯片。而GPNPU架构作为通用型大算力云端推理芯片架构的最优解,公司将持续加大研发投入,全力打造具备极致推理效率和高性价比的大模型云推理芯片,努力抢占行业发展先机,助力国内AI芯片产业实现高质量发展。