
近年来,生成式AI的快速发展推动了行业变革,AI训练的需求率先崛起,带动高带宽内存(HBM)市场的蓬勃增长。然而,AI的普及与广泛应用离不开推理技术的支持。AI推理的广阔前景吸引了业内巨头和初创企业的提前布局,也为不同类型的存储芯片创造了新的市场机会。
目前,许多AI推理芯片和存算一体芯片正在尝试用SRAM替代传统的DRAM,以实现更快的访问速度和更低的刷新延迟。
SRAM与DRAM的对比
静态随机存取存储器(SRAM)是一种随机存取存储器,只要保持通电,数据即可稳定存储,而动态随机存取存储器(DRAM)则需要周期性刷新数据。尽管SRAM断电后无法保存数据(与ROM或闪存不同),但其性能优势显著:访问速度远高于DRAM,且无需定期刷新。
然而,SRAM的集成度较低、功耗更大、成本更高,同样面积的硅片可以制造出更大容量的DRAM。因此,SRAM通常用于CPU的高速缓存(如一级、二级缓存),以充分发挥其响应速度快的特性。
在AI推理领域,SRAM因其高性能和低延迟的特点,成为推动计算效率提升的重要因素。
AI推理芯片与SRAM的结合
Groq LPU:基于SRAM的高性能推理芯片
在AI推理浪潮中,Groq公司推出的语言处理单元(Language Processing Unit,LPU)凭借独特的架构设计,展现了卓越的推理性能。
Groq芯片采用14nm制程,集成了230MB的大容量SRAM,片上内存带宽高达80TB/s。这种设计大幅减少了数据传输延迟,提升了计算效率,使其在机器学习和人工智能等计算密集型任务中表现出色。
Groq成立于2016年,总部位于美国加州山景城,其核心团队来自谷歌TPU的研发团队。创始人兼CEO Jonathan Ross曾是谷歌TPU项目的重要成员。
2024年8月,Groq完成了6.4亿美元的新一轮融资,由BlackRock领投,并获得思科和三星投资部门的支持。同年12月,Groq在沙特阿拉伯达曼部署了中东地区最大的AI推理集群,包含19,000个Groq LPU,仅用8天便成功上线。今年2月,Groq再次从沙特筹集15亿美元资金,用于进一步扩展其AI基础设施。
Axelera AIPU:内存计算与RISC-V架构的结合
Axelera公司采用创新的数字内存计算(D-IMC)技术,将SRAM与计算单元紧密结合,显著提升了AI推理性能。每个存储单元不仅用于存储数据,还能执行乘法和累加运算,从而在每个计算周期内完成更多操作。这种架构既避免了传统存储数据移动的延迟,也解决了噪声或低精度问题。
Axelera的AIPU芯片基于开源的RISC-V指令集架构(ISA),为设计提供了灵活性和定制化可能。其芯片在高性能与低能耗之间实现了平衡,尤其适用于边缘AI计算。
2024年,Axelera成功获得三星Catalyst基金的支持,完成了6800万美元融资,总融资额达到1.2亿美元。新投资者包括欧洲创新委员会基金、Invest-NL等。
EnCharge AI:模拟存内计算的突破
EnCharge AI是一家专注于AI推理芯片的初创企业,其核心技术是基于模拟存内计算的架构。与传统数字加速器相比,EnCharge的芯片通过读取存储平面上的电流而非单个位元单元来处理数据,大幅提高能效。
其推理芯片使用“基于电荷的存储器”,以8位精度实现每瓦150 TOPS的性能,相较于GPU等数字加速器,能效提升了20倍。
EnCharge AI源自普林斯顿大学,创始人兼CEO Naveen Verma长期研究内存计算技术。今年初,公司完成了超额认购的1亿美元B轮融资,总融资额超过1.44亿美元。EnCharge计划在2025年推出首款商用AI加速器。
d-Matrix:数字内存计算的探索
d-Matrix采用数字内存计算(DIMC)技术,将存储器与计算单元中的乘法累加器(MAC)整合,实现更高的计算带宽和效率。其Jayhawk II处理器包含约165亿晶体管,每个Chiplet搭载一个RISC-V核心和八个并行DIMC单元。
2024年底,d-Matrix发布了首款AI芯片Corsair,具备2400 TFLOP的8位峰值计算能力,以及2GB SRAM和高达256GB的LPDDR6存储。Corsair专为数据中心和云计算中的AI推理工作负载优化。
d-Matrix总部位于加州圣克拉拉市,累计融资超过1.6亿美元,投资方包括微软M12、SK海力士、淡马锡等。
展望:SRAM在AI推理中的未来
尽管SRAM的成本较高,但其在AI推理中的低延迟和高性能优势不可忽视。随着AI推理技术的进一步发展,SRAM将扮演越来越重要的角色。同时,其他存储芯片(如DRAM、LPDDR等)也有望通过技术创新在AI推理领域获得更多机会。未来,存储技术与AI推理芯片的结合仍将是行业关注的重点。