
在生成式 AI 全面落地的今天,从 AI 手机、AI PC 到云端大模型推理,再到面向机器人的具身智能,算力曲线一路陡峭上扬。与此同时,能效、带宽与供应链的多重约束叠加,使得传统“算在这、存那边”的冯·诺依曼范式难以为继。面对外部技术封锁与工艺受限,业内将“存算一体”视作国产算力跃迁的关键抓手。
近期,于杭州举办的“RISC-V 存算一体产业论坛暨应用组启动大会”上,多家企业与机构共同确立了“RISC-V + 存算一体”的标准化路线图,旨在为大模型时代的国产芯片提供可持续的技术与生态路径。会上,杭州微纳核芯首席科学家叶乐教授分享了团队在三维存算一体(3D-CIM)方面的最新进展,并阐释其如何赋能 RISC-V AI 生态,助力实现自主可控的全栈方案。
行业痛点:算力、带宽与生态的三重约束
后摩尔时代,国产算力芯片的挑战主要集中在三方面:
算力密度天花板:先进工艺带来的性能红利趋缓,单纯依赖节点演进的性价比不断下滑。
数据带宽瓶颈:大模型参数动辄千亿级,计算与存储分离导致“数据搬家”成本高企,带宽像高峰期的拥堵车流。
生态迁移成本:上层软件生态长期被海外厂商主导,指令集与工具链不统一,迁移与兼容代价高。
应对之道,是在国产工艺可达的条件下寻找“新架构 + 开源生态”的双轮驱动:以体系结构创新缓解物理极限,以开放生态降低软件门槛。
路线选择:数字域存算一体,聚焦张量计算
微纳核芯的技术路线明确指向数字域存算一体。相较模拟域方案,数字域具备:
高精度与高可靠性,可覆盖高精度浮点与主流量化;
工程可控性强,更适合规模量产与大范围部署。
AI 工作负载中,张量计算占比常年接近 99%。将存储与计算在微观尺度融合,使张量运算“就地”完成,天然缓解带宽与能效压力,也更容易把算力密度拉满。
作为理想的落地路径,叶乐教授归纳了存算一体存储器的四项硬指标:
大容量:能容纳并随模型扩张而扩展的大参数集;
高密度:在有限面积内塞下尽可能多的参数;
高可擦写:支持高频更新(如 KV Cache);
高速读写:匹配大模型推理吞吐需求。
基于综合权衡,团队选择用 SRAM 实现数字域的 CIM(Compute-In-Memory)。据流片数据与多次验证:
同工艺下算力密度较传统架构提升约 4 倍;
在 22nm 工艺即可逼近传统 NPU/GPU 于 7nm 的算力密度区间;
计算能效提升约 5–10 倍;
基于国产供应链,整体成本较 7nm 方案降低约 4 倍。
软件侧,已完成从仿真器、专用指令集、算子库到编译器与软件栈的初版打通。
3D-CIM:把“近存”做成三维专属电梯
要进一步冲破带宽墙,微纳核芯引入 3D 近存架构,将存算一体计算芯片与 DRAM 进行三维堆叠,形成 3D-CIM:
参数存于上层 DRAM,调用时通过垂直互联直达下层 CIM 计算阵列;
数据路径像乘电梯一样直上直下,显著提升带宽、降低搬运能耗;
将“存算融合”与“近存计算”一体化,针对大模型的参数流动做了结构级优化。
异构融合:用 RISC-V 补齐计算完备性与生态
仅靠存算一体并不能解决所有问题:张量算得快,但标量与控制逻辑、编译映射等仍需通用处理器兜底。RISC-V 的开放与可拓展,恰好能与 CIM 形成优势互补:
计算分工:CIM 负责约 99% 的张量计算,RISC-V CPU 处理约 1% 的标量与控制,保障计算完备性;
指令协同:在 RISC-V 标准指令集之上扩展 CIM 专用指令,覆盖卷积、全连接、Attention 等主流算子;
数据格式:兼容 INT4、FP8、BF16 等多精度形态;
生态接入:通过统一抽象算子库与扩展编译器,将 CIM 无缝纳入 RISC-V 开源生态,降低迁移与开发成本。
路线图与应用落点
近期(计划):2026 年 Q1 完成流片,Q3 面向手机与 PC 头部厂商送样,率先切入 AI 手机与 AI PC 的端侧大模型推理。
中期:与国产高性能 CPU 联合推出 3D-CIM 解决方案,切入云端大模型训练与推理,有望跨越现有加速体系的带宽与能效瓶颈。
远期:面向具身智能,成为机器人核心算力底座。
一句话总结
以数字域 SRAM 存算一体为计算底座、以 3D 近存为数据通道、以 RISC-V 为生态黏合剂,3D-CIM 为国产算力在后摩尔时代提供了一条更现实也更具延展性的上升通道。通过架构创新叠加开源生态,既绕开了部分工艺与供应链约束,也为大模型时代的高效推理与低能耗部署打开了空间。