近日,有消息称,为减少对英伟达芯片的依赖,亚马逊正在推进一项名为“登月”(Moonshot)的内部计划,旨在加速研发新一代AI芯片Trainium2。据悉,这款芯片正在亚马逊位于得克萨斯州奥斯汀的工程实验室进行开发,目标是在其数据中心部署多达10万颗Trainium2芯片,以提升AI训练效率并降低芯片采购成本。
亚马逊自研芯片布局加速
近年来,亚马逊通过自研芯片不断优化数据中心的性能与成本。据云成本管理平台Vantage的数据显示,在Amazon EC2 M7系列通用实例中,采用亚马逊自研Graviton芯片的M7g系列实例已占据超过三分之一的市场份额(34.5%),显示出自研芯片在云计算领域的优势。
亚马逊的自研芯片历史可以追溯到2016年。在当年的re:Invent大会上,亚马逊首次发布了基于Arm架构的自研芯片Graviton,随后陆续推出Graviton2(2019年)、Graviton3(2021年)以及最新的Graviton4(2023年)。Graviton芯片以高性能、低功耗和成本优势著称,逐步成为亚马逊云服务的重要基础。
Graviton4的性能提升
作为最新一代产品,Graviton4采用了Arm Neoverse V2架构,具备更高的核心数量、更快的内存带宽和更强的计算性能。根据测试数据,Graviton4的性能较上一代Graviton3提升了30%以上,内核数量增加50%,内存带宽提升75%。在与其他主流芯片的对比中,Graviton4的性能略优于英特尔至强处理器,但在某些工作负载下仍落后于AMD EPYC处理器。
Graviton4的推出进一步巩固了亚马逊在云计算领域的领先地位,同时为其他自研芯片项目(如Trainium系列)提供了技术积累和经验支持。
Trainium2:亚马逊的AI芯片新突破
Trainium2是亚马逊在AI芯片领域的重要布局,被认为是对标英伟达H100的产品。据悉,Trainium2的研发始于亚马逊2015年收购Annapurna Labs之后,历经多年技术积累,终于在2023年re:Invent大会上正式亮相。
Trainium2的核心性能
根据亚马逊官方数据,Trainium2相比上一代产品在训练速度上提升了4倍,能效提升2倍,内存容量是上一代的3倍。此外,Trainium2能够在EC2 UltraClusters中扩展至多达10万个芯片,支持快速训练基础模型和大语言模型。这些性能指标使其在AI训练任务中具备显著优势,尤其是在高效能和大规模部署方面。
目前,Trainium2已经开始接受包括Anthropic、Databricks等AI初创企业以及德国电信、日本理光等客户的测试。同时,亚马逊计划率先在俄亥俄州等核心数据中心部署该芯片,并逐步扩展至全球更多数据中心。
“登月”计划的战略目标
Trainium2的研发和部署是亚马逊“登月”计划的重要组成部分。按照规划,Trainium2将首先用于亚马逊内部的AI训练项目,并逐步推向初创企业和大客户。一旦成功实现规模化应用,Trainium2将显著降低亚马逊对外部芯片供应商的依赖,同时提升AWS在AI训练领域的竞争力。
面临的挑战与机遇
尽管Trainium2在技术上取得了诸多突破,但其在市场落地过程中仍面临多方面的挑战:
1. 自研芯片的技术难度
英伟达在通用计算GPU领域积累了多年的经验,其芯片优化已接近极限。亚马逊要想在性能、功耗和面积(PPA)等核心指标上超越英伟达,可能需要依赖更先进的工艺技术和创新设计。然而,这不仅增加了研发成本,还可能因初期出货量较低而导致单位成本居高不下。
2. 软件生态的劣势
目前,英伟达的CUDA生态在GPGPU领域处于垄断地位,几乎所有主流AI框架都已深度集成CUDA支持。亚马逊虽然推出了Neural SDK工具链,但与英伟达成熟的软硬件生态相比仍处于起步阶段。如何吸引开发者迁移至Trainium2平台,并构建完善的生态系统,将是亚马逊面临的重大考验。
3. 市场竞争的压力
除了英伟达,AMD和英特尔也在AI芯片领域积极布局。例如,AMD的MI300系列芯片在AI训练性能上表现出色,英特尔则依托其强大的市场份额和技术积累不断推出竞争产品。在这一背景下,亚马逊需要通过差异化优势和成本效益赢得市场认可。
展望:亚马逊的AI芯片未来
随着AI技术的快速发展,AI芯片市场正迎来爆发式增长。亚马逊通过自研芯片布局,不仅能够降低对外部供应商的依赖,还能在成本、性能和生态方面实现更多自主权。尽管面临技术和市场方面的挑战,但Trainium2的推出标志着亚马逊在AI芯片领域迈出了重要一步。
未来,随着亚马逊持续优化自研芯片性能并完善软件生态,其在AI训练和推理领域的竞争力有望进一步提升。同时,亚马逊的“登月”计划也将为其在云计算和AI领域的长期发展奠定坚实基础。