AWS发布Nvidia驱动的AI工厂及Trainium3芯片

2025-12-06

亚马逊云科技周二宣布,将大幅增强其人工智能能力,并在拉斯维加斯举行的 AWS re:Invent 2025 大会上,与英伟达联合推出本地部署的 AI 工厂,同时发布迄今最先进的定制芯片 Trainium3。


此次双重发布显示了 AWS 在自主芯片研发和加强与英伟达——AI 计算领域领导者——合作之间寻求平衡的策略,因为云服务提供商之间对快速增长的企业 AI 市场的竞争愈加激烈。


AWS AI Factories 允许将专用基础设施直接部署到客户的数据中心,以应对政府和大型企业对数据主权及合规性的需求。客户提供设施和电力,AWS 负责安装、管理 AI 系统,并与云服务进行整合。


组织可以选择最新的 Nvidia Blackwell GPU 或亚马逊新推出的 Trainium3 芯片,并结合 AWS 的网络、存储和安全基础设施。该服务提供对 Amazon Bedrock 和 AWS SageMaker AI 的访问,以便进行模型开发和管理。


Nvidia 超大规模与高性能计算副总裁兼总经理 Ian Buck 表示,通过将 Nvidia Grace Blackwell 和 Vera Rubin 架构与 AWS 的高性能安全基础设施及 AI 软件结合,AWS AI Factories 能让组织在更短时间内建立强大 AI 能力,并专注于创新而非集成。


AWS 并非唯一提供基于 Nvidia 的本地基础设施的公司。微软在10月展示了类似 AI Factories 的方案,但最初未宣布私有云可用性。


Trainium3 芯片采用 3 纳米工艺制造,与上一代相比,计算性能提升 4.4 倍,能效提高 4 倍,功耗降低 40%。每颗芯片配备 2.52 petaflops FP8 计算能力和 144 GB HBM3e 内存。


Trainium3 UltraServers 可扩展至每台系统 144 颗芯片,总 FP8 计算能力达 362 petaflops,并可连接形成多达 100 万颗芯片的集群——容量是上一代的十倍。


AWS 表示,包括 Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh 和 Splash Music 在内的早期用户反馈称,使用 Trainium 可将训练和推理成本降低多达 50%。AI 视频初创公司 Decart 在实时视频生成中实现了 4 倍更快的推理速度,成本仅为 GPU 的一半。


AWS 还预览了 Trainium4,该芯片将集成英伟达 NVLink Fusion 高速互连技术,实现与英伟达 GPU 的协同工作。英伟达 CEO 黄仁勋表示:“英伟达与 AWS 正在共同搭建 AI 工业革命的计算基础设施。”


这些公告发布之时,占全球云基础设施市场 29% 份额的 AWS,正面临微软和谷歌在 AI 领域日益激烈的竞争。



分享
写评论...