开云app在线下载入口 RISC之父向AI芯片泼凉水:AI推理不需要更强GPU,需要另一种硬件

发布日期:2026-03-14 13:46    点击次数:59

开云app在线下载入口 RISC之父向AI芯片泼凉水:AI推理不需要更强GPU,需要另一种硬件

近日,2017 年图灵奖得主、被称为“RISC 之父”的 David Patterson 最近与 Google DeepMind 高档工程师马晓宇在 IEEE Computer 长入发表了一篇论文——“对于谎言语模子推理硬件的挑战与辩论标的”,激发了科技圈的怜惜与照顾。

David Patterson,这位 RISC 架构的奠基东谈主、影响了各人 99% 微处理器野心的计较机科学家,在论文开篇就抛出了一个机敏的判断:现时 AI 芯片的野心念念路,即满载的算力、堆叠的 HBM(High Bandwidth Memory,高带宽内存)、带宽优先的互联,与谎言语模子推理的本质需求严重错配。

在某种进度上,这不错说是对通盘 AI 芯片产业确当头一棒。Patterson 在文中直言,LLM 推理正处于危境之中,不是本事上的危境,而是经济上的。因为,越来越多的公司们发现,即便领有开始进的 GPU 集群,为开始进的模子提供推理行状依然在大把烧钱。

字据多家媒体报谈,、亚马逊、谷歌、Meta 四大科技巨头在 2026 年 AI 关联成本总开支展望达到约 6,000 亿好意思元。这一鸿沟比拟 2025 年约 3,880 亿好意思元,增长约 50% 以上。

尽管具体数字可能存在不对,但行业共鸣是:推理成本正在吞吃 AI 公司的利润空间。一边是飙升的成本,一边是爆炸式增长的需求,这个行业正在资历一场严峻的经济考验。

对于这个问题,Patterson 和马晓宇在论文中指出,根源在于 LLM 推理的两个阶段有着判然不同的计较特质。

亚博体彩官方网站入口

Prefill(预填充)阶段处理输入序列的通盘 token,雷同于考验经过,是计较密集型的,现存 GPU/TPU 不错较好地应付。但 Decode(解码)阶段则透彻不同。它是自讲求的,每一步只生成一个输出 token,这使得它自然是内存带宽受限的。

现存的 AI 加快器,从野心之初等于为考验优化的,推理仅仅被算作考验系统的“消弱版”来对待。扫尾等于,最精好意思、最弘大的芯片,在跑推理任务时可能只领路了很小一部分才能。

况兼让情况雪上加霜的是,最近披露的一系列 LLM 新趋势正在进一步加重推理的难度。论文列举了 6 大压力源:

领先是 MoE(Mixture of Experts,搀杂内行)架构的兴起,以 DeepSeek V3 为例,它使用了 256 个路由内行,自然每个 token 只激活其中 8 个,但通盘模子的参数目达到了 6,710 亿。MoE 自然指责了考验成本,却大幅扩展了推理时的内存占用和通讯支出。

其次是推理模子(Reasoning Models)的流行,它们在输出最终谜底前会生成大王人念念考 token,这不仅拉长了生成时分,还让内存中的 KV Cache(Key Value Cache,键值缓存)承受更大压力。

此外还有多模态的扩展:从纯文本走向图像、音频、视频生成,数据量急剧扩张。长险阻文(Long Context)需求的增长一样带来计较和内存的双重压力;RAG(Retrieval-Augmented Generation,检索增强生成)通过引入外部学问库加多了推理的资源消耗;临了是 Diffusion 模子,自然它与上述趋势不同,只加多计较需求而非内存,但也代表了推理复杂度进步的又一个标的。

面对这些挑战,论文将问题归结为两堵“墙”:内存墙与延伸墙。

内存墙的本体是硬件发展的不平衡。Patterson 援用了一组数据:从 2012 年到 2022 年,NVIDIA GPU 的 64 位浮点运算才能进步了 80 倍,但内存带宽只增长了 17 倍。这个差距还在接续扩大。

更劳苦的是,HBM 的成本不降反升。论文征引花旗银行的辩论数据指出,从 2023 年到 2025 年,HBM 的单元容量成本(/GB)和单元带宽成本(/GB)和单元带宽成本(/GB)和单元带宽成本(/GBps)王人高潮了约 35%。这与传统 DDR DRAM 形成了明显对比,后者的成本在同期下落了近一半。

变成这种分化的原因在于制造工艺:HBM 需要堆叠多层 DRAM die,封装难度跟着堆叠层数和密度的加多而上升,良率问题愈发严峻。

与此同期,DRAM 密度增长正在延缓。从 2014 年推出 8Gbit DRAM die 到杀青四倍增长,将滥用越过 10 年时分,而之前这一周期只需 3 到 6 年。

有些公司曾尝试用纯 SRAM 的决策绕开 DRAM 和 HBM 的适度,比如 Cerebras 用晶圆级集成堆满 SRAM,Groq 也选择了雷同计谋。但 LLM 的参数鸿沟很快就超出了片上 SRAM 的容量,两家公司其后王人不得不加入外部 DRAM 扶持。

延伸墙的问题一样辣手。与动辄数周的考验不同,推理是及时的。用户发出恳求,期许在几秒甚而更短时天职得到反应。这意味着端到端延伸至关进军。论文分散了两种延伸方针:time-to-completion(完成时分)和 time-to-first-token(首 token 时分)。长输出序列会拉长前者,长输入序列和 RAG 会影响后者,而推理模子由于生成大王人念念考 token,会同期拖慢两者。

往常,数据中心的推理平素在单芯片上完成,唯有考验需要超等计较机级别的集群。因此,蚁集这些芯片的互联积聚主要优化带宽而非延伸。但 LLM 转变了游戏规定:模子太大,开云app在线下载入口推理也需要多芯片系统;软件层面的分片(sharding)意味着频频通讯;而 Decode 阶段的小 batch size 导致积聚音问频频很小。对于这种“频频、小音问、大积聚”的场景,延伸比带宽更进军。

基于这些分析,Patterson 和马晓宇提议了四个值得辩论的标的,试图重新念念考 LLM 推理硬件的野心逻辑。

第一个标的是高带宽闪存(HBF,High Bandwidth Flash)。这个意见最早由 SanDisk 提议,SK Hynix 其后也加入了开发。它的念念路是像 HBM 那样堆叠闪存 die,从而获取接近 HBM 的带宽和 10 倍于 HBM 的容量。论文给出了一组对比数据:单个 HBF 堆栈不错提供 512GB 容量和越过 1,600GB/s 的读取带宽,而单个 HBM4 堆栈唯有 48GB 容量。

HBF 的毛病在于写入历久性有限和读取延伸较高(微秒级),这意味着它无法替代通盘 HBM,但很是合适存储推理时险些不更新的模子权重,或者变化逐渐的险阻文数据,比如用于 LLM 搜索的网页语料库、用于代码助手的代码库,甚而辩论论文库。更进军的是,闪存容量还在以每三年翻倍的速率增长,这是 DRAM 一经难以企及的节律。

第二个标的是近内存计较(PNM,Processing-Near-Memory),它与历史上的 PIM(Processing-in-Memory,内存内计较)意见有所不同。PIM 将计较逻辑奏凯集成在 DRAM die 里面,自然带宽极高,但面对软件分片复杂、计较才能受限于 DRAM 工艺的功耗和面积敛迹等问题。

DRAM 工艺节点并不合适高性能逻辑电路。PNM 则将计较逻辑放在内存近邻但仍是寂然 die,通过 3D 堆叠或高速互联与内存蚁集。

论文以为,对于数据中心 LLM 推理而言,PNM 比 PIM 更本质:它的分片粒度不错大 1,000 倍(GB 级而非 MB 级),逻辑工艺不错寂然优化,且不影响内存密度和成本。不外论文也指出,对于移动开导上的 LLM,由于模子更小、批次更小、能耗敛迹更严格,PIM 的残障可能不那么光显,反而值得探索。

第三个标的是 3D 计较-逻辑堆叠。与传统 2D 芯片通过 die 角落蚁集内存不同,3D 堆叠使用垂直的 TSV(Through Silicon Via,硅通孔)杀青宽而密的内存接口,不错在更低功耗下获取更高带宽。

这个标的有两种杀青旅途:一种是在 HBM 的 base die 上集成计较逻辑,复用现存 HBM 野心,带宽与 HBM 相配但功耗指责 2 到 3 倍;另一种是定制化 3D 决策,通过更宽更密的接口和更先进的封装本事,杀青卓绝 HBM 的带宽和后果。挑战在于散热:3D 结构的名义积更小,散热更难,以及需要诞生内存-逻辑接口的行业措施。

第四个标的是低延伸互联。论文建议重新凝视积聚野心中延伸与带宽的衡量。具体措施包括:选择高蚁集性拓扑(如树形、蜻蜓、高维 Torus),减少跳数从而指责延伸;引入积聚内处理(Processing-in-Network),让 LLM 常用的通讯原语(如 all-reduce、MoE 的 dispatch 和 collect)在交换机中加快;优化芯片野心,让小包数据奏凯存入片上 SRAM 而非外部 DRAM,或将计较引擎围聚积聚接口以镌汰传输时分;甚而在可靠性野心上作念著作,部署土产货备用节点减少故障迁徙的延伸和蒙眬影响,或者在 LLM 推理对好意思满通讯条目不高时,用假数据或历史扫尾替代超时音问,而非恭候掉队者。

Patterson 在论文中还不忘强调个东谈主不雅点:他品评了现时学术界与产业界的脱节。1976 年他入行时,计较机架构会议上约 40% 的论文来自工业界,而到 2025 年的 ISCA(International Symposium on Computer Architecture),这个比例一经跌破 4%。

他命令学术辩论者把执 LLM 推理这个\"诱东谈主的辩论方针\",并建议开发基于 Roofline 模子的性能模拟器,互助当代的性能/成本方针(如 TCO、功耗、碳排放),为 AI 推理硬件改进提供更实用的评估框架。

现时,各人正资历一场因 AI 激发的内存供应危境。由于 HBM 分娩挤占了传统 DRAM 的晶圆产能,2026 年各人 DRAM 价钱大幅高潮。三星、SK Hynix 等厂商正将更多资源转向高利润的 HBM 居品线,这自然安闲了 AI 数据中心的需求,却加重了消费级内存的穷苦。这种供应病笃可能接续到 2027 年甚而更久。

在这种布景下,Patterson 提议的 HBF、PNM 等替代旅途,粗莽不仅是本事上的探索,亦然产业寻找 Plan B 的现实需求。

自然,论文也承认这些标的并非不错一蹴而就的决策。每一个王人触及复杂的工程衡量:HBF 需要经管软件怎么处理有限写入历久性和高延伸读取的问题;PNM 和 3D 堆叠需要新的软件分片计谋和内存-逻辑接口措施;低延伸互联可能需要糟跶部分带宽。

论文饱读吹将这些标的组合使用,因为它们在很猛进度上是互补的。更高的内存带宽不错镌汰每次 Decode 迭代的延伸,更大的单节点内存容量不错减少系统鸿沟从而指责通讯支出。

作为 RISC 架构的共同发明东谈主、RAID 存储系统的创始者,Patterson 的行状糊口险些等于\"挑战现存范式\"的代名词。40 多年前,他和 John Hennessy 提议的精简领导集念念想曾被工业界视为异端,如今 99% 的新芯片王人选择 RISC 架构。

Patterson 和马晓宇采用发表这篇论文的形势也很专诚旨真谛,它不是一篇本事细节密集的顶会论文,而是发在 IEEE Computer 这本面向更世俗读者的杂志上,口吻像是在发布一封公开信。值得宝贵的是,他们在致谢中提到了 Martin Abadi、Jeff Dean、Norm Jouppi、Amin Vahdat 和 Cliff Young,这串名字险些磨灭了 Google AI 基础措施的中枢架构师。

1.https://arxiv.org/pdf/2601.05047

2.https://techcrunch.com/2026/02/28/billion-dollar-infrastructure-deals-ai-boom-data-centers-openai-oracle-nvidia-microsoft-google-meta/?utm_source=chatgpt.com

运营/排版:何晨龙





Copyright © 1998-2026 开云app在线下载入口™版权所有

ngdf666.com 备案号 备案号: 

技术支持:®开云app  RSS地图 HTML地图