开云app在线下载入口 RISC之父向AI芯片泼凉水：AI推理不需要更强GPU，需要另一种硬件

你的位置：开云app在线下载入口 > 真钱棋牌 >

开云app在线下载入口 RISC之父向AI芯片泼凉水：AI推理不需要更强GPU，需要另一种硬件

发布日期：2026-03-14 13:46 点击次数：59

近日，2017 年图灵奖得主、被称为“RISC 之父”的 David Patterson 最近与 Google DeepMind 高档工程师马晓宇在 IEEE Computer 长入发表了一篇论文——“对于谎言语模子推理硬件的挑战与辩论标的”，激发了科技圈的怜惜与照顾。

David Patterson，这位 RISC 架构的奠基东谈主、影响了各人 99% 微处理器野心的计较机科学家，在论文开篇就抛出了一个机敏的判断：现时 AI 芯片的野心念念路，即满载的算力、堆叠的 HBM（High Bandwidth Memory，高带宽内存）、带宽优先的互联，与谎言语模子推理的本质需求严重错配。

在某种进度上，这不错说是对通盘 AI 芯片产业确当头一棒。Patterson 在文中直言，LLM 推理正处于危境之中，不是本事上的危境，而是经济上的。因为，越来越多的公司们发现，即便领有开始进的 GPU 集群，为开始进的模子提供推理行状依然在大把烧钱。

字据多家媒体报谈，、亚马逊、谷歌、Meta 四大科技巨头在 2026 年 AI 关联成本总开支展望达到约 6，000 亿好意思元。这一鸿沟比拟 2025 年约 3，880 亿好意思元，增长约 50% 以上。

尽管具体数字可能存在不对，但行业共鸣是：推理成本正在吞吃 AI 公司的利润空间。一边是飙升的成本，一边是爆炸式增长的需求，这个行业正在资历一场严峻的经济考验。

对于这个问题，Patterson 和马晓宇在论文中指出，根源在于 LLM 推理的两个阶段有着判然不同的计较特质。

亚博体彩官方网站入口

Prefill（预填充）阶段处理输入序列的通盘 token，雷同于考验经过，是计较密集型的，现存 GPU/TPU 不错较好地应付。但 Decode（解码）阶段则透彻不同。它是自讲求的，每一步只生成一个输出 token，这使得它自然是内存带宽受限的。

现存的 AI 加快器，从野心之初等于为考验优化的，推理仅仅被算作考验系统的“消弱版”来对待。扫尾等于，最精好意思、最弘大的芯片，在跑推理任务时可能只领路了很小一部分才能。

况兼让情况雪上加霜的是，最近披露的一系列 LLM 新趋势正在进一步加重推理的难度。论文列举了 6 大压力源：

领先是 MoE（Mixture of Experts，搀杂内行）架构的兴起，以 DeepSeek V3 为例，它使用了 256 个路由内行，自然每个 token 只激活其中 8 个，但通盘模子的参数目达到了 6，710 亿。MoE 自然指责了考验成本，却大幅扩展了推理时的内存占用和通讯支出。

其次是推理模子（Reasoning Models）的流行，它们在输出最终谜底前会生成大王人念念考 token，这不仅拉长了生成时分，还让内存中的 KV Cache（Key Value Cache，键值缓存）承受更大压力。

此外还有多模态的扩展：从纯文本走向图像、音频、视频生成，数据量急剧扩张。长险阻文（Long Context）需求的增长一样带来计较和内存的双重压力；RAG（Retrieval-Augmented Generation，检索增强生成）通过引入外部学问库加多了推理的资源消耗；临了是 Diffusion 模子，自然它与上述趋势不同，只加多计较需求而非内存，但也代表了推理复杂度进步的又一个标的。

面对这些挑战，论文将问题归结为两堵“墙”：内存墙与延伸墙。

内存墙的本体是硬件发展的不平衡。Patterson 援用了一组数据：从 2012 年到 2022 年，NVIDIA GPU 的 64 位浮点运算才能进步了 80 倍，但内存带宽只增长了 17 倍。这个差距还在接续扩大。

更劳苦的是，HBM 的成本不降反升。论文征引花旗银行的辩论数据指出，从 2023 年到 2025 年，HBM 的单元容量成本（/GB）和单元带宽成本（/GB）和单元带宽成本（/GB）和单元带宽成本（/GBps）王人高潮了约 35%。这与传统 DDR DRAM 形成了明显对比，后者的成本在同期下落了近一半。

变成这种分化的原因在于制造工艺：HBM 需要堆叠多层 DRAM die，封装难度跟着堆叠层数和密度的加多而上升，良率问题愈发严峻。

与此同期，DRAM 密度增长正在延缓。从 2014 年推出 8Gbit DRAM die 到杀青四倍增长，将滥用越过 10 年时分，而之前这一周期只需 3 到 6 年。

有些公司曾尝试用纯 SRAM 的决策绕开 DRAM 和 HBM 的适度，比如 Cerebras 用晶圆级集成堆满 SRAM，Groq 也选择了雷同计谋。但 LLM 的参数鸿沟很快就超出了片上 SRAM 的容量，两家公司其后王人不得不加入外部 DRAM 扶持。

延伸墙的问题一样辣手。与动辄数周的考验不同，推理是及时的。用户发出恳求，期许在几秒甚而更短时天职得到反应。这意味着端到端延伸至关进军。论文分散了两种延伸方针：time-to-completion（完成时分）和 time-to-first-token（首 token 时分）。长输出序列会拉长前者，长输入序列和 RAG 会影响后者，而推理模子由于生成大王人念念考 token，会同期拖慢两者。

往常，数据中心的推理平素在单芯片上完成，唯有考验需要超等计较机级别的集群。因此，蚁集这些芯片的互联积聚主要优化带宽而非延伸。但 LLM 转变了游戏规定：模子太大，开云app在线下载入口推理也需要多芯片系统；软件层面的分片（sharding）意味着频频通讯；而 Decode 阶段的小 batch size 导致积聚音问频频很小。对于这种“频频、小音问、大积聚”的场景，延伸比带宽更进军。

基于这些分析，Patterson 和马晓宇提议了四个值得辩论的标的，试图重新念念考 LLM 推理硬件的野心逻辑。

第一个标的是高带宽闪存（HBF，High Bandwidth Flash）。这个意见最早由 SanDisk 提议，SK Hynix 其后也加入了开发。它的念念路是像 HBM 那样堆叠闪存 die，从而获取接近 HBM 的带宽和 10 倍于 HBM 的容量。论文给出了一组对比数据：单个 HBF 堆栈不错提供 512GB 容量和越过 1，600GB/s 的读取带宽，而单个 HBM4 堆栈唯有 48GB 容量。

HBF 的毛病在于写入历久性有限和读取延伸较高（微秒级），这意味着它无法替代通盘 HBM，但很是合适存储推理时险些不更新的模子权重，或者变化逐渐的险阻文数据，比如用于 LLM 搜索的网页语料库、用于代码助手的代码库，甚而辩论论文库。更进军的是，闪存容量还在以每三年翻倍的速率增长，这是 DRAM 一经难以企及的节律。

第二个标的是近内存计较（PNM，Processing-Near-Memory），它与历史上的 PIM（Processing-in-Memory，内存内计较）意见有所不同。PIM 将计较逻辑奏凯集成在 DRAM die 里面，自然带宽极高，但面对软件分片复杂、计较才能受限于 DRAM 工艺的功耗和面积敛迹等问题。

DRAM 工艺节点并不合适高性能逻辑电路。PNM 则将计较逻辑放在内存近邻但仍是寂然 die，通过 3D 堆叠或高速互联与内存蚁集。

论文以为，对于数据中心 LLM 推理而言，PNM 比 PIM 更本质：它的分片粒度不错大 1，000 倍（GB 级而非 MB 级），逻辑工艺不错寂然优化，且不影响内存密度和成本。不外论文也指出，对于移动开导上的 LLM，由于模子更小、批次更小、能耗敛迹更严格，PIM 的残障可能不那么光显，反而值得探索。

第三个标的是 3D 计较-逻辑堆叠。与传统 2D 芯片通过 die 角落蚁集内存不同，3D 堆叠使用垂直的 TSV（Through Silicon Via，硅通孔）杀青宽而密的内存接口，不错在更低功耗下获取更高带宽。

这个标的有两种杀青旅途：一种是在 HBM 的 base die 上集成计较逻辑，复用现存 HBM 野心，带宽与 HBM 相配但功耗指责 2 到 3 倍；另一种是定制化 3D 决策，通过更宽更密的接口和更先进的封装本事，杀青卓绝 HBM 的带宽和后果。挑战在于散热：3D 结构的名义积更小，散热更难，以及需要诞生内存-逻辑接口的行业措施。

第四个标的是低延伸互联。论文建议重新凝视积聚野心中延伸与带宽的衡量。具体措施包括：选择高蚁集性拓扑（如树形、蜻蜓、高维 Torus），减少跳数从而指责延伸；引入积聚内处理（Processing-in-Network），让 LLM 常用的通讯原语（如 all-reduce、MoE 的 dispatch 和 collect）在交换机中加快；优化芯片野心，让小包数据奏凯存入片上 SRAM 而非外部 DRAM，或将计较引擎围聚积聚接口以镌汰传输时分；甚而在可靠性野心上作念著作，部署土产货备用节点减少故障迁徙的延伸和蒙眬影响，或者在 LLM 推理对好意思满通讯条目不高时，用假数据或历史扫尾替代超时音问，而非恭候掉队者。

Patterson 在论文中还不忘强调个东谈主不雅点：他品评了现时学术界与产业界的脱节。1976 年他入行时，计较机架构会议上约 40% 的论文来自工业界，而到 2025 年的 ISCA（International Symposium on Computer Architecture），这个比例一经跌破 4%。

他命令学术辩论者把执 LLM 推理这个\"诱东谈主的辩论方针\"，并建议开发基于 Roofline 模子的性能模拟器，互助当代的性能/成本方针（如 TCO、功耗、碳排放），为 AI 推理硬件改进提供更实用的评估框架。

现时，各人正资历一场因 AI 激发的内存供应危境。由于 HBM 分娩挤占了传统 DRAM 的晶圆产能，2026 年各人 DRAM 价钱大幅高潮。三星、SK Hynix 等厂商正将更多资源转向高利润的 HBM 居品线，这自然安闲了 AI 数据中心的需求，却加重了消费级内存的穷苦。这种供应病笃可能接续到 2027 年甚而更久。

在这种布景下，Patterson 提议的 HBF、PNM 等替代旅途，粗莽不仅是本事上的探索，亦然产业寻找 Plan B 的现实需求。

自然，论文也承认这些标的并非不错一蹴而就的决策。每一个王人触及复杂的工程衡量：HBF 需要经管软件怎么处理有限写入历久性和高延伸读取的问题；PNM 和 3D 堆叠需要新的软件分片计谋和内存-逻辑接口措施；低延伸互联可能需要糟跶部分带宽。

论文饱读吹将这些标的组合使用，因为它们在很猛进度上是互补的。更高的内存带宽不错镌汰每次 Decode 迭代的延伸，更大的单节点内存容量不错减少系统鸿沟从而指责通讯支出。

作为 RISC 架构的共同发明东谈主、RAID 存储系统的创始者，Patterson 的行状糊口险些等于\"挑战现存范式\"的代名词。40 多年前，他和 John Hennessy 提议的精简领导集念念想曾被工业界视为异端，如今 99% 的新芯片王人选择 RISC 架构。

Patterson 和马晓宇采用发表这篇论文的形势也很专诚旨真谛，它不是一篇本事细节密集的顶会论文，而是发在 IEEE Computer 这本面向更世俗读者的杂志上，口吻像是在发布一封公开信。值得宝贵的是，他们在致谢中提到了 Martin Abadi、Jeff Dean、Norm Jouppi、Amin Vahdat 和 Cliff Young，这串名字险些磨灭了 Google AI 基础措施的中枢架构师。

1.https://arxiv.org/pdf/2601.05047

2.https://techcrunch.com/2026/02/28/billion-dollar-infrastructure-deals-ai-boom-data-centers-openai-oracle-nvidia-microsoft-google-meta/?utm_source=chatgpt.com

运营/排版：何晨龙

友情链接：

ngdf666.com 备案号备案号:

技术支持:®开云app RSS地图 HTML地图

你的位置：开云app在线下载入口 > 真钱棋牌 >

开云app在线下载入口 RISC之父向AI芯片泼凉水：AI推理不需要更强GPU，需要另一种硬件

热点资讯

推荐资讯