阿里大招震惊老外将英伟达显卡用量降了82
当你在深夜打开豆包或ChatGPT,问一句“双十一买什么好?”,可能没想到——这一问,背后跑起来的是一整张价值十几万元的A100显卡。
但除了偶尔这样回答问题,它的 95% 的时间却在“发呆”。这听起来有点奢侈,但这就是当前大模型市场的现实。
最近,阿里和北大联合团队在顶级计算机系统会议上发表了一篇论文《Aegaeon: 面向市场并发大语言模型推理的高效 GPU 共享系统 》,讲的就是怎么让这些“摸鱼”的 GPU 忙起来。
他们进行了三个多月的测试,效果非常震惊:从原本服务几十个模型需要的 1192 张英伟达 H20 显卡,降到只要 213 张。
直接降了 82%!
他们是怎么做到的?
01| 问题:模型太多,GPU 太闲
现在的大模型市场(比如 Hugging Face)上,动辄上百万个模型。有的红的发紫(比如 DeepSeek、Qwen、Llama),有的却长期在冷宫——一个月都没几个人调用。
但问题来了:
热门模型 :请求突然暴增,GPU 不够用,用户排队等回复,我们都体验过 DeepSeek 排队的时候。
冷门模型 :常年没人用,但为了“随时能响应”,还得给它独占一张 GPU——结果这张卡一年 99% 的时间在吃灰。
阿里云内部数据显示:17.7% 的 GPU 只处理了 1.35% 的请求。这就像你花 几十万 租了一栋别墅,结果只用来放一个快递柜,一年大部分时间还锁着门。

擅长降本的中国工程师们,这怎么能忍?
02| 旧方案为啥不行?
这么严重的一个问题,当然有人想过要去优化,之前有两种主流的做法:
“拼车”式多模型共存 (Multiplexing):把两三个模型塞进同一张 GPU,轮流跑。问题是大模型动辄几十 GB,一张 80G 的卡最多塞俩,再多就爆了。省不了多少。
“随用随开”自动扩缩容 (Auto-scaling):不用的时候把模型“关掉”,用的时候再从内存或硬盘“拉起来”。
这听起来很美,但实际很慢——加载一个 13B 模型要好几秒,用户早就跑了。
更糟的是,这些系统都是按“整个请求”来调度的。
就像餐厅点菜,哪怕你只需要一个勺子,也必须等到前面客人的一桌菜全上完,你才能点。这种“慢的等所有人”的模式,就是典型的效率卡顿(头阻塞)。
03| Aegaeon 的妙招

【温馨提示:这部分非技术人员跳过也无妨】
Aegaeon 的核心思想很反直觉:
别等一个请求跑完,而是“边跑边换”,像流水线一样切碎任务。
它把大模型推理拆成两个阶段:Prefill(备料阶段):读你输入的问题,生成第一个字;Decoding(吐字阶段):一个字一个字往后吐。
Aegaeon 干了两件关键事:
1. 按“token”(字)级别做调度
不再等一个请求跑完才切模型;而是每生成几个字,就看看有没有更紧急的任务,有就立刻切换。
这样,一张 GPU 可以同时服务 7 个甚至更多模型,而不是 2~3 个。
2. 把“切换成本”压到极致
传统切换要 10 秒以上,Aegaeon 通过三大优化,把开销砍掉 97%:
组件复用:推理引擎只初始化一次,模型权重单独换;
显存自管:自己管内存分配,避免碎片,不用反复“垃圾回收”;
KV Cache 精细同步:KV Cache 相当于模型在吐字时记下的“关键笔记”,用于加速后续生成。
Aegaeon 优化了数据搬运和计算流程,让它们可以同时进行,互不干扰,实现了亚秒级切换。
听到这是不是有点懵,又有点似曾相似?
没错,实际上 Aegaeon 这种“随时中断,切换紧急任务”的逻辑,跟我们到电脑操作系统里面的 CPU 调度(即“抢占式调度”)原理很像。
CPU 也是把程序执行切成时间片来轮换,以至于我们会认为它在并发处理多个任务。
但 CPU 切换任务的开销很小,大模型可不一样,它涉及到数 GB 数据的搬运。所以,阿里牛逼的地方是能把这种昂贵的切换开销压到最低,做到秒级切换。
04|效果有多猛?
有效吞吐量提示 1.5~9 倍:同样硬件,能服务更多用户;
支持请求速率提高 2~2.5 倍:高峰期也不卡;
生产环境实测:原本需要 1192 张 H20 GPU;用 Aegaeon 后,只需 213 张;省下 82% 的 GPU 资源,相当于省下几千万的硬件和电费!
而且,用户完全无感,没人觉得“变慢了”。
05|为什么这事很重要?
现在的大模型竞争,焦点往往是谁的参数更大、谁拥有的 GPU 数量更多。
但现实是:真正的竞争优势在于极致的工程效率,在于能否将每一分算力榨干,实现成本结构的根本性优化。
像阿里云、 DeepSeek 这样的中国团队已经证明,要打出大厂级别的效果,靠的不是资源堆砌,而是对算力的最优利用以及在算法层面的突破。
有海外网友一针见血地评论:“中国团队正努力让 AI 变得更高效、更便宜,而美国却被‘必须买更多 GPU’的迷思困住了。”
另一位网友感慨:“DeepSeek 把 API 价格砍半,这不是营销,是成本革命。”
当潮水退去,真正能走进千行百业、实现大规模普及的 AI,从来不是最“大”或最“贵”的那个,而是品质可靠、性价比最高的那个。
附:
🔗 论文地址: https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf
如果你觉得这篇文章有用,欢迎转发给那个总在抱怨“GPU 不够用”的朋友 😉
📮


共有 0 条评论