
及时获取更多一手调研纪要
请扫描上方二维码加入星球获取
信息检索与内容生成场景:以生成PPT为例,付费用户需检索100个网页时,会占用100个物理核并行处理,耗时4-6秒,信息提取环节占用单颗CPU 60%-70%算力(90%线程),PPT渲染(双层渲染:代码运行+内容融合)占用30%-40%算力;免费用户仅分配16核,线性处理导致任务耗时拉长至几分钟,1/4-1/2颗CPU长时间占用。
代码生成场景:AI写代码需高频运行测试(一分钟几十行代码),运行间隔短、执行次数多,且完全在平台服务器(而非用户PC)运行,导致CPU持续占用。该场景在国外为刚需,国内推广激进的崔岩日活不足200万,其他平台更低。
2. 国内外Agent发展现状与资源消耗差异
国内Agent活跃度低:标准型通用Agent(如字节扣子2.0、美团小美、飞猪Agent)活跃量极低,豆包、Kimi等平台生成PPT功能每日限量;代码类平台(崔岩、易达、秒达)日活均较低,崔岩不足200万,其他更少。
国外Agent需求旺盛:以Minus、Gen Spark为代表,聚焦网页检索、多模态处理等高频场景,付费用户多,对CPU算力需求明确,如Grok Pro版支持8个Agent并行,需工作型CPU集群支撑。
3. CPU集群构建与分类需求
集群构建逻辑:大厂在需求爆发前会构建专用CPU集群(如1万颗CPU),用于并行任务(如网页检索),缩短用户CPU锁定时间,实现资源复用。例如并行读网页集群可使每个任务占用CPU时间极短,提升平台性价比。
CPU分类与核数要求:
调度型CPU:负责Agent任务步骤调度,需64核起(避免拖慢GPU响应),支持20000+沙箱(受操作系统限制),128核可监控数万沙箱(每线程毫秒级扫描)。
工作型CPU:负责检索、渲染、代码运行等,国内主流64-128核(英特尔四代、五代),多模态场景(如Gemini)用第六代至强(228-288核);海外因多模态检索需求,更高核数CPU占比提升。
4. GPU与CPU协同需求提升
NV服务器架构升级:从“一柜八卡、双CPU”(A/H/B系列显卡)变为“一计算单元双CPU”(GB系列16卡对应32 CPU,CES展R系列同规格),通过增加CPU数量匹配GPU算力,提升GPU利用率,直接推动CPU需求增长。
5. CPU需求增长的驱动因素
大模型带动基础IT需求:Chatbot(如豆包1亿日活)为新增市场,需CPU支撑,国内在Chatbot层面已出现需求增长。
GPU算力提升倒逼CPU升级:GPU算力提升需匹配更高代次CPU(如从四代升至五代),以避免CPU成为调度瓶颈。
Agent任务增加CPU介入:海外Agent(如ChatGPT DeepResearch、Google多模态搜索)涉及网页检索、多模态处理,需CPU协同调度;国内暂未到爆发期,但海外需求已映射为行业趋势。
6. 不同Agent场景下CPU与GPU需求对比
封闭生态(如千问):依赖API交互(外卖、订酒店),GPU仅做简单语义推理(占比4.5-5成),CPU负责调度、支付等步骤,需求更重。
开放生态(网页检索、多模态):需超长上下文推理或多模态处理,GPU负责核心计算(如20B-30B参数激活),CPU负责调度,GPU需求更重。
7. 沙箱机制与调度型CPU效率
主流沙箱模式:Linux服务器上划分独立硬盘空间,仅对应Agent任务可访问,用于存储任务中间数据(如旅行计划步骤),通过监控线程(每毫秒扫描)触发下一步操作,128核CPU可高效监控数万沙箱。
低效模式(如Minus):开Windows虚拟机运行Chrome,需2核8G/4G资源,成本高、无优化,仅重资本公司使用。
8. 存储需求与优化方向
SSD持续涨价趋势:AI商业化(如文生视频)需永久存储用户内容,用户付费意愿支撑SSD需求,预计涨价1-2年;国内厂商即使免费也需存储应对竞争,进一步推高需求。
DRAM优化措施:KV Cache通过动态释放(用户退出后释放)、文本压缩(精简对话历史)降低需求;GPU与SSD直连技术(如英伟达方案)减少DRAM依赖,适用于Agent等容忍延迟(10分钟级)场景。
问答整理
1
这两种比较典型的场景,它算是在你们,比如说整个大厂的体系里边用的比较多的,还是说事实上所有的场景都很分散?
这两个场景其实是我举的是两大类,具有代表性的。其实现在是多数场景就在这两种之间,是这样的一个实际情况。但是在这里,其实我可以做一个客观的澄清。那这个澄清是什么意思?就是比如千问,因为我们刚才提到了,它不能算是一个Agent,它其实千问它是一个AI助手。然后它是有一定的这个功能,就根据用户的指令或者需求,然后那个有个小的路由器来区分用户到底想想干啥,其实是这样的。所以等于说千问这个执行的Agent,是整个它千问这个Chatbot或者是这个千问助手的一功能之一。千问它自身不能叫Agent是这个点。然后且刚才也解释了。即使是涉及到任务执行,其实千问这种Agent它的这个消耗是比较小的,所以这种暂时就是没有划进销,那个有CPU高频需求的这个方向里面来。实际上的两类的话,就是刚才那两种,就是写报告、整理信息、需要浏览网页的,以及代码的。国内当前标准型的通用Agent的活跃量超级低,标准Agent不包括千问,千问靠主助手引流且消耗低。国内如字节的扣子2.0、美团小美等活跃极低,用量未达美国水平。
2
像扣扣子这种,包括生成PPT的这种,它不收费但限量的一个原因是GPU不够,还是CPU不够?
这个其实是都不够。比如kimi来说,他自己的机房都很少,但是他文本在国内还是有一定的受众的,尤其是在国外,他也很受欢迎。所以他首先是这个GPU不够。因为毕竟这个事情还是推理占大多数的。它是GPU不够,然后其次就是说,还有一个计费问题,这个计费问题怎么理解?就是比如kimi是最典型的,很现实的,我也经常用它去做PPT然后反正我一天有6个额度,然后大概是这样的,就是这个计费问题是因为用户没给他付费,他不可能去云上买高级的套餐。带来的点就是其实你单位时间内,比如说用一个CPU是1元,那你单位时间内想使用云的10个CPU,那这个时候会变成12元,会有一个并发的问题。所以,就是kimi这样的平台,我现在观察到了,就是这样。他就不是给用户分16核到24核,然后你慢慢去干,细水长流。因为对他来说,他是省了很多的成本,因为用户不付费,其实背后是这个逻辑。
3
之前我听有个说法是,如果核数太低,他是搞不了AI的。所以不知道您怎么看这个事情?
我刚才说的那个16核、24核,它不是用的低配CPU而是那个,它只用这么多线程。然后,也就是说,这样来看的话,这些,这个免费的Agent服务,然后它最终就是一颗CPU可以分给6~8个用户去使用,其实是这个意思。
4
正常来讲,不管是Agent还是普通的推理,应该都是高并发的,需要多线程的CPU才能应付高并发。如果选用低核数的产品,不然就是多堆一些CPU,或者是高核数的,少一些CPU。这个怎么去权衡?
我们确实用的是这个标准的高性能CPU,但是这个,比如刚才举的生成PPT这个例子的话,是免费用户,我们就分1/6或者1/8的线程给他。然后就是一颗CPU就可以支持8个或者6个生成PPT的活,就让这8个或者6个用户等着就行了,其实是这个意思。
5
现在主流用在这些场景里边的CPU都是多少核的?
我们现在主流的是128核,然后那个,比如说涉及到像那个Gemini那种Agent它还涉及到一些简单的图像理解等等。在那些场景的话,可能会用这个第六代的至强,就是228~288核之间会有,但是主流的我们国内的都是64核到128核的。
6
这种64核和128核基本上就是对应英特尔四代、五代,是吗?
对。
7
CPU资源池的概念是不是可以理解为通算服务器?正常AI的服务器都是两个CPU加8个GPU,如果Agent需求攒到一定量,是否要额外构建一个集群?这个集群结构上用量会提升吗?
对,其实它会变成三个集群,三类集群。第一类集群是GPU集群,GPU机柜里的两颗CPU只负责协调GPU之间的工作,外界不能干预。第二类集群是普通CPU,负责调度这些Agent。第三类是工作型CPU集群,负责检索网页、生成PPT或运行代码等任务。当任务干完后,反馈给调度CPU,调度CPU进行下一步操作。
8
您提到一个CPU集群,一个GPU集群,第三类是什么?
第三类其实是CPU集群分两类:一类是工作型CPU集群,由计算型服务器构建,CPU多核、内存偏小,负责检索网页、生成PPT、运行代码等任务;另一类是调度型CPU集群,负责Agent任务的多步数据流转、信息传递等繁琐但资源消耗不大的调度工作。
9
目前看到的趋势是,Agent场景出现,大家需要更多的调度型的CPU,还是说工作型和调度型其实都是可能等比例要扩容?
调度型CPU不是瓶颈,不会有极大的需求量。一个调度型CPU能够覆盖20000多个沙箱,主要受限于操作系统软件负载,而非CPU算力。调度型CPU比较充裕,Agent增多对其消耗不大。但工作型CPU不同,付费会员增多时必须构建工作型CPU集群,因为用户付费要求快和效果,需要购买CPU。
10
工作型CPU集群是64核、128核甚至200多核的高端产品,调度型CPU大概是什么样的形态?
调度型的底线也是需要64核的,不能再差了。因为差的话,它会面临一个新的问题,就是GPU干活实在是太快了,所以人家GPU那边干完的活,然后CPU要马上响应,如果响应慢了的话,中间是不产生等待。那这样会拉低GPU的利用率的。
11
NV投资英特尔是否是因为NV服务器机柜体系中CPU是调度等方面的瓶颈,投资是为了定制优化解决核心瓶颈?
这个是一个道理。现在NV的GB系列是一卡对两CPU,满配GB(16代)对应32CPU;CES展上的R系列也是单计算单元对应双CPU。而之前的A、H、B系列显卡架构是一柜八卡、双CPU。NV的规格变化表明为提升GPU利用率,一套GPU计算单元要配两颗CPU,这是CPU需求增大的直接原因。
12
这一轮CPU涨价的原因是产能挤压,还是CPU迭代能力跟不上GPU导致单GPU配更多CPU,或是GPU需求紧张让渡部分计算工作给工作型CPU集群导致CPU需求爆发?
这是叠加因素:第一,英特尔第四代、第五代CPU性价比高但产能不强,随着AI应用(如Chatbot)增多,IT需求增加,CPU抢手;第二,GPU算力及利用率与CPU相关,推动CPU需求;第三,海外如ChatGPT、Minus、GenSpark等Agent在检索网页、内容处理、多模态搜索等场景CPU需求增大,付费用户(如Grok pro版)需要工作型CPU集群。
13
多模态维度会产生更多CPU用量吗?还是大模型本身以GPU为主?
多模态对CPU产生额外需求。CPU需先对图片等进行简单处理并分发给4090等GPU,多模态检索(如声音、图片)使CPU需识别模态、分配任务、等待结果并处理,导致时间片轮转额外消耗。海外大厂因日活高,需求更大。
14
不管是啥场景,只要流水线体系不标准化,越复杂越需要CPU,趋势可能越来越复杂,是吗?
对。并且,尤其是在海外,很多用户对AI效果有高度依赖,为降低幻觉,Agent会反复推理,导致工作时间变长、检索资料增多,需构建算力型集群压减任务处理时间。
15
Agent对调度型CPU需求量不大,但对工作型需求量大,与GPU需求相比,是对GPU需求更大还是对CPU需求更大?
还是对GPU的需求会大很多。存在临界点:若Agent依赖自身体系API交互数据(如千问),GPU负责简单语义推理,CPU负责多步骤任务(如支付、下单),此时CPU占比可能更高(5成或4.5成);若Agent涉及开放型检索(如网页、图片),则GPU任务(多模态、超长上下文推理)更重。
16
像千问这种需要跨多个APP(如点外卖、订酒店)的情况下,是对工作型CPU需求更大,还是对GPU更大?
对CPU的需求更大。酒店、旅游、打车等APP背后由x86服务器(工作型CPU)支撑,Agent工作时需CPU调度(如用户指令发送给GPU解读后,打开APP或调用API),GPU仅负责理解用户下一步操作的简单文本或数据传递,计算量小。
17
医疗类Agent(如调阅历史病例并给出建议)是对CPU需求更大,还是对GPU需求更大?
对GPU的需求更大。此类任务需检索患者历史病例及检查报告并进行诊断推理,激活参数多(20B~30B),远超CPU简单任务的处理能力。
18
一个CPU可以创建100000个沙盒,这个概念是什么?100000个沙盒对调度型工作的供给概念是怎样的?
沙盒有两种:一种是虚拟机沙盒(如Minus开Windows虚拟机用Chrome),笨且费钱;另一种是主流型沙盒(Linux服务器硬盘空间),仅Agent任务可读写。Agent工作时,CPU通过监控线程扫描沙盒(每秒或每毫秒一轮),触发下一步操作。一个CPU线程可监控多个沙盒,128核CPU可分出多个线程,每个线程监控大量沙盒。Linux操作系统限制约20000个监控现场,而非CPU算力。
19
工作类CPU打开一个网页消耗多少CPU核?有没有大概的量化关系?
打开一个网页需对应CPU的一个物理线程(一核),一颗CPU只能同时打开约100个网页(留部分核计算)。因此需要工作型集群,避免与调度任务共用CPU降低效率。
20
打开一个APP也是消耗一个核吗?
打开一个APP瞬间需要一个核,但因缓存等优化,占核时间短(几十毫秒);而用Chrome打开大网页需渲染,占核时间长(约一秒)。
21
现在CPU是否变成了任务执行的瓶颈,不再是GPU?
国内因Agent和Coding等高频场景用户量小,无此问题;海外在极端场景(如Grok、GPT基于极速推理模型构建复杂Agent)会出现,因最耗时的是用Chrome浏览YouTube等内容多的网页(需CPU打开、清洗、排序、总结后再给GPU)。
22
往后会推动传统用CPU解决的调用或任务转向用GPU吗?
会有。分两个阶段:一是数据库查询已转向GPU(利用并行查询和矩阵计算优势);二是多模态检索(如Google Gemini)中,CPU需分离网页图像和文字,将图片分给4090转向量,GPU消耗变大,CPU调度也增多。
23
未来Agent场景或用量大的场景稳定后,很多任务可以GPU化吗?
可以,但稳定任务GPU化后会产生新的CPU需求(如Google、OpenAI的电商场景,用户传图求购需CPU处理新场景),需求滚动增长。
24
英特尔等CPU现在具体的需求缺口有多大?
国内无明显趋势(千问消耗小,字节扣子等活跃低),需求可能未来由美国映射;海外可参考Google、Grok、OpenAI的付费用户(Agent高级付费用户1 DAU约对应0.5 CPU)。
25
存储(DRAM、SSD)价格涨到什么程度会到云厂承受边界?技术上如何降低存储用量和需求?
SSD涨价1~2年没问题,因大模型商业化(如文生视频永久保存用户生成内容)需求持续增长,用户付费支撑云厂支付SSD费用。KV Cache方面,可优化(如用户关闭网页/APP后释放KV,压缩聊天文本,用户返回时加载精简文本);平台若收不到钱(如国内免费助手)可能放弃KV,降低DRAM需求。
26
做的极致一点,完全不用存到DRAM,最外到HDD,数据不可能完全没有,尽量压缩和远存储更便宜,这么理解对吧?
对。躺平型平台会这样,但能赚钱的平台(如ChatGPT)会长期将KV存DRAM。
27
有看到SSD替代DRAM的趋势吗?技术上有什么变化?
有趋势。英伟达推出GPU与SSD直接数据互通,降低DRAM压力。Agent场景用户接受任务10分钟起步,SSD与DRAM的读取延时差异(100-200毫秒)在10分钟内不明显,Agent越多,SSD替代DRAM场景越多。
【限时免费加入星球】
请扫描下方二维码
即可获取更多投研信息

整理不易,希望各位领导能够多多支持!您的一个点赞、一次转发、 随手分享,都是我们继续坚持的最大动力~~~~
知识星球:追踪全市场最新动向,聚焦全行业、公司深度逻辑,洞悉产业链上下游关系&各项指标数据,这里汇聚全市场深度投研信息,提供高价值的纪要报告、投研逻辑和行业知识经验分享
星球覆盖目前内容有:PDF纪要,音频纪要,白名单电话会,行业/个股动态点评,行业数据库,外资投行报告/深度研报/投研框架等。文字+音频纪要日均更新200+;星球全部内容更新300+;