当前位置：首页>行业>【CPU系列研究】行业专家视角:Agent AI时代下CPU产业机会

【CPU系列研究】行业专家视角:Agent AI时代下CPU产业机会

2026-06-03 17:57:21

及时获取更多一手调研纪要

请扫描上方二维码加入星球获取

星球日均更新300+投研资料

【限时免费加入星球】

请扫描底部二维码加入

信息检索与内容生成场景：以生成PPT为例，付费用户需检索100个网页时，会占用100个物理核并行处理，耗时4-6秒，信息提取环节占用单颗CPU 60%-70%算力（90%线程），PPT渲染（双层渲染：代码运行+内容融合）占用30%-40%算力；免费用户仅分配16核，线性处理导致任务耗时拉长至几分钟，1/4-1/2颗CPU长时间占用。

代码生成场景：AI写代码需高频运行测试（一分钟几十行代码），运行间隔短、执行次数多，且完全在平台服务器（而非用户PC）运行，导致CPU持续占用。该场景在国外为刚需，国内推广激进的崔岩日活不足200万，其他平台更低。

2. 国内外Agent发展现状与资源消耗差异

国内Agent活跃度低：标准型通用Agent（如字节扣子2.0、美团小美、飞猪Agent）活跃量极低，豆包、Kimi等平台生成PPT功能每日限量；代码类平台（崔岩、易达、秒达）日活均较低，崔岩不足200万，其他更少。

国外Agent需求旺盛：以Minus、Gen Spark为代表，聚焦网页检索、多模态处理等高频场景，付费用户多，对CPU算力需求明确，如Grok Pro版支持8个Agent并行，需工作型CPU集群支撑。

3. CPU集群构建与分类需求

集群构建逻辑：大厂在需求爆发前会构建专用CPU集群（如1万颗CPU），用于并行任务（如网页检索），缩短用户CPU锁定时间，实现资源复用。例如并行读网页集群可使每个任务占用CPU时间极短，提升平台性价比。

CPU分类与核数要求：

调度型CPU：负责Agent任务步骤调度，需64核起（避免拖慢GPU响应），支持20000+沙箱（受操作系统限制），128核可监控数万沙箱（每线程毫秒级扫描）。

工作型CPU：负责检索、渲染、代码运行等，国内主流64-128核（英特尔四代、五代），多模态场景（如Gemini）用第六代至强（228-288核）；海外因多模态检索需求，更高核数CPU占比提升。

4. GPU与CPU协同需求提升

NV服务器架构升级：从“一柜八卡、双CPU”（A/H/B系列显卡）变为“一计算单元双CPU”（GB系列16卡对应32 CPU，CES展R系列同规格），通过增加CPU数量匹配GPU算力，提升GPU利用率，直接推动CPU需求增长。

5. CPU需求增长的驱动因素

大模型带动基础IT需求：Chatbot（如豆包1亿日活）为新增市场，需CPU支撑，国内在Chatbot层面已出现需求增长。

GPU算力提升倒逼CPU升级：GPU算力提升需匹配更高代次CPU（如从四代升至五代），以避免CPU成为调度瓶颈。

Agent任务增加CPU介入：海外Agent（如ChatGPT DeepResearch、Google多模态搜索）涉及网页检索、多模态处理，需CPU协同调度；国内暂未到爆发期，但海外需求已映射为行业趋势。

6. 不同Agent场景下CPU与GPU需求对比

封闭生态（如千问）：依赖API交互（外卖、订酒店），GPU仅做简单语义推理（占比4.5-5成），CPU负责调度、支付等步骤，需求更重。

开放生态（网页检索、多模态）：需超长上下文推理或多模态处理，GPU负责核心计算（如20B-30B参数激活），CPU负责调度，GPU需求更重。

7. 沙箱机制与调度型CPU效率

主流沙箱模式：Linux服务器上划分独立硬盘空间，仅对应Agent任务可访问，用于存储任务中间数据（如旅行计划步骤），通过监控线程（每毫秒扫描）触发下一步操作，128核CPU可高效监控数万沙箱。

低效模式（如Minus）：开Windows虚拟机运行Chrome，需2核8G/4G资源，成本高、无优化，仅重资本公司使用。

8. 存储需求与优化方向

SSD持续涨价趋势：AI商业化（如文生视频）需永久存储用户内容，用户付费意愿支撑SSD需求，预计涨价1-2年；国内厂商即使免费也需存储应对竞争，进一步推高需求。

DRAM优化措施：KV Cache通过动态释放（用户退出后释放）、文本压缩（精简对话历史）降低需求；GPU与SSD直连技术（如英伟达方案）减少DRAM依赖，适用于Agent等容忍延迟（10分钟级）场景。

问答整理

这两种比较典型的场景，它算是在你们，比如说整个大厂的体系里边用的比较多的，还是说事实上所有的场景都很分散？

这两个场景其实是我举的是两大类，具有代表性的。其实现在是多数场景就在这两种之间，是这样的一个实际情况。但是在这里，其实我可以做一个客观的澄清。那这个澄清是什么意思？就是比如千问，因为我们刚才提到了，它不能算是一个Agent，它其实千问它是一个AI助手。然后它是有一定的这个功能，就根据用户的指令或者需求，然后那个有个小的路由器来区分用户到底想想干啥，其实是这样的。所以等于说千问这个执行的Agent，是整个它千问这个Chatbot或者是这个千问助手的一功能之一。千问它自身不能叫Agent是这个点。然后且刚才也解释了。即使是涉及到任务执行，其实千问这种Agent它的这个消耗是比较小的，所以这种暂时就是没有划进销，那个有CPU高频需求的这个方向里面来。实际上的两类的话，就是刚才那两种，就是写报告、整理信息、需要浏览网页的，以及代码的。国内当前标准型的通用Agent的活跃量超级低，标准Agent不包括千问，千问靠主助手引流且消耗低。国内如字节的扣子2.0、美团小美等活跃极低，用量未达美国水平。

像扣扣子这种，包括生成PPT的这种，它不收费但限量的一个原因是GPU不够，还是CPU不够？

这个其实是都不够。比如kimi来说，他自己的机房都很少，但是他文本在国内还是有一定的受众的，尤其是在国外，他也很受欢迎。所以他首先是这个GPU不够。因为毕竟这个事情还是推理占大多数的。它是GPU不够，然后其次就是说，还有一个计费问题，这个计费问题怎么理解？就是比如kimi是最典型的，很现实的，我也经常用它去做PPT然后反正我一天有6个额度，然后大概是这样的，就是这个计费问题是因为用户没给他付费，他不可能去云上买高级的套餐。带来的点就是其实你单位时间内，比如说用一个CPU是1元，那你单位时间内想使用云的10个CPU，那这个时候会变成12元，会有一个并发的问题。所以，就是kimi这样的平台，我现在观察到了，就是这样。他就不是给用户分16核到24核，然后你慢慢去干，细水长流。因为对他来说，他是省了很多的成本，因为用户不付费，其实背后是这个逻辑。

之前我听有个说法是，如果核数太低，他是搞不了AI的。所以不知道您怎么看这个事情？

我刚才说的那个16核、24核，它不是用的低配CPU而是那个，它只用这么多线程。然后，也就是说，这样来看的话，这些，这个免费的Agent服务，然后它最终就是一颗CPU可以分给6~8个用户去使用，其实是这个意思。

正常来讲，不管是Agent还是普通的推理，应该都是高并发的，需要多线程的CPU才能应付高并发。如果选用低核数的产品，不然就是多堆一些CPU，或者是高核数的，少一些CPU。这个怎么去权衡？

我们确实用的是这个标准的高性能CPU，但是这个，比如刚才举的生成PPT这个例子的话，是免费用户，我们就分1/6或者1/8的线程给他。然后就是一颗CPU就可以支持8个或者6个生成PPT的活，就让这8个或者6个用户等着就行了，其实是这个意思。

现在主流用在这些场景里边的CPU都是多少核的？

我们现在主流的是128核，然后那个，比如说涉及到像那个Gemini那种Agent它还涉及到一些简单的图像理解等等。在那些场景的话，可能会用这个第六代的至强，就是228~288核之间会有，但是主流的我们国内的都是64核到128核的。

这种64核和128核基本上就是对应英特尔四代、五代，是吗？

对。

CPU资源池的概念是不是可以理解为通算服务器？正常AI的服务器都是两个CPU加8个GPU，如果Agent需求攒到一定量，是否要额外构建一个集群？这个集群结构上用量会提升吗？

对，其实它会变成三个集群，三类集群。第一类集群是GPU集群，GPU机柜里的两颗CPU只负责协调GPU之间的工作，外界不能干预。第二类集群是普通CPU，负责调度这些Agent。第三类是工作型CPU集群，负责检索网页、生成PPT或运行代码等任务。当任务干完后，反馈给调度CPU，调度CPU进行下一步操作。

您提到一个CPU集群，一个GPU集群，第三类是什么？

第三类其实是CPU集群分两类：一类是工作型CPU集群，由计算型服务器构建，CPU多核、内存偏小，负责检索网页、生成PPT、运行代码等任务；另一类是调度型CPU集群，负责Agent任务的多步数据流转、信息传递等繁琐但资源消耗不大的调度工作。

目前看到的趋势是，Agent场景出现，大家需要更多的调度型的CPU，还是说工作型和调度型其实都是可能等比例要扩容？

调度型CPU不是瓶颈，不会有极大的需求量。一个调度型CPU能够覆盖20000多个沙箱，主要受限于操作系统软件负载，而非CPU算力。调度型CPU比较充裕，Agent增多对其消耗不大。但工作型CPU不同，付费会员增多时必须构建工作型CPU集群，因为用户付费要求快和效果，需要购买CPU。

工作型CPU集群是64核、128核甚至200多核的高端产品，调度型CPU大概是什么样的形态？

调度型的底线也是需要64核的，不能再差了。因为差的话，它会面临一个新的问题，就是GPU干活实在是太快了，所以人家GPU那边干完的活，然后CPU要马上响应，如果响应慢了的话，中间是不产生等待。那这样会拉低GPU的利用率的。

NV投资英特尔是否是因为NV服务器机柜体系中CPU是调度等方面的瓶颈，投资是为了定制优化解决核心瓶颈？

这个是一个道理。现在NV的GB系列是一卡对两CPU，满配GB（16代）对应32CPU；CES展上的R系列也是单计算单元对应双CPU。而之前的A、H、B系列显卡架构是一柜八卡、双CPU。NV的规格变化表明为提升GPU利用率，一套GPU计算单元要配两颗CPU，这是CPU需求增大的直接原因。

这一轮CPU涨价的原因是产能挤压，还是CPU迭代能力跟不上GPU导致单GPU配更多CPU，或是GPU需求紧张让渡部分计算工作给工作型CPU集群导致CPU需求爆发？

这是叠加因素：第一，英特尔第四代、第五代CPU性价比高但产能不强，随着AI应用（如Chatbot）增多，IT需求增加，CPU抢手；第二，GPU算力及利用率与CPU相关，推动CPU需求；第三，海外如ChatGPT、Minus、GenSpark等Agent在检索网页、内容处理、多模态搜索等场景CPU需求增大，付费用户（如Grok pro版）需要工作型CPU集群。

多模态维度会产生更多CPU用量吗？还是大模型本身以GPU为主？

多模态对CPU产生额外需求。CPU需先对图片等进行简单处理并分发给4090等GPU，多模态检索（如声音、图片）使CPU需识别模态、分配任务、等待结果并处理，导致时间片轮转额外消耗。海外大厂因日活高，需求更大。

不管是啥场景，只要流水线体系不标准化，越复杂越需要CPU，趋势可能越来越复杂，是吗？

对。并且，尤其是在海外，很多用户对AI效果有高度依赖，为降低幻觉，Agent会反复推理，导致工作时间变长、检索资料增多，需构建算力型集群压减任务处理时间。

Agent对调度型CPU需求量不大，但对工作型需求量大，与GPU需求相比，是对GPU需求更大还是对CPU需求更大？

还是对GPU的需求会大很多。存在临界点：若Agent依赖自身体系API交互数据（如千问），GPU负责简单语义推理，CPU负责多步骤任务（如支付、下单），此时CPU占比可能更高（5成或4.5成）；若Agent涉及开放型检索（如网页、图片），则GPU任务（多模态、超长上下文推理）更重。

像千问这种需要跨多个APP（如点外卖、订酒店）的情况下，是对工作型CPU需求更大，还是对GPU更大？

对CPU的需求更大。酒店、旅游、打车等APP背后由x86服务器（工作型CPU）支撑，Agent工作时需CPU调度（如用户指令发送给GPU解读后，打开APP或调用API），GPU仅负责理解用户下一步操作的简单文本或数据传递，计算量小。

医疗类Agent（如调阅历史病例并给出建议）是对CPU需求更大，还是对GPU需求更大？

对GPU的需求更大。此类任务需检索患者历史病例及检查报告并进行诊断推理，激活参数多（20B~30B），远超CPU简单任务的处理能力。

一个CPU可以创建100000个沙盒，这个概念是什么？100000个沙盒对调度型工作的供给概念是怎样的？

沙盒有两种：一种是虚拟机沙盒（如Minus开Windows虚拟机用Chrome），笨且费钱；另一种是主流型沙盒（Linux服务器硬盘空间），仅Agent任务可读写。Agent工作时，CPU通过监控线程扫描沙盒（每秒或每毫秒一轮），触发下一步操作。一个CPU线程可监控多个沙盒，128核CPU可分出多个线程，每个线程监控大量沙盒。Linux操作系统限制约20000个监控现场，而非CPU算力。

工作类CPU打开一个网页消耗多少CPU核？有没有大概的量化关系？

打开一个网页需对应CPU的一个物理线程（一核），一颗CPU只能同时打开约100个网页（留部分核计算）。因此需要工作型集群，避免与调度任务共用CPU降低效率。

打开一个APP也是消耗一个核吗？

打开一个APP瞬间需要一个核，但因缓存等优化，占核时间短（几十毫秒）；而用Chrome打开大网页需渲染，占核时间长（约一秒）。

现在CPU是否变成了任务执行的瓶颈，不再是GPU？

国内因Agent和Coding等高频场景用户量小，无此问题；海外在极端场景（如Grok、GPT基于极速推理模型构建复杂Agent）会出现，因最耗时的是用Chrome浏览YouTube等内容多的网页（需CPU打开、清洗、排序、总结后再给GPU）。

往后会推动传统用CPU解决的调用或任务转向用GPU吗？

会有。分两个阶段：一是数据库查询已转向GPU（利用并行查询和矩阵计算优势）；二是多模态检索（如Google Gemini）中，CPU需分离网页图像和文字，将图片分给4090转向量，GPU消耗变大，CPU调度也增多。

未来Agent场景或用量大的场景稳定后，很多任务可以GPU化吗？

可以，但稳定任务GPU化后会产生新的CPU需求（如Google、OpenAI的电商场景，用户传图求购需CPU处理新场景），需求滚动增长。

英特尔等CPU现在具体的需求缺口有多大？

国内无明显趋势（千问消耗小，字节扣子等活跃低），需求可能未来由美国映射；海外可参考Google、Grok、OpenAI的付费用户（Agent高级付费用户1 DAU约对应0.5 CPU）。

存储（DRAM、SSD）价格涨到什么程度会到云厂承受边界？技术上如何降低存储用量和需求？

SSD涨价1~2年没问题，因大模型商业化（如文生视频永久保存用户生成内容）需求持续增长，用户付费支撑云厂支付SSD费用。KV Cache方面，可优化（如用户关闭网页/APP后释放KV，压缩聊天文本，用户返回时加载精简文本）；平台若收不到钱（如国内免费助手）可能放弃KV，降低DRAM需求。

做的极致一点，完全不用存到DRAM，最外到HDD，数据不可能完全没有，尽量压缩和远存储更便宜，这么理解对吧？

对。躺平型平台会这样，但能赚钱的平台（如ChatGPT）会长期将KV存DRAM。

有看到SSD替代DRAM的趋势吗？技术上有什么变化？

有趋势。英伟达推出GPU与SSD直接数据互通，降低DRAM压力。Agent场景用户接受任务10分钟起步，SSD与DRAM的读取延时差异（100-200毫秒）在10分钟内不明显，Agent越多，SSD替代DRAM场景越多。

【限时免费加入星球】

请扫描下方二维码

即可获取更多投研信息

整理不易，希望各位领导能够多多支持！您的一个点赞、一次转发、随手分享，都是我们继续坚持的最大动力~~~~

——END——

知识星球：追踪全市场最新动向，聚焦全行业、公司深度逻辑，洞悉产业链上下游关系&各项指标数据，这里汇聚全市场深度投研信息，提供高价值的纪要报告、投研逻辑和行业知识经验分享

星球覆盖目前内容有：PDF纪要，音频纪要，白名单电话会，行业/个股动态点评，行业数据库，外资投行报告/深度研报/投研框架等。文字+音频纪要日均更新200+；星球全部内容更新300+；

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

【CPU系列研究】行业专家视角:Agent AI时代下CPU产业机会

最新文章

热门文章

随机文章

【CPU系列研究】 行业专家视角:Agent AI时代下CPU产业机会

1月23日 再生纸行情汇总

1月23日:现货黄金行情分析,5000美元迫在眉睫!

最新文章

热门文章

随机文章

【CPU系列研究】行业专家视角:Agent AI时代下CPU产业机会

1月23日再生纸行情汇总