由于计算机组件(包括内存)价格上涨,人工智能 (AI) 的成本飙升,谷歌提出了一种名为“TurboQuant”的创新技术。
谷歌研究团队于3月24日(美国时间)在一篇博文中发布了TurboQuant ,这项技术源于降低人工智能成本的重大尝试,类似于震撼人工智能行业的“DeepSeek冲击”。TurboQuant通过降低人工智能的内存占用并显著提高模型效率,有望带来持久的效益。
TurboQuant采用了一种称为量化的技术。量化是一种数据压缩方法,它允许用更少的比特来表示相同的值。TurboQuant的重点在于一种名为“键值缓存”(KV缓存)的机制,它是人工智能领域最大的内存消耗因素之一。
这个缓存本身也存在问题。模型运行次数越多,KV缓存占用的内存就越多。“这种增长会成为内存使用和计算速度方面的主要瓶颈,尤其是在长上下文模型中,”谷歌的Amir Zandieh及其同事在2025年发表的论文中指出,该论文首次提出了TurboQuant算法。
针对不断增长的键值缓存,一种解决方案是对键值对进行量化,以减少其总体占用空间。Zandieh 的团队在一篇博文中声称,TurboQuant 可以实现“显著”的数据压缩。他们在之前的论文中指出,“在不牺牲精度的前提下减小键值缓存的大小至关重要。”
研究团队将 TurboQuant 应用于 Meta Platforms 的开源模型“Llama-3.1-8B”进行测试,发现“TurboQuant 在所有基准测试中,在保持下游任务准确性的同时,至少将 KV 内存的大小减少了六分之一”。换句话说,他们成功地将所需的 KV 缓存量减少了六倍。
TurboQuant 可以提高单个 AI 实例的成本效益,尤其是在本地环境中。
例如,在硬件预算有限的情况下运行 AI 模型时,这可以减轻增加键值缓存和延长上下文窗口带来的负担。对于希望使用 MacBook Neo 或 Mac mini 作为低成本本地 AI 服务器的 OpenClaw 用户来说,这无疑是个好消息。
虽然DDR5内存价格曾因DRAM价格上涨而飙升,但最近已大幅回落,尤其是在消费市场。这既是由于价格上涨导致PC需求下降,也是由于人们对内存需求的未来日益感到不确定。一段在中国社交媒体上流传的视频显示,一位内存经销商站在一堆库存前哀叹道:“内存价格暴跌,我积压了一堆库存,完了。”他原本打算高价转售这些库存,现在却很难以高于进价的价格卖出去。
如果经销商和分销商因对未来前景的不确定性而恐慌性抛售,将会引发多米诺骨牌效应,导致价格进一步下跌,因此我们可以预期消费级DDR5内存价格会暂时再下降一个档次。事实上,美国市场DDR5内存的平均价格已经从峰值下跌了30%以上,而消费级内存价格的下跌已成为全球趋势。
然而,内存市场的供需依然紧张,三星和SK海力士对合约价格仍持乐观态度。市场研究公司TrendForce也认为,近期的价格下跌主要集中在消费和零售市场,整体内存市场仍处于上升趋势。因此,即使销售价格有所下降,也可能只是暂时的现象,无需掉以轻心。免责声明:图文转自网络,不代表本平台立场,仅供读者交流学习,如有侵权,请在后台留言联系我们进行删除,谢谢!小编居住在日本,如需批发或者代购海外产品,可直接联系vx:woody6931