数据文件,请登录您的会员账号进行下载!

邀请到摩根士丹利主题研究主管、AI电力领域专家Stephen Byrd,讨论近期围绕“Token超额使用”的争议。

这可能是自去年DeepSeek发布以来,第一个真正让我感到棘手的AI看空逻辑。近期出现不少零散评论和报道,称Uber、Meta、Amazon、Microsoft等公司此前在Token上投入过度,如今正试图削减或合理化相关支出。虽然这些信息仍属个案,但OpenRouter的数据也显示,美国AI实验室正被Moonshot的Kimi、智谱GLM、阿里Qwen、DeepSeek等中国开源模型分走部分份额。

与此同时,Microsoft等超大规模云厂商也在调整叙事:关键未必是谁拥有最强模型,而是由谁成为编排层或模型路由层,针对具体任务挑选最合适的模型;还有报道称它们正与DeepSeek等厂商合作。Stephen,你在“Token工厂”模型上做了大量工作,客户对这项研究也有很多需求。这是一个相当棘手的话题,我想先听听你的初步判断,再逐层深入。

问答交流

1. 高端模型的价值与Token分层

Stephen Byrd:Tom,我理解你的担忧,这里确实存在风险。我先解释为什么自己仍持建设性看法,以及为什么当前变化大体符合我们对杰文斯悖论的预期,同时也会说明几个需要关注的风险。

积极的一面是,模型能力持续提高,各项基准测试中的表现也越来越好;企业则逐渐意识到自己可以利用这些模型完成非常惊人的工作。举一个实际案例:我们研究部门有一位非常优秀的程序员,主要服务量化客户。他借助一款编程工具开发出一个约6,000行代码的程序,代码本身并不是由他逐行编写。

他向我展示了结果和账单。那是一款美国编程工具,完成6,000行代码总共花费58美元,约合每100行代码1美元。若由这位程序员独立完成,可能需要数天,公司的成本会达到数千美元。

当然,市场上也有更便宜的选择。但即使把58美元降至20美元甚至10美元,一旦代码出错,需要人工排查,很快就会把节省下来的成本消耗掉。而且,这个程序在编程方法上需要很强的创造性。因此,“Token都一样”是一种很大的误解。不同Token所包含的质量和智能水平并不相同;美国高端模型的输出,与更低层级模型之间存在明显差异。

我对编排层本身并不反感,因为它的目的就是提高效率。如果某项任务不需要最高等级的模型,就不应该为顶级模型多付钱,这种分流是合理的。真正令我担心的是:编排层能否组合两、三个甚至四个低成本模型,达到一个高价模型的效果。OpenRouter的Fusion工具已经呈现出一些这样的迹象。如果多个便宜模型可以拼接出前沿模型的能力,这会构成实质性风险,我正在密切观察。

总体而言,当前情况仍更符合杰文斯悖论:单位成本下降,需求爆发式增长;与此同时,需求会按复杂程度分配到不同层级的模型。需求分层本身并不会让我太担心。企业仍会把相当一部分支出投向高端模型,因为其创造的价值很高,而改用便宜模型所能节省的增量成本并没有那么大。

问:我目前听到两个要点。第一,对于高端工作负载,虽然美国模型比中国模型贵,但与其创造的价值相比,成本仍然很低;如果是重要任务,使用低质量模型的风险太高。第二,你也认同市场需要正常的效率优化。客户有一个比喻:没必要开着F1赛车去杂货店。对于较低端的后台职能,使用昂贵模型并不划算。以上可以视为我们讨论的起点吗?接下来能否介绍一下,你在“Token工厂”模型中对企业智能体投资回报率所做的测算?

Stephen Byrd:是的。我们可以分别从采用者和超大规模云厂商的角度测算投资回报率。

2. 企业智能体的ROI与定价权

Stephen Byrd:从采用者角度看,我们的测算表明,算力销售方拥有一定定价权。一家美国大型AI实验室做过一项很有启发性的研究,覆盖了它所看到的各种企业用例。不同用例差异很大,但单次使用平均可为企业创造约55美元的收益或成本节省。

我们无法确切知道企业为实现一次这样的结果需要使用多少Token,但可以做出有依据的估算,近期报告中也测算过这组数据:一次使用可能需要几十万个Token。一款优秀的美国模型,价格可以大致按每100万Token 5美元计算。因此,使用约三分之一到二分之一个百万Token,Token成本约为2—3美元,却可能为企业节省55美元。这与前述程序员案例相符:他花了58美元,获得的成果价值可能高达数千美元。

我们也从超大规模云厂商的角度反推了这笔账,纳入数据中心的各项成本和Token价格,得到的回报率相当不错。结合当前算力仍然短缺、企业使用模型又明显“有利可图”这两点,算力提供方具备一定定价权。

如果换用中国模型,Token成本可能从3美元降到不足1美元。但企业原本已经获得很高回报,而且许多企业用例确实重视质量,因此,为节省这一小段成本而牺牲模型质量,未必值得;最终仍取决于具体用例。

3. 中国低成本模型会否削弱杰文斯悖论

问:2025年DeepSeek初代模型发布时,多头认为不必担心,因为杰文斯悖论会发挥作用:AI越便宜,需求和Token用量就越大,资本开支也会上升,事实证明这种判断是正确的。

现在的问题是,如果市场份额从美国AI实验室转向中国实验室和模型,而中国厂商由于算力条件限制,不得不采用算力消耗更低的方法,这会不会削弱杰文斯悖论?还是说市场整体增长得足够快,份额变化并不重要?

Stephen Byrd:我们的测算显示,市场整体正在大幅增长。不过这个问题很重要,需要拆开看。

市场扩张的根本原因,是企业可以用模型完成的工作正迅速增加。仍以前述6,000行代码为例:那位程序员原本根本没有足够时间完成这项工作,而他的成果将为公司带来新的收入。企业中正在不断出现类似案例。随着AI能够承担越来越多经济活动中的任务,对算力和相关工具的需求会爆发式增长。

但这是一场持续不断的竞赛,也正是我们对杰文斯悖论的预期:单位成本下降、需求上升,同时效率优化持续发生。许多用例会转向价格更低的模型,这完全在预期之内。

有几种情景会令我担忧。第一,如果美国模型的使用受到限制——近期已经出现一些相关动向——那么在看空情景下,美国模型会被封闭起来,而中国模型则有时间追赶。至少对美国相关股票而言,这是负面因素;对中国相关股票显然是利好。

我认为这种极端情况不会发生,因为美国政府理解其破坏性。更可能的路径是,前沿模型被用于经过专门审批的垂直领域,例如生命科学和网络安全,相关企业获准使用这些模型,行业继续向前发展。

第二个风险仍然是编排层。如果高端模型并不具备独特且极高的价值,而编排层能够让低层级模型实现相同结果,那会令人担忧。目前这一问题尚无定论,需要更多证据。现阶段虽然存在风险,但总体表现仍符合杰文斯悖论。

4. 编排层会否把价值从模型实验室转移给云厂商

问:如果编排层能够通过拼接多个低成本模型,或组合使用高端与低端模型来交付结果,价值是否会从AI实验室转移到超大规模云厂商?

Stephen Byrd:如果前沿模型走向商品化,答案是肯定的。反之,如果各前沿模型仍有显著差异,并且能够单独证明自身价值,那么绝大部分价值仍会留在模型开发商手中。不过,行业确实存在不同模型逐步收敛到相似水平的风险。

值得注意的是,前沿模型开发商目前仍在采用不同的研发路径。Demis Hassabis本周接受采访时提到,他们正在通用模型内部开发高度专业化的生命科学模型。只要这种差异化延续,前沿厂商拥有相当独特的知识产权和技术方法,价值就有可能继续留在这些厂商手中。如果模型能力最终收敛至相近水平,价值转移就会成为明确风险。

5. 除编程外,哪些工作需要最高等级模型

问:另一个看空逻辑是,编程是首个大规模AI用例,确实需要“兰博基尼级”模型。6,000行代码中只要有一行出错,就可能很难定位和修复。但随着AI向整个经济体扩散,其他职能、工作负载和垂直行业是否也会消耗同样多的Token,并且重要到必须使用最强、最昂贵的Token?

Stephen Byrd:我对此比较乐观。很多行业和职业在本质上与编程相似,需要投入大量智力劳动。

例如,一位在工作中大量使用AI的诉讼律师解释过,为什么他所在的小型律所选择美国前沿模型:律所可以把过去完成的全部工作资料输入模型,模型随后能就诉讼策略和表达方式提供非常高质量的建议与辅导,这是现成的法律软件无法做到的。

在这个场景中,前沿模型的能力很强,因为它扮演的是同事、合伙人和顾问的角色。很多职业都有类似特征。当然,这家律所的计费等职能显然不需要美国前沿模型。同一企业内部会同时存在需要前沿模型的高智力协作任务,以及可以交给低成本模型的常规任务。

从许多职业的增值环节看,我认为前沿模型作为协作者所能创造的价值,比市场当前意识到的更大。行业仍处于早期阶段,但我对这一方向相当乐观。

6. “Apple与Android”格局及Token份额

问:我在另一档播客中听到一位投资者提出一种观点,我也比较认同:Token市场最终会不会形成类似Apple与Android的格局?西方模型以价格最高的Token获取大部分价值份额,而开源模型和中国模型获取大部分Token用量份额。你是否认同?又该如何量化西方模型相对开源模型所能获得的溢价?

Stephen Byrd:我大体认同,但很难确定双方各自的Token用量份额。美国模型的Token使用量有可能反而高于中国模型,因为低层级模型承接的许多用例并不需要太多算力,而企业会使用美国模型处理非常复杂、消耗大量Token的任务。

问:也就是说,更昂贵的任务本身也会使用大量Token,美国模型最终可能同时占据较高的价值份额和用量份额?

Stephen Byrd:是的。模型背后还有芯片的演进。行业正在从Blackwell转向Rubin,再转向Feynman。根据我们的测算,从Blackwell到Feynman,生产Token的成本将下降约75%。即使是消耗大量Token的前沿用例,其单位Token成本也会下降,这正符合此前预期。

我并不愿意直接接受“开放权重模型一定会消耗更多Token”的结论,虽然它们毫无疑问会在市场中占有一席之地。不能因为低成本模型份额提高,就断言按Token用量加权的需求必然转向它们。不过,若按收入或资本投入衡量,市场显然会更偏向前沿模型。

7. 企业使用中国模型的安全顾虑

问:我最近参加了一次调研巴士之旅,走访了一些上市半导体公司和非上市厂商。非上市厂商表示,他们正用中国模型替代昂贵的西方模型;上市公司则开始试用Google Antigravity,因为它是一款更便宜的西方模型,成本低于OpenAI和Anthropic,同时没有使用中国模型的安全风险。

根据你的调研和行业交流,企业是否普遍担心中国模型的安全风险?还是大多数公司认为,只要模型托管在美国,就可以放心使用并节省大量成本?

Stephen Byrd:企业确实存在明显顾虑,在美国尤其如此,不过不同公司会做出不同选择。更让我担心的是美国以外的市场。

例如,我上周在欧洲感受到,当地企业对于可能无法继续使用美国前沿模型并不满意。在这种情况下,欧洲企业可能选择中国模型、Mistral或本地模型。三个月前,我参加了印度一场大型AI活动,现场传递的重要信息是:印度政府不希望依赖专有模型,而是希望采用开放权重模型;他们在很大程度上也代表了众多全球南方国家的立场。

因此,你所描述的安全偏好在美国及其他一些国家确实成立,但并非全球都如此,也不能保证长期不变。最终仍取决于模型表现。

还要强调,中国开发商并不垄断效率优势。美国开发商同样拥有低成本模型架构,用户也可以被路由至价格更低的美国模型,从而减少支出。低成本与高效率并非中国模型独有。

8. 中国模型追赶速度、算力约束与递归式自我改进

问:中国模型近期进步很快,从我们看到的基准测试来看,这一点似乎很难否认。市场上对此有两种解释。

一种对中国模型较乐观的观点是,“需求是创新之母”:由于算力受限,中国厂商被迫用更少资源完成更多工作,并由此开发出新的技术。它们与美国模型的差距似乎已经从约六个月缩短到30天或60天。

另一种更怀疑的观点认为,中国模型本质上只是在蒸馏西方模型,某种程度上类似当代的软件盗版。我并不完全清楚具体机制,也不知道这一领域是否有足够透明度。你如何看待这个问题?如果无法判断,也完全可以直说。

Stephen Byrd:我们确实无法确定实际情况。不过,我不同意“最好的中国模型只落后美国模型30天或60天”的说法。美国前沿领域正在发生的变化,比许多人意识到的更令人振奋;部分模型的能力提升速度和实际表现尚未得到完整的基准测试,我对所看到的进展非常兴奋。

如果暂时放下市场噪声,从中美两国各自拥有的资源看:中国拥有丰富的能源资源和极强的AI研发人才,这是不可否认的;但中国拥有的算力较少,这是一项重要约束,尽管市场对此仍有争论。美国在一定程度上受能源限制——我们此前讨论过很多次——但在其他方面,尤其是算力上,拥有明显优势。就我目前看到的情况而言,算力壁垒仍限制着中国模型追赶,但这只是一个变量,未来也可能改变。

长期来看,真正可持续的护城河是什么,目前并不清楚。令我在意的一个幕后变量,是递归式模型自我改进。中国厂商也在做这件事,这种方法效率很高,可能使模型能力迅速提升。这是一场利益极其重大的竞争,目前很难判断谁会胜出,或者最终是哪两三家胜出。几家美国厂商已经出现了非常积极的迹象,在这方面进展良好。

从股票投资角度看,如果一两家模型开发商实现充分的自我改进、能力快速跃升,市场可能受到扰动;投资者或会担心,其他落败开发商不得不削减资本开支。

9. 企业AI渗透率与Token支出合理化

问:综合来看,Ramp这家数据初创公司每月发布的报告给了我不少信心。该公司的经济学家最近在一档播客中表示,企业AI渗透率仍不足1%。因此,尽管市场不断谈论企业削减支出的零散案例,企业AI应用整体仍处于非常早期的阶段。

从1月到5月,单家企业的Token支出增长到原来的15倍;即使市场开始强调成本纪律,上个月仍环比增长14%。在AI采用程度最高的四分之一企业中,AI支出也只占企业总支出的1%;若剔除薪酬,则占2%。

这是否与你在一线了解到的情况基本一致?也就是说,目前关于支出回撤的消息,更多来自少数最早采用AI的《财富》20强企业,而对其他绝大多数公司和行业而言,AI应用才刚刚开始?

Stephen Byrd:企业采用AI的阶段非常早,真正意义上的普及甚至还没到棒球比赛的第一局。如今模型能力已经很强,企业内部少数真正理解模型能做什么的员工,往往会迅速增加使用量,支出也会变得很高。这是一个健康信号,但不会是故事的终点。

在使用量快速增加后,企业会开始反思:有些任务并不需要开着“玛莎拉蒂”去杂货店,可以把它们下放给较低层级的模型。这说明企业已经看到了真实价值,随后开始优化模型分配。

企业发现部分员工支出过高、进而适度收紧预算,本身并不构成看空逻辑。真正的看空风险是,未来低层级模型能够实现早期前沿模型用例所取得的同等效果。如果后者发生,我会相当担忧;但企业先增加支出,再尝试控制员工使用成本,是完全可以理解的过程。

而且正如你所说,整体渗透率依然极低。换一种说法:如果美国企业最终把每名员工每月数千美元的AI支出都用到上限,那将是一个“幸福的烦恼”。我愿意接受这种情况,它并不是我眼中的看空逻辑。

数据文件,请登录您的会员账号进行下载!