Token预算讨论.docx-每日投研

数据文件，请登录您的会员账号进行下载！

邀请到摩根士丹利主题研究主管、AI电力领域专家Stephen Byrd，讨论近期围绕“Token超额使用”的争议。

这可能是自去年DeepSeek发布以来，第一个真正让我感到棘手的AI看空逻辑。近期出现不少零散评论和报道，称Uber、Meta、Amazon、Microsoft等公司此前在Token上投入过度，如今正试图削减或合理化相关支出。虽然这些信息仍属个案，但OpenRouter的数据也显示，美国AI实验室正被Moonshot的Kimi、智谱GLM、阿里Qwen、DeepSeek等中国开源模型分走部分份额。

与此同时，Microsoft等超大规模云厂商也在调整叙事：关键未必是谁拥有最强模型，而是由谁成为编排层或模型路由层，针对具体任务挑选最合适的模型；还有报道称它们正与DeepSeek等厂商合作。Stephen，你在“Token工厂”模型上做了大量工作，客户对这项研究也有很多需求。这是一个相当棘手的话题，我想先听听你的初步判断，再逐层深入。

问答交流

1. 高端模型的价值与Token分层

Stephen Byrd：Tom，我理解你的担忧，这里确实存在风险。我先解释为什么自己仍持建设性看法，以及为什么当前变化大体符合我们对杰文斯悖论的预期，同时也会说明几个需要关注的风险。

积极的一面是，模型能力持续提高，各项基准测试中的表现也越来越好；企业则逐渐意识到自己可以利用这些模型完成非常惊人的工作。举一个实际案例：我们研究部门有一位非常优秀的程序员，主要服务量化客户。他借助一款编程工具开发出一个约6,000行代码的程序，代码本身并不是由他逐行编写。

他向我展示了结果和账单。那是一款美国编程工具，完成6,000行代码总共花费58美元，约合每100行代码1美元。若由这位程序员独立完成，可能需要数天，公司的成本会达到数千美元。

当然，市场上也有更便宜的选择。但即使把58美元降至20美元甚至10美元，一旦代码出错，需要人工排查，很快就会把节省下来的成本消耗掉。而且，这个程序在编程方法上需要很强的创造性。因此，“Token都一样”是一种很大的误解。不同Token所包含的质量和智能水平并不相同；美国高端模型的输出，与更低层级模型之间存在明显差异。

我对编排层本身并不反感，因为它的目的就是提高效率。如果某项任务不需要最高等级的模型，就不应该为顶级模型多付钱，这种分流是合理的。真正令我担心的是：编排层能否组合两、三个甚至四个低成本模型，达到一个高价模型的效果。OpenRouter的Fusion工具已经呈现出一些这样的迹象。如果多个便宜模型可以拼接出前沿模型的能力，这会构成实质性风险，我正在密切观察。

总体而言，当前情况仍更符合杰文斯悖论：单位成本下降，需求爆发式增长；与此同时，需求会按复杂程度分配到不同层级的模型。需求分层本身并不会让我太担心。企业仍会把相当一部分支出投向高端模型，因为其创造的价值很高，而改用便宜模型所能节省的增量成本并没有那么大。

问：我目前听到两个要点。第一，对于高端工作负载，虽然美国模型比中国模型贵，但与其创造的价值相比，成本仍然很低；如果是重要任务，使用低质量模型的风险太高。第二，你也认同市场需要正常的效率优化。客户有一个比喻：没必要开着F1赛车去杂货店。对于较低端的后台职能，使用昂贵模型并不划算。以上可以视为我们讨论的起点吗？接下来能否介绍一下，你在“Token工厂”模型中对企业智能体投资回报率所做的测算？

Stephen Byrd：是的。我们可以分别从采用者和超大规模云厂商的角度测算投资回报率。

2. 企业智能体的ROI与定价权

Stephen Byrd：从采用者角度看，我们的测算表明，算力销售方拥有一定定价权。一家美国大型AI实验室做过一项很有启发性的研究，覆盖了它所看到的各种企业用例。不同用例差异很大，但单次使用平均可为企业创造约55美元的收益或成本节省。

我们无法确切知道企业为实现一次这样的结果需要使用多少Token，但可以做出有依据的估算，近期报告中也测算过这组数据：一次使用可能需要几十万个Token。一款优秀的美国模型，价格可以大致按每100万Token 5美元计算。因此，使用约三分之一到二分之一个百万Token，Token成本约为2—3美元，却可能为企业节省55美元。这与前述程序员案例相符：他花了58美元，获得的成果价值可能高达数千美元。

我们也从超大规模云厂商的角度反推了这笔账，纳入数据中心的各项成本和Token价格，得到的回报率相当不错。结合当前算力仍然短缺、企业使用模型又明显“有利可图”这两点，算力提供方具备一定定价权。

如果换用中国模型，Token成本可能从3美元降到不足1美元。但企业原本已经获得很高回报，而且许多企业用例确实重视质量，因此，为节省这一小段成本而牺牲模型质量，未必值得；最终仍取决于具体用例。

3. 中国低成本模型会否削弱杰文斯悖论

问：2025年DeepSeek初代模型发布时，多头认为不必担心，因为杰文斯悖论会发挥作用：AI越便宜，需求和Token用量就越大，资本开支也会上升，事实证明这种判断是正确的。

现在的问题是，如果市场份额从美国AI实验室转向中国实验室和模型，而中国厂商由于算力条件限制，不得不采用算力消耗更低的方法，这会不会削弱杰文斯悖论？还是说市场整体增长得足够快，份额变化并不重要？

Stephen Byrd：我们的测算显示，市场整体正在大幅增长。不过这个问题很重要，需要拆开看。

市场扩张的根本原因，是企业可以用模型完成的工作正迅速增加。仍以前述6,000行代码为例：那位程序员原本根本没有足够时间完成这项工作，而他的成果将为公司带来新的收入。企业中正在不断出现类似案例。随着AI能够承担越来越多经济活动中的任务，对算力和相关工具的需求会爆发式增长。

但这是一场持续不断的竞赛，也正是我们对杰文斯悖论的预期：单位成本下降、需求上升，同时效率优化持续发生。许多用例会转向价格更低的模型，这完全在预期之内。

有几种情景会令我担忧。第一，如果美国模型的使用受到限制——近期已经出现一些相关动向——那么在看空情景下，美国模型会被封闭起来，而中国模型则有时间追赶。至少对美国相关股票而言，这是负面因素；对中国相关股票显然是利好。

我认为这种极端情况不会发生，因为美国政府理解其破坏性。更可能的路径是，前沿模型被用于经过专门审批的垂直领域，例如生命科学和网络安全，相关企业获准使用这些模型，行业继续向前发展。

第二个风险仍然是编排层。如果高端模型并不具备独特且极高的价值，而编排层能够让低层级模型实现相同结果，那会令人担忧。目前这一问题尚无定论，需要更多证据。现阶段虽然存在风险，但总体表现仍符合杰文斯悖论。

4. 编排层会否把价值从模型实验室转移给云厂商

问：如果编排层能够通过拼接多个低成本模型，或组合使用高端与低端模型来交付结果，价值是否会从AI实验室转移到超大规模云厂商？

Stephen Byrd：如果前沿模型走向商品化，答案是肯定的。反之，如果各前沿模型仍有显著差异，并且能够单独证明自身价值，那么绝大部分价值仍会留在模型开发商手中。不过，行业确实存在不同模型逐步收敛到相似水平的风险。

值得注意的是，前沿模型开发商目前仍在采用不同的研发路径。Demis Hassabis本周接受采访时提到，他们正在通用模型内部开发高度专业化的生命科学模型。只要这种差异化延续，前沿厂商拥有相当独特的知识产权和技术方法，价值就有可能继续留在这些厂商手中。如果模型能力最终收敛至相近水平，价值转移就会成为明确风险。

5. 除编程外，哪些工作需要最高等级模型

问：另一个看空逻辑是，编程是首个大规模AI用例，确实需要“兰博基尼级”模型。6,000行代码中只要有一行出错，就可能很难定位和修复。但随着AI向整个经济体扩散，其他职能、工作负载和垂直行业是否也会消耗同样多的Token，并且重要到必须使用最强、最昂贵的Token？

Stephen Byrd：我对此比较乐观。很多行业和职业在本质上与编程相似，需要投入大量智力劳动。

例如，一位在工作中大量使用AI的诉讼律师解释过，为什么他所在的小型律所选择美国前沿模型：律所可以把过去完成的全部工作资料输入模型，模型随后能就诉讼策略和表达方式提供非常高质量的建议与辅导，这是现成的法律软件无法做到的。

在这个场景中，前沿模型的能力很强，因为它扮演的是同事、合伙人和顾问的角色。很多职业都有类似特征。当然，这家律所的计费等职能显然不需要美国前沿模型。同一企业内部会同时存在需要前沿模型的高智力协作任务，以及可以交给低成本模型的常规任务。

从许多职业的增值环节看，我认为前沿模型作为协作者所能创造的价值，比市场当前意识到的更大。行业仍处于早期阶段，但我对这一方向相当乐观。

6. “Apple与Android”格局及Token份额

问：我在另一档播客中听到一位投资者提出一种观点，我也比较认同：Token市场最终会不会形成类似Apple与Android的格局？西方模型以价格最高的Token获取大部分价值份额，而开源模型和中国模型获取大部分Token用量份额。你是否认同？又该如何量化西方模型相对开源模型所能获得的溢价？

Stephen Byrd：我大体认同，但很难确定双方各自的Token用量份额。美国模型的Token使用量有可能反而高于中国模型，因为低层级模型承接的许多用例并不需要太多算力，而企业会使用美国模型处理非常复杂、消耗大量Token的任务。

问：也就是说，更昂贵的任务本身也会使用大量Token，美国模型最终可能同时占据较高的价值份额和用量份额？

Stephen Byrd：是的。模型背后还有芯片的演进。行业正在从Blackwell转向Rubin，再转向Feynman。根据我们的测算，从Blackwell到Feynman，生产Token的成本将下降约75%。即使是消耗大量Token的前沿用例，其单位Token成本也会下降，这正符合此前预期。

我并不愿意直接接受“开放权重模型一定会消耗更多Token”的结论，虽然它们毫无疑问会在市场中占有一席之地。不能因为低成本模型份额提高，就断言按Token用量加权的需求必然转向它们。不过，若按收入或资本投入衡量，市场显然会更偏向前沿模型。

7. 企业使用中国模型的安全顾虑

问：我最近参加了一次调研巴士之旅，走访了一些上市半导体公司和非上市厂商。非上市厂商表示，他们正用中国模型替代昂贵的西方模型；上市公司则开始试用Google Antigravity，因为它是一款更便宜的西方模型，成本低于OpenAI和Anthropic，同时没有使用中国模型的安全风险。

根据你的调研和行业交流，企业是否普遍担心中国模型的安全风险？还是大多数公司认为，只要模型托管在美国，就可以放心使用并节省大量成本？

Stephen Byrd：企业确实存在明显顾虑，在美国尤其如此，不过不同公司会做出不同选择。更让我担心的是美国以外的市场。

例如，我上周在欧洲感受到，当地企业对于可能无法继续使用美国前沿模型并不满意。在这种情况下，欧洲企业可能选择中国模型、Mistral或本地模型。三个月前，我参加了印度一场大型AI活动，现场传递的重要信息是：印度政府不希望依赖专有模型，而是希望采用开放权重模型；他们在很大程度上也代表了众多全球南方国家的立场。

因此，你所描述的安全偏好在美国及其他一些国家确实成立，但并非全球都如此，也不能保证长期不变。最终仍取决于模型表现。

还要强调，中国开发商并不垄断效率优势。美国开发商同样拥有低成本模型架构，用户也可以被路由至价格更低的美国模型，从而减少支出。低成本与高效率并非中国模型独有。

8. 中国模型追赶速度、算力约束与递归式自我改进

问：中国模型近期进步很快，从我们看到的基准测试来看，这一点似乎很难否认。市场上对此有两种解释。

一种对中国模型较乐观的观点是，“需求是创新之母”：由于算力受限，中国厂商被迫用更少资源完成更多工作，并由此开发出新的技术。它们与美国模型的差距似乎已经从约六个月缩短到30天或60天。

另一种更怀疑的观点认为，中国模型本质上只是在蒸馏西方模型，某种程度上类似当代的软件盗版。我并不完全清楚具体机制，也不知道这一领域是否有足够透明度。你如何看待这个问题？如果无法判断，也完全可以直说。

Stephen Byrd：我们确实无法确定实际情况。不过，我不同意“最好的中国模型只落后美国模型30天或60天”的说法。美国前沿领域正在发生的变化，比许多人意识到的更令人振奋；部分模型的能力提升速度和实际表现尚未得到完整的基准测试，我对所看到的进展非常兴奋。

如果暂时放下市场噪声，从中美两国各自拥有的资源看：中国拥有丰富的能源资源和极强的AI研发人才，这是不可否认的；但中国拥有的算力较少，这是一项重要约束，尽管市场对此仍有争论。美国在一定程度上受能源限制——我们此前讨论过很多次——但在其他方面，尤其是算力上，拥有明显优势。就我目前看到的情况而言，算力壁垒仍限制着中国模型追赶，但这只是一个变量，未来也可能改变。

长期来看，真正可持续的护城河是什么，目前并不清楚。令我在意的一个幕后变量，是递归式模型自我改进。中国厂商也在做这件事，这种方法效率很高，可能使模型能力迅速提升。这是一场利益极其重大的竞争，目前很难判断谁会胜出，或者最终是哪两三家胜出。几家美国厂商已经出现了非常积极的迹象，在这方面进展良好。

从股票投资角度看，如果一两家模型开发商实现充分的自我改进、能力快速跃升，市场可能受到扰动；投资者或会担心，其他落败开发商不得不削减资本开支。

9. 企业AI渗透率与Token支出合理化

问：综合来看，Ramp这家数据初创公司每月发布的报告给了我不少信心。该公司的经济学家最近在一档播客中表示，企业AI渗透率仍不足1%。因此，尽管市场不断谈论企业削减支出的零散案例，企业AI应用整体仍处于非常早期的阶段。

从1月到5月，单家企业的Token支出增长到原来的15倍；即使市场开始强调成本纪律，上个月仍环比增长14%。在AI采用程度最高的四分之一企业中，AI支出也只占企业总支出的1%；若剔除薪酬，则占2%。

这是否与你在一线了解到的情况基本一致？也就是说，目前关于支出回撤的消息，更多来自少数最早采用AI的《财富》20强企业，而对其他绝大多数公司和行业而言，AI应用才刚刚开始？

Stephen Byrd：企业采用AI的阶段非常早，真正意义上的普及甚至还没到棒球比赛的第一局。如今模型能力已经很强，企业内部少数真正理解模型能做什么的员工，往往会迅速增加使用量，支出也会变得很高。这是一个健康信号，但不会是故事的终点。

在使用量快速增加后，企业会开始反思：有些任务并不需要开着“玛莎拉蒂”去杂货店，可以把它们下放给较低层级的模型。这说明企业已经看到了真实价值，随后开始优化模型分配。

企业发现部分员工支出过高、进而适度收紧预算，本身并不构成看空逻辑。真正的看空风险是，未来低层级模型能够实现早期前沿模型用例所取得的同等效果。如果后者发生，我会相当担忧；但企业先增加支出，再尝试控制员工使用成本，是完全可以理解的过程。

而且正如你所说，整体渗透率依然极低。换一种说法：如果美国企业最终把每名员工每月数千美元的AI支出都用到上限，那将是一个“幸福的烦恼”。我愿意接受这种情况，它并不是我眼中的看空逻辑。

数据文件，请登录您的会员账号进行下载！

1、本站部分资源源自互联网，如内容存在侵权行为或未标明出处的情况，您可通过邮箱 meiritouyan@qq.com 与我们联系，我们将尽快进行处理。

2、如遇本站资源无法下载、无法查看，请及时联系我们，我们将第一时间修复。

相关文章