头部云厂专家交流.docx-每日投研

数据文件，请登录您的会员账号进行下载！

头部云厂专家交流

1. 核心事件：谷歌因算力紧缺限制Meta 调用Gemini，行业供需矛盾加剧事件定性：谷歌已对Meta（全球前三大AI 算力及模型调用客户）限制Gemini API 调用，原因是自有业务与对外服务间的资源冲突加剧。

供给缺口量化：

谷歌2026 年TPU 总供给400~450 万颗，GPU 几十万颗。

其中60%~70% TPU 需预留自用（DeepMind 训练、搜索、YouTube等），对外可提供仅100~150 万颗TPU+少量GPU。

头部客户已大量锁定资源：Asraki 2026 年已下单100 万颗TPU（V7）正在履约，Meta、Apple 等预计2027~2028 年将成为前三大AI 算力客户。

持续性判断：算力紧缺至少延续至2027 年上半年，下半年至2028 年芯片供给量才能显著改善。

2. 算力租赁价格全面跳涨：B200、H100 翻倍，老卡越用越贵B200（当前主力）：

三年预留价格：2025 年Q3~Q4 签约价约3~3.3 美元/芯片小时→2026 年当前已涨至6 美元，翻倍。

一年预留价格：当前已超7 美元，年初约3 美元。

H100（老一代）：

2025 年底低点1.8~1.9 美元/芯片小时→当前三年预留价

已升至3.35 美元，接近翻倍。

续约涨价：老客户续签需加价30%，新客户新签价格约为去年同期的近3 倍。

V8 TPU（明年交付）：无历史基准，但预计比预期上涨20%~30%。

GB 系列：开始陆续交付，2027 年交付的VR 系列因供应链涨价仍需上调价格。

3. 供需失衡根因：需求是供给的10 倍，全供应链瓶颈叠加应用爆发需求/供给倍数：当前后台数据显示，对GPU/TPU 的需求至少是能给出供给的10 倍（含部分重复询价）。

瓶颈环节：不止HBM 和Cowos 封装，内存、CPU、磁盘等全链短缺。任何大于5 万卡（约100 多台机器）的订单需VP级审批。

需求驱动因素：

推理侧：Sora、智能体应用、Asana web coding、字节C-Eval等场景业务量爆炸式增长，各头部客户调用量月环比呈数倍增长。

训练侧：Meta 自研Llama 及其他业务场景需求激增，全球前三客户（Meta、Apple、Asraki）均加速锁定资源。

电力瓶颈缓解：2027 年Tier one 数据中心（支持液冷）将规模化交付（大几百兆瓦级），但其他供应链仍紧张。

4. 模型路线分化：垂直赛道（编程、视频）获市场认可，

通用模型陷红海成功案例：Anthropic（Claude）专注编程，5 轮即可完成复杂任务，而GPT 需10 轮且总成本更高，企业客户愿高价买单。

谷歌内部调整：成立CEO 直接领导的Coding 研发团队，反思Gemini 通用路线市场粘性低、替代性高。

token 降价实质不是降价：厂商通过推出更小参数模型（如Lite 版本）或跨代对比（3.5 Flash 能力超3.1 Pro 但成本更低）包装降价，实际利润率仍上涨。

5. 资本开支与财务影响：云厂商毛利率拐点或出现在2026Q4~2027Q1老卡残值重估：H100 三年预留合同（2023 年底交付）集中在2026Q4~2027Q2 密集到期续约，若加价30%，将直接增厚云厂商AI 算力毛利率。

资本投入激进：谷歌通过稀释股票等方式筹集约800 亿美元，

全部投入未来Capex ，管理层长期战略兼顾TPU 迭代

（V8/V9/V10）与模型智能体发展，短期内Capex 不会缩减。

短期人才流动影响有限：核心科学家离职短期有震荡，但谷歌体量难以被个人左右，一把手工程仍将延续。

6. 当前算力消耗结构与海外云上中国模型的潜在影响推理vs 训练：当前算力消耗中推理约占60%，训练占40%。

海外云上中国模型：主要因中国模型开源且性能提升，但短

期不会冲击Asraki、Claude 等顶级模型价格，主要分流不关注代码质量的低端流量。

小卡库存已耗尽：A800 等小卡两周前还有约1 万张，目前已降至几百张，上千卡规模资源已无。

问答整理

1谷歌限制Meta 调用Gemini 的事件背后是什么原因？

谷歌存在算力极度紧缺的情况。Meta 作为头部客户，其需求增长非常快，但谷歌自有业务和对外服务之间存在矛盾，TPU供给有限，且已有超级客户消耗大量芯片，导致资源短缺。

未来几年这种趋势可能持续。

2这种算力紧张趋势会延续多久？

预计延续到2027 年上半年，整体算力都很紧张。

3Meta 在全球算力调用中的排名如何？

Meta 目前是全球前三的调用量用户。从AI 算力角度看，它还不是最大，但未来随着其订单交付，预计在2027-2028 年

将成为GCP 前三大客户。Meta 在AI 业务爆发前与谷歌存在竞争关系，但现在已成为云平台重要用户。

4当前B200 和H100 的租赁价格变化情况如何？

以B200 为例，去年三年预留价格约3-3.3 美元/芯片/小时，

今年翻倍至6 美元；一年预留价格超7 美元。H100 去年低点约1.8 美元，现在三年预留价格涨至3.5 美元左右，涨幅接近翻倍。头部客户折扣很少，最多九折。

5H100 这种旧卡为何还能涨价？

H100 现在确实在涨价。其价格从去年低点1.8 美元涨至现在三年预留价3.5 美元，半年时间翻倍。主要原因是市场需求远大于供给，云厂商利用旧卡提升利润。

6是否有客户退租H100？

不一定。虽然价格大涨，但客户在平衡是否退租。即使退租，

很快会有新客户接手，因为当前需求是供给的10 倍。

7目前算力需求和供给的比例是多少？

至少10 倍关系，即需求远大于供给。虽然部分需求可能重复询价，但整体差距仍然很大。

8B200 一年期预留价格是多少？

一年期价格超7 美元/芯片/小时。

9B300 的价格如何？

目前没有B300，只有B200 和GB 系列。

10GB 系列是否已上架，价格如何？

GB 系列已开始交付，价格能履约，但后续可能因供应链涨价而上调。VR 系列受供应链影响更大。

11供给不足的主要瓶颈是什么？

不仅是CoWoS 封装或HBM，整个供应链都紧缺，包括内存、

CPU 等。5 万卡以上需求需VP 审批。原因包括推理业务爆炸性增长以及模型训练需求超预期。

12明年TPU 交付情况如何？

明年预计1000-1200 万颗TPU，但谷歌数据中心无法完全承接，部分将通过New Cloud 方式交付。客户有两种选择：直接租赁或通过New Cloud 获取。

13谷歌因自用与第三方矛盾而租用马斯克卡的原因？

是的。谷歌自身TPU 资源不足，且DeepMind 等内部团队需要大量算力，导致Gemini 等模型部署受限，只能购买市场上的GPU 资源。

14后续是否还会有客户被断联限制算力？

之前一直存在类似情况。Meta 因调用量增长最快而成为焦点。

其他头部客户也面临类似资源不足问题，即使从外部买卡也不够。

15OpenAI 提前锁卡的做法是否正确？

现在看是正确的。OpenAI 通过用户反馈预判到需求缺口，提

前锁定了资源。相比之下，Google Gemini 当时感知不足。

Asrark 等公司也因提前布局而受益。

16谷歌token 降价的原因是什么？

token 降价并非真正降低单价，而是一种市场包装。例如用更低参数的模型（如Flash、Light 版本）提供类似能力，

实际成本更低。厂商利润率并未降低，反而在提升。

17TPU 是否还有可释放的卡？

V7 已无剩余，全部被锁定。V8 正在与头部客户谈判，其他客户很难分到剩余产能。GPU 方面，任何可提供的量在2026年都没有，大部分在谈2027 年V8。

18H100 老卡为何越用越贵？

这是市场博弈的结果。云厂商买卡成本固定，通过涨价扩大利润。客户需权衡是否以高价续约，而未来卡价可能继续上涨。目前处于博弈阶段。

19海外大厂是否限制员工token 开支？

谷歌内部目前没有限制，但已有讨论。只有DeepMind 允许使用其他模型，其他部门只能用Gemini。如果用量继续增长，

可能会有限制。

20最近有哪些模型迭代？

最新迭代是Gemini 3.5 Pro，擅长编程和长上下文推理。大版本迭代约半年一次，预计年底出4.0。此外，新发布的Omni世界模型也受到关注，迭代可能更快。

21老卡涨价是否会导致云厂商毛利率提升？

会有一定影响。H100 大规模三年预留即将到期，续约涨价20-30%将提升AI 算力业务的利润率。但整体影响有限，毛利改善预计在2026 年Q4 到2027 年Q2 体现。

22如何理解代币降价与硬件成本上涨的矛盾？

token 降价是市场包装，实际模型参数更小，成本更低，厂商利润率反而上升。例如3.5 Flash 比3.1 Flash 成本更高，

但通过提供更小模型（Light）来降低客户成本，厂商整体

利润率未降。

23明年算力瓶颈能否解决？

算力瓶颈未解决。电力方面，2027 年Tier one 数据中心大规模交付，电力供应将比2026 年改善，但整体仍紧张。

24云厂商的资本支出能否通过经营现金流支撑？管理层考核目标是什么？

云厂商如谷歌未来一两年仍会加大资本开支，即使增加负债也要换取更多算力。管理层有长期和短期目标，包括算力发展（TPU 迭代）和模型开发（智能体等），这是一把手工程。

25谷歌重要人员离职是否影响公司发展？

短期内会有震荡和不确定性，但长期影响有限。谷歌规模较大，顶尖科学家的离开不会完全决定公司未来，因为公司本身有系统化能力。

26当前推理和训练占算力消耗的比例是多少？

推理约占六成，训练占四成。

27如何看待海外云开始上中国模型？

说明中国模型性能提升，且全球有需求。短期不会冲击现有顶级模型价格，主要分流部分对代码质量要求不高的流量。

数据文件，请登录您的会员账号进行下载！

1、本站部分资源源自互联网，如内容存在侵权行为或未标明出处的情况，您可通过邮箱 meiritouyan@qq.com 与我们联系，我们将尽快进行处理。

2、如遇本站资源无法下载、无法查看，请及时联系我们，我们将第一时间修复。

相关文章