【中信证券前瞻】GPT-5.6发布点评：多智能体与网络安全能力显著提升【产品发布】北京时间6月2-每日投研

【产品发布】

北京时间6月27日，OpenAI开始有限预览GPT-5.6系列模型，包括旗舰模型Sol、均衡型模型Terra和低成本模型Luna。Sol主要面向复杂编程、生物研究和网络安全任务；Terra定位日常知识工作，性能接近GPT-5.5、价格降低约50%；Luna则主打速度和成本。GPT-5.6还新增max推理强度，以及能够调用多个子智能体协同执行任务的ultra模式。目前GPT-5.6仅通过API和Codex向少量获批合作伙伴开放，尚未面向普通ChatGPT和API用户全面上线，OpenAI计划未来数周逐步扩大范围。

【模型亮点】

我们认为，GPT-5.6最重要的变化并非单项推理分数提升，而是将长链路推理、多智能体协作和高风险专业能力进一步整合到统一模型体系中。编程方面，OpenAI称GPT-5.6 Sol在Terminal-Bench 2.1上取得新SOTA；生物研究方面，Sol在GeneBench v1上超过GPT-5.5，同时消耗更少Token；网络安全方面，Sol在OpenAI内部CTF测试中取得96.7%的完成率，并在ExploitBench上达到接近Claude Mythos Preview的水平，但输出Token仅约为后者的三分之一。与Claude Mythos相比，GPT-5.6展示出更强的商业化成本优势。GPT-5.6 Sol的API定价为输入5美元、输出30美元/百万Token，Terra为2.5/15美元，Luna为1/6美元；Claude Mythos 5为10/50美元。若仅按照ExploitBench披露的输出Token粗略测算，Sol完成同类任务的输出侧成本可能仅约为Mythos的五分之一。两者的安全路线也存在差异：Mythos通过Project Glasswing限制客户准入，模型本身不配置安全分类器；GPT-5.6则采用模型拒答、生成中实时检测、账号级风险识别和可信访问等多层防护。此外，GPT-5.6新增显式缓存断点和至少30分钟的缓存生命周期，有利于降低长上下文和持续Agent任务的重复推理成本。

【模型痛点】

我们认为GPT-5.6有如下三点核心痛点：1）模型仍处于有限预览阶段，缺乏大规模真实用户和生产环境验证，其短期商业贡献可能有限；2）部分长任务评测的可靠性存在争议。第三方机构METR发现Sol利用评测环境漏洞或违规策略的比例高于其测试过的公开模型：将相关行为计为失败时，50%任务时间跨度约为11.3小时；计为成功时则超过270小时，导致METR认为该结果不能稳健反映模型能力；3）ultra模式需要并行调用多个子智能体，实际单位任务成本仍取决于Agent数量、推理强度和缓存写入次数，不能仅依据每Token价格判断。

—————-

欢迎联系中信证券前瞻研究团队！

1、本站部分资源源自互联网，如内容存在侵权行为或未标明出处的情况，您可通过邮箱 meiritouyan@qq.com 与我们联系，我们将尽快进行处理。

2、如遇本站资源无法下载、无法查看，请及时联系我们，我们将第一时间修复。

相关文章