【产品发布】
北京时间6月27日,OpenAI开始有限预览GPT-5.6系列模型,包括旗舰模型Sol、均衡型模型Terra和低成本模型Luna。Sol主要面向复杂编程、生物研究和网络安全任务;Terra定位日常知识工作,性能接近GPT-5.5、价格降低约50%;Luna则主打速度和成本。GPT-5.6还新增max推理强度,以及能够调用多个子智能体协同执行任务的ultra模式。目前GPT-5.6仅通过API和Codex向少量获批合作伙伴开放,尚未面向普通ChatGPT和API用户全面上线,OpenAI计划未来数周逐步扩大范围。
【模型亮点】
我们认为,GPT-5.6最重要的变化并非单项推理分数提升,而是将长链路推理、多智能体协作和高风险专业能力进一步整合到统一模型体系中。编程方面,OpenAI称GPT-5.6 Sol在Terminal-Bench 2.1上取得新SOTA;生物研究方面,Sol在GeneBench v1上超过GPT-5.5,同时消耗更少Token;网络安全方面,Sol在OpenAI内部CTF测试中取得96.7%的完成率,并在ExploitBench上达到接近Claude Mythos Preview的水平,但输出Token仅约为后者的三分之一。与Claude Mythos相比,GPT-5.6展示出更强的商业化成本优势。GPT-5.6 Sol的API定价为输入5美元、输出30美元/百万Token,Terra为2.5/15美元,Luna为1/6美元;Claude Mythos 5为10/50美元。若仅按照ExploitBench披露的输出Token粗略测算,Sol完成同类任务的输出侧成本可能仅约为Mythos的五分之一。两者的安全路线也存在差异:Mythos通过Project Glasswing限制客户准入,模型本身不配置安全分类器;GPT-5.6则采用模型拒答、生成中实时检测、账号级风险识别和可信访问等多层防护。此外,GPT-5.6新增显式缓存断点和至少30分钟的缓存生命周期,有利于降低长上下文和持续Agent任务的重复推理成本。
【模型痛点】
我们认为GPT-5.6有如下三点核心痛点:1)模型仍处于有限预览阶段,缺乏大规模真实用户和生产环境验证,其短期商业贡献可能有限;2)部分长任务评测的可靠性存在争议。第三方机构METR发现Sol利用评测环境漏洞或违规策略的比例高于其测试过的公开模型:将相关行为计为失败时,50%任务时间跨度约为11.3小时;计为成功时则超过270小时,导致METR认为该结果不能稳健反映模型能力;3)ultra模式需要并行调用多个子智能体,实际单位任务成本仍取决于Agent数量、推理强度和缓存写入次数,不能仅依据每Token价格判断。
—————-
欢迎联系中信证券前瞻研究团队!
1、本站部分资源源自互联网,如内容存在侵权行为或未标明出处的情况,您可通过邮箱 meiritouyan@qq.com 与我们联系,我们将尽快进行处理。
2、如遇本站资源无法下载、无法查看,请及时联系我们,我们将第一时间修复。
