OpenAI 发现可将推理成本减半的新方法我们密切关注着 Anthropic、谷歌和 OpenAI-每日投研

OpenAI 发现可将推理成本减半的新方法我们密切关注着 Anthropic、谷歌和 OpenAI

我们密切关注着 Anthropic、谷歌和 OpenAI 为获取更多服务器芯片以运行模型所作的努力，但人们往往忽略了一个关键事实：这些企业正在千方百计挖掘现有服务器的算力，以提升运行效率。

据知情人士透露，在本月一个此前未被报道的案例中，OpenAI 工程师告诉同事们，他们已经找到了将推理（即运行现有模型）成本降低逾一半的方法，这一方案基于一些新发现的优化技术。

当工程师们将这些新技术应用于为没有免费或付费账户的访客运行 ChatGPT 时，所需的英伟达图形处理器数量一度降至仅几百块——这是一个小到令人震惊的数字。（不过，OpenAI 这类用户的用量可能不大，因为公司限制了他们通过这种方式使用聊天机器人的频率。）

目前尚不清楚 OpenAI 是通过何种技术实现这些效率改进的，可能包括量化技术、键值缓存（即帮助模型记住先前计算产生的信息以避免重复运算）、批量处理查询而非逐个请求，以及将部分查询路由至功耗更低的模型或模型子模块等方案。

而 OpenAI 本月发现的这些方案，可能在今年晚些时候、公司开发参数规模更大的模型时影响较小，因为大型模型往往运行成本更高。

隐藏内容

此处内容需要权限查看

1、本站部分资源源自互联网，如内容存在侵权行为或未标明出处的情况，您可通过邮箱 meiritouyan@qq.com 与我们联系，我们将尽快进行处理。

2、如遇本站资源无法下载、无法查看，请及时联系我们，我们将第一时间修复。