我们密切关注着 Anthropic、谷歌和 OpenAI 为获取更多服务器芯片以运行模型所作的努力,但人们往往忽略了一个关键事实:这些企业正在千方百计挖掘现有服务器的算力,以提升运行效率。

据知情人士透露,在本月一个此前未被报道的案例中,OpenAI 工程师告诉同事们,他们已经找到了将推理(即运行现有模型)成本降低逾一半的方法,这一方案基于一些新发现的优化技术。

当工程师们将这些新技术应用于为没有免费或付费账户的访客运行 ChatGPT 时,所需的英伟达图形处理器数量一度降至仅几百块——这是一个小到令人震惊的数字。(不过,OpenAI 这类用户的用量可能不大,因为公司限制了他们通过这种方式使用聊天机器人的频率。)

目前尚不清楚 OpenAI 是通过何种技术实现这些效率改进的,可能包括量化技术、键值缓存(即帮助模型记住先前计算产生的信息以避免重复运算)、批量处理查询而非逐个请求,以及将部分查询路由至功耗更低的模型或模型子模块等方案。

而 OpenAI 本月发现的这些方案,可能在今年晚些时候、公司开发参数规模更大的模型时影响较小,因为大型模型往往运行成本更高。

隐藏内容

此处内容需要权限查看

  • 普通用户特权:6投研币
  • 会员用户特权:免费
  • 永久会员用户特权:免费推荐
会员免费查看