谷歌 DeepMind 优化 AI 模型新思路,计算效率与推理能力兼得
据IT之家报道,谷歌DeepMind团队最近推出了一种名为“可微缓存增强”(Differentiable Cache Augmentation)的全新方法,该方法可以显著提升大型语言模型的推理性能,而且并不会明显增加计算负担。
项目背景
在语言处理、数学和推理领域,大型语言模型(LLMs)扮演着不可或缺的角色。
随着大型语言模型(LLMs)变得越来越复杂,计算技术方面的改进变得尤为关键,这些改进可以使LLMs更有效地处理数据,生成更精确且与上下文相关的响应。研究人员正致力于开发能够在固定计算预算内运行的方法,而不牺牲性能。
LLMs的一个主要挑战是它们在进行推理或执行超出预训练架构的计算时,无法高效地处理多个任务。
目前提升模型性能的方法包括在任务处理期间生成中间步骤,但这样做的代价是增加延迟和效率低下。这种限制阻碍了模型执行复杂推理任务的能力,尤其是那些需要更长依赖关系或更高预测准确性的任务。
项目介绍
“可微缓存增强”采用一个经过训练的协处理器来增强LLM的键值(kv)缓存,从而丰富模型的内部记忆。其关键在于保持基础LLM冻结,同时训练异步运行的协处理器。
整个过程可分为3个阶段:冻结的LLM生成kv缓存;协处理器使用可训练软令牌来处理kv缓存,生成潜在嵌入;增强的kv缓存反馈到LLM,产生更丰富的输出。
在Gemma-22B模型上进行测试后发现,这种方法在多项基准测试中取得了显著成效。例如,在GSM8K数据集上,准确率提高了10.05%;在MMLU上,性能提升了4.70%。此外,该方法还减少了模型在多个标记位置的困惑度。
谷歌DeepMind的这项研究为提升LLMs的推理能力提供了新思路。通过引入外部协处理器来增强kv缓存,研究人员在保持计算效率的同时显著提高了模型性能,为LLMs处理更为复杂的任务铺平了道路。
广告声明:文中可能含有跳转链接,仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。