谷歌公布 Titans 系列 AI 模型架构:融合长短期记忆与注意力机制、突破 200 万上下文 Token
据报道,谷歌研究院近日发布消息,公开了“Titans”系列模型架构,该系列模型采用“仿生设计”作为最大特点,并融合了短期记忆、长期记忆以及注意力机制,支持长达 200 万个 Token 的上下文长度。相关论文已经发布在 arXiv(点击这里查看),谷歌计划今后将开源 Titans 的相关技术。
目前,Transformer 模型架构在许多情况下表现出色,但由于其上下文窗口长度的限制,通常仅能处理数千至数万个 Token,导致在处理长篇文本、多轮对话或需要大规模上下文记忆的任务时,语义连贯性和信息准确性往往无法得到保证。
Titans 系列模型架构通过引入深度神经长期记忆模块(Neural Long-Term Memory Module)成功解决了这一问题,其设计灵感源自于人类记忆系统,结合了短期记忆的快速反应和长期记忆的持久性,通过注意力机制来强调当前上下文的重要性(尤其关注用户即时输入的提示词,并准确记忆先前的提示词)。
据IT之家参考论文获悉,Titans 包含三种架构设计变体,分别是 Memory as a Context(MAC)、Memory as a Gate(MAG)和 Memory as a Layer(MAL),可以根据不同任务需求整合短期和长期记忆。其中,“MAC” 变体将长期记忆作为上下文的一部分,允许注意力机制动态结合历史信息与现有数据,适用于需要详细历史背景的任务。“MAG” 变体则根据任务需求调整实时数据与历史信息的重要性比例,专注于当前最相关信息。
谷歌着重介绍了“MAL” 变体,该架构将记忆模块设计为深度网络的一层,即在模型设计层面上固定压缩用户的历史记录和当前上下文内容,然后通过模型的注意力模块进行处理,因此效率相对较高,但输出效果不及 “MAC” 和 “MAG” 变体。
谷歌称,Titans 系列模型架构在处理长序列任务时明显优于现有模型,无论是语言建模还是时间序列预测,Titans 在准确性和效率方面都展现出“压倒性优势”,甚至在某些情况下超越了参数规模数十倍的模型,如 GPT-4。
广告声明:本文包含外部链接,旨在提供更多信息并节省您的筛选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。