腾讯携手创新“无监督前缀微调”技术:训练 tokens 最多减少 95%,提升 AI 推理效率
根据科技媒体 marktechpost 在 3 月 1 日发布的最新消息,腾讯 AI Lab 联合香港中文大学,推出了一种称为“无监督前缀微调”(UPFT)的全新方法,有效提升了大型语言模型的推理效率。
此方法并不需要处理整套的推理过程,而是仅针对模型输出的前 8 到 32 个词元(token)进行优化,能显著改进模型的推理表现。UPFT 聚焦于不同推理路径中的关键早期步骤,在降低计算成本的同时提升了推理效果。
尽管大型语言模型在语言理解与生成上表现非常好,但提升其推理能力依然面临挑战。传统的微调技术通常依赖大量的标注数据或复杂的拒绝采样,消耗资源颇丰。而 UPFT 通过专注于模型输出的初始 tokens,开辟了一条新路,解决了效率问题和对昂贵监督的依赖。
研究表明,对于相同的问题,模型生成的多条推理路径的初步步骤常常极为相似,UPFT 正是基于这种“前缀自洽性”,无需完整的推理轨迹或大量标注数据,仅依靠这些初步的标记进行模型训练。
UPFT 使用贝叶斯推理的原理,将正确推理的概率分解为“覆盖率”和“准确性”两个部分。通过对早期 tokens 的训练,UPFT 在探索多样化推理路径的同时,确保了结果的可靠性。实验数据显示,UPFT 能够将训练中处理的 tokens 数量减少多达 95%,并显著减少时间和内存的需求。
在 GSM8K、MATH500、AIME2024 和 GPQA 等推理基准测试中,UPFT 展现出了卓越的性能。以 Qwen2.5-Math-7B-Instruct 模型为例,UPFT 在减少训练与推理 tokens 的同时,也提升了整体的准确率。在复杂的推理任务中,UPFT 的性能提高尤其显著,表明早期的推理步骤蕴含了解决问题的关键信息。
IT之家附上参考链接
广告声明:文中的对外链接(包括但不限于超链接、二维码、口令等形式)旨在提供额外的信息,帮助节省选择时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。