中国联通业界首次提出大模型能力边界量化基准,避免“高射炮打蚊子”情况

xxn 阅读:58055 2024-12-27 22:00:41 评论:0

IT之家今日报道称,根据中国联通官方公告,该公司参考动物智能演化规律,并结合大模型实际应用实践,首次提出了大模型能力边界量化基准,以量化分析主流语言大模型的能力边界,详细描述模型参数量、模型能力与应用场景之间的关系,为语言大模型的应用选型提供了理论和经验指导,从而有助于降低语言大模型应用门槛。

相关研究成果发表在自然语言处理权威会议NLPCC 2024上,标题为 <What is the Best Model? Application-Driven Evaluation for Large Language Models>,相应的评估基准已在业界开源

借鉴动物智能演化规律

一般来说,动物的脑神经元数量越多,脑容量越大,智力水平也越高。此外,不同智力水平的动物擅长的任务类型和难度各不相同,即使大脑较小的乌鸦也可以完成像“乌鸦喝水”这样的任务。

动物智能演化规律

类似地,在语言大模型中,扩展法则指出模型参数量越大,模型能力越强,相应的算法消耗和应用成本也越高。但这种定性分析是不够的,大模型能力边界的定量描述不足,这导致在实际应用中常常出现“高射炮打蚊子”的情况。因此,对大模型能力边界进行定量描述是关键且紧迫的。

构建大模型能力评估基准

中国联通研究团队从实际应用场景出发,对语言大模型的主要能力进行概括、整理和总结,建立了应用驱动的大语言模型能力评估基准。这个评估基准涵盖了文本生成、理解、关键信息提取、逻辑推理、任务规划等5个主要能力,并细分为27个子能力

语言大模型主要能力

为这27个子能力,中国联通研究团队设计了相应的评估任务,并使用易、中、难三个难度等级的678个问答对构成的评估数据集。为避免数据泄露问题,所有数据皆由专家团队手工编写。

应用驱动的语言大模型能力评估数据集

量化主流大模型能力边界

团队开发了专家评估和基于大模型的自动化评估方法,对同一家族中8个不同规模的模型(0.5B、1.8B、4B、7B、14B、32B、72B、110B)进行了测试和评估,以避免模型架构、训练数据等非参数量因素对评估结果造成干扰,获得了对不同参数量模型在各种任务上可靠的评估结果。从下方的评测结果可见,不同参数量的模型具有不同的能力,模型参数量越大,模型能力越强,于是对于复杂任务需使用大参数量模型

不同参数量模型在各类任务中的准确率

依据能力需求确定模型参数量

根据语言大模型能力边界测评结果,研究团队提出了一种简单实用的模型选择方法,用以指导模型应用时的参数选择。总体而言,对于不同任务,任务难度越高则需要更大的参数;对于相同任务,参数越大则模型性能越好。

具体来说,可根据某项任务对模型性能的最低要求来选择相应参数的规模。以图中所示任务为例:

  • 在用户需求准确率达到80%的情况下,对于拼写错误校正任务,14B及以上模型可获得90分以上;

  • 对于逻辑错误检测任务,110B及以上模型可以达到90分以上;

  • 若要同时处理多项任务,可先为每个任务选择合适的模型,再选择参数最大的模型

在选型过程中,无需深入了解大模型,这将使用户选择和使用大模型更为便捷,从而促进大模型的普及。

模型参数量选择方法示例

探索设计模型选择使用“说明书”

在元景大模型应用中,中国联通基于上述评估基准,设计了评估工具,以量化1B、7B、13B、34B和70B等元景基础大模型的能力边界,并将其应用于违规短信分类、投诉工单分类、客服辅助、渔业知识问答、元景App问答等场景,总结“模型参数量-模型能力-应用场景”之间的关系(见下图),作为大模型使用的“说明书”,并集成到元景MaaS平台中,为开发者提供选模型的指南

模型参数量-能力-场景对应关系图

IT之家论文链接:https://arxiv.org/abs/2406.10307h

评估基准链接:https://github.com/UnicomAI/UnicomBenchmark/tree/main/A-Eval

广告声明:文中包含的对外链接(包括但不限于超链接、二维码、口令等形式),旨在传递更多信息,节省挑选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容