Nature:「人类亲吻难题」难倒 LLM,所有大模型全部失败
近期,一项研究发表在Nature上,针对LLM(大语言模型)是否具有类人推理能力进行全面驳斥。研究者以“人类亲吻难题”为例,对7个大模型展开了综合评估,最终得出LLM更接近于工具而非科学理论的结论。
LLM拥有类似人类符合理解和推理能力吗?
许多认知科学家和机器学习研究人员认为,LLM展现出类似人类(或“接近类人”)的语言能力。
然而,来自不同机构的研究者提供了最全面的证据,指出目前这些模型基本上缺乏这方面的能力!
论文地址:https://www.nature.com/articles/s41598-024-79531-8
研究者使用全新的基准数据集,对包括GPT-4、Llama2、Gemini和Bard在内的7个最先进模型进行了评估。
他们让模型回答了理解性问题,在两种设置下多次被提示,允许模型只回答一个单词,或给出开放长度的回复。
约翰欺骗了玛丽,露西也被玛丽欺骗了。在这种情况下,玛丽是否欺骗了露西?
史蒂夫拥抱了莫莉,莫莉亲吻了唐娜。在这种情况下,莫莉被吻了吗?
杰西卡和玛丽被爱丽丝亲吻了。杰西卡被塞缪尔亲吻,安德鲁被玛丽亲吻。在这种情况下,玛丽被吻了吗?
鲍勃亲吻了唐娜,芭芭拉亲吻了彼得。唐娜被爱丽丝拥抱。在这种情况下,爱丽丝被拥抱了吗?
为了建立实现类人表现的基准,他们在相同的提示下,对400名人类进行了测试。
基于n=26,680个数据点的数据集,他们发现,LLM准确性有所差异,但答案波动较大。
他们还调查了理解性问题答案的“稳定性”。结果显示,LLM缺乏强而一致的回应。
随后,他们对ChatGPT-3.5进行了一系列低频结构的测试,探索语法,包括身份回避和比较结构等。
ChatGPT的表现较差。
研究者认为这一证据表明,尽管当前的AI模型在实际中具有一定用处,但在类人语言水平方面仍有待提高。
原因可能在于,它们缺乏有效调控语法和语义的组合运算符信息。
最后,研究者强调说:在语言相关任务和基准测试中的出色表现,不应被视为证明LLM不仅能成功完成特定任务,还能掌握执行该任务所需一般知识。
这项研究显示,虽然测试模型在数量上优于人类,但在质量上,它们在语言理解方面显示出非人类错误。
因此,尽管LLM在许多任务中有帮助,但它们并不能以与人类匹配的方式理解语言。
人类利用类似MERGE的组合运算符来调节语法和语义信息
AI对语言的深层含义不敏感
LLM为何在简单任务上会失败?
因为在对需要记忆专业知识的任务表现优秀的同时,并不亚于对语言的扎实理解。
对人类最擅长的简单任务来说,逆向工程却更加困难。而人类理解语言却轻而易举,甚至幼儿也能理解复杂语法关系。
人类与生俱来的语言习得倾向使其总能在文字表面之下寻找意义,并构建出复杂的语法关系。
LLM是否具备类似能力?
对LLM在任务和测试中的成功,有人将其归结为已具备类人能力,如高级推理、跨模态理解和常识能力。
一些学者甚至声称,LLM在一定程度上接近人类认知,能够理解语言,性能超越人类。
然而,大量证据表明这些模型的表现可能存在不一致性!
尽管模型能够生成流畅、语义连贯的输出,但在自然语言的一些基本句法或语义属性方面仍存在困难。
那么,为何LLM在回答医疗或法律问题时表现良好?
实际上,这些任务的完成可能依赖于一系列完全不同于人类语言认知架构的计算步骤。
LLM在性能上的缺陷引发了我们对其输出生成机制的质疑 ——
是基于上下文文本解析,还是机械化利用训练数据中的特定特征,制造一种能力的假象?
目前,通过结构良好的输出评估LLM的主流方法,并推断它们具备类似人类的语言能力,如演绎推理。
例如,通过在语言相关的任务和基准测试中获得准确表现,通常得出这样的结论:LLM不仅能成功执行特定任务,还掌握了完成该任务所需的一般性知识。
这种推理方式的核心逻辑是将LLM视为认知理论基础。
但相比之下,LLM是否完全掌握了语言理解中涉及的所有形态句法、语义和语用过程,却未能稳定运用这些知识?
诡异考题,给LLM上难度
为此,研究者特意设计了别致的考题,测试LLM对语言的真正掌握程度!
他们考验了GPT-3和ChatGPT-3.5在一些语法性判断上的表现,即判断一个提示是否符合或偏离模型所内化的语言模式。
这些提示较为低频,在日常语言中并不常见,因此是一项考验。
这个考验的巧妙之处在于何处?
人类在处理这些问题时,会根据句法推理路径决定计算效率和相关性原则,因此在多次提问或使用不同指令情况下能够给出准确答案并保持一致。
然而,对于LLM来说,其系统性语言错误未有类似直接解释。
可见,这些句子十分诡异。
比如“狗狗狗狗狗”,“诊所雇佣的护士的医生见到了杰克”,“根本存在缺陷的理念之村未能达到标准”,“当一架飞机在两国边界坠毁,残骸散落在两国境内时,我们应该在哪里埋葬幸存者?”等等。
GPT-3(text-davinci-002)和ChatGPT-3.5在涉及低频结构的语法判断任务上的表现,不准确的回复被标记为红色,准确的被标记为绿色。
接下来,研究者着重调查了LLM理解语言的能力是否与人类相当。
他们测试了7个最先进的LLM在理解任务中的能力,任务旨在推保语言复杂性保持在最低限度。
约翰欺骗了玛丽,露西也被玛利欺骗了。在这种情况下,玛丽是否欺骗了露西?
这一研究也涵盖现实意义。
虽然LLM被训练来预测token,但结合界面设置后,它们的能力却被宣传为远超下一个token的预测:商家会强调说,它们是能流利对话的Agent,并表现出了跨模态的长上下文理解。
最近有一家航空公司因乘客认为其聊天机器人提供了不准确信息而被告。
公司承认,在回复中包含误导性词汇,但聊天机器人为一个独立法律实体,具有合理的语言能力,因此对言论负责。
因此,研究人员想要了解,LLM在语言理解任务中表现是否与人类相匹配。
具体有两个研究问题 ——
RQ1:LLM能否准确回答理解问题?
RQ2:当同一问题被问多次时,LLM的回答是否一致?
对照模型和设置(开放长度与单字)的准确率如图A所示。
结果显示,大多数LLM在开放长度设置下表现较差。
对照模型和设置的稳定性率如图B所示。
综合准确性结果看,Falcon和Gemini的稳定性显著提高,Falcon在准确答复方面部分一致,而Gemini在不准确答复方面部分一致。
(A)按模型和设置的平均准确度。(B)模型和设置的平均稳定性
那么,LLM和人类的区别在何处?
对比分析显示,人类与LLM的准确性和稳定性表现存在重大差异。
(A)各响应代理和场景的平均准确率。(B)各响应代理和场景的平均稳定性
准确性
1.在开放长度设定中,LLM的表现明显差于人类。
2.在单词长度设定中,人类并未优于开放长度设定。
3.在单词长度设定中,人类与LLM的表现差距缩小,表明LLM在不同设定间存在差异,而人类在不同设定下表现一致。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。