沃顿商学院教授发文解析 o1:能力仍有短板,「人机协同智能」或成 AGI 最重要难题

xxn 阅读:40733 2024-12-18 16:05:51 评论:0

OpenAI 推出了全新版本的o1 Pro,该系列模型强大到何种程度?对AI的未来发展方向是否有指导意义?沃顿商学院教授在博客中给出了令人瞩目的答案。

o1 Pro正式发布,200美元/月的定价引发关注,阿尔特曼称其为“全球最智能模型”。

o1 Pro究竟有多强大?

它虽非通往AGI终点的终极利器,但它代表着扩展定律之后的又一里程碑吗?是否标志着未来LLM的发展方向?它是否真的能像OpenAI研究院的Jason Wei所说的那样成为“传奇”?

o1 Pro发布之际,沃顿商学院副教授、GenAI实验室联合主任Ethan Mollick提及了他三个月前写下的博客,该博客既是模型发布前的“预言”,也是一份具备论据并适时泼冷水的观点。

Ethan Mollick表示,我们在9月首次见到o1 preview时,他便撰写了一篇博客,详细阐述了该模型对现在和未来的重要性。模型质量固然重要,但更关键的是了解模型对人工智能未来的潜在影响。

以下是将o1 preview(横空出世三个月前)和处于性价比漩涡中的o1 Pro放在一起比较的文章,或许能为当下提供更多的启发。

“草莓”展示实力

不久之前,我已经接触到了备受瞩目的名为“草莓”的增强版推理系统,现在OpenAI正式发布,我也可以分享一些想法。

这一模型确实令人惊叹,但其能力仍有限,然而,其出现指明了人工智能的发展方向。

该新模型被称为o1-preview,该模型能够在解决问题之前“思考”问题,因此能够处理需要规划和迭代的复杂问题。

根据我们所熟知的基准结果图,o1-preview在数学和科学领域表现尤为强劲,甚至可以击败博士级别的人类专家来解决极其困难的物理问题。

然而,o1-preview并非在所有方面都有所提升,例如在书写方面并不比GPT-4o更强;但对于需要规划的任务,其变化是相当显著的。

由于很难对所有这些复杂任务的输出进行评估,展示“草莓”模型的提升(以及一些限制)最直接、直观的方式也许就是通过游戏,比如填字游戏。

填字游戏虽然下限很低,但上限很高,其中最难的填字游戏可以达到地狱模式,并且对逻辑推理能力提出了很高的要求。

电影《模仿游戏》中有这样一个情节:AI之父Alan Turing在二战期间负责英国密码破译项目Enigma,为了吸引全国的数学和密码学天才,他在报纸上发布了一个填字游戏作为报名测试,甚至最终的现场考核也是要求在规定时间内完成填词游戏题目。

电影《模仿游戏》剧照

由于o1 preview尚无法从图像中读取文字,因此Mollick只能手动输入供模型分析。如下图所示,这是一个相当具有挑战性的谜题,Mollick只选了18条提示中的8条输入到o1中。

填字游戏对LLM而言尤为困难,因为它需要迭代解决:尝试并排除许多相关答案 - 这是以前的大型模型无法做到的,因为它们一次只能添加一个token/单词到答案中。

如下图所示,如果给予Claude适当线索,它首先给出了编号为1的答案(猜测为“STAR”,但这是错误的),然后尝试解决其余的部分。

然而,由于第一个错误答案,Claude永远无法接近正确答案。如果没有计划流程,它只能盲目尝试,不知道自己前进的方向是否正确。

Claude的尝试

当面临同样问题时,“草莓”将会如何处理?

它将先开始“思考”,这个过程持续了108秒(大多数问题可以在更短时间内解决)。

此外,o1在“思考”时不再缄默,而是会“自言自语”,展示出自己的“思维链”让您了解其思路。以下是一个示例(还有更多内容未显示),这些思路非常富有启发性,值得您花些时间阅读。

在这个过程中,“草莓”不断迭代,创造出想法并排除不切实际的部分,结果令人印象深刻。

然而,o1-preview似乎仍基于GPT-4o,并且有时对语言的理解过于字面。

例如,1 Down的答案是“Galaxy cluster”,显然并非指实际的星系,而是三星手机Galaxy - “APPS”。

AI没有理解到这一含义,始终在尝试各种星系团的名称,然而通过确定Down 1是COMA(实际的星系团)可知,其余结果也是不正确的。虽然不符合规则,但相当富有创意。

公平地说,Mollick本人也未能察觉这一含义。如果将“Down 1是APPS”这一线索输入给o1,可以看到模型在接下来的一分钟内快速迭代想法(左侧图),并正确推理出Across 1的答案为“ACTS”。

这便是基于一条线索的o1给出的最终答案,完全正确,并解决了错误引用,尽管它提出了一个虚构的线索。相比之下,身为知名大学副教授的Ethan Mollick甚至未能接近这个正确答案。

综上所述,o1-preview完成了一些“草莓”无法做到的事情,但它仍有瑕疵:错误和幻觉时有发生,并且仍受到基础模型GPT-4o“智能”方面的限制。

尽管Claude有很多优点,但o1在复杂规划或解题方面明显更胜一筹,代表着这些领域的重大进步。

从协同智能到...

o1-preview意味着我们正在迎来人工智能范式的转变。“规划”是智能体的一个表现形式,人工智能可以自行得出结论并解决问题,无需人类干预。

通过上述例子可见,人工智能完成了大量的思考工作,并得出完整的结果,人类作为合作伙伴的作用被削弱,整个过程的主体是AI独立完成工作并给出答案。

可以筛选思维链的输出以检测AI的错误,但Mollick认为,作为任务的布置者,他与AI输出内容之间没有直接联系,也没有在解决方案方面发挥重要作用。这未必是坏事,但与以往不同。

随着这些系统的升级并逐渐接近真正意义上的自主智能体,我们需要解决如何与其保持同步:既能捕捉错误,又要及时察觉我们试图解决的问题。

o1-preview逐渐揭开神秘面纱,展示未曾见到的AI能力,尽管目前仍有限制。这给我们留下一个关键问题:随着AI的发展,我们将如何塑造人类与人工智能的合作?这是o1-preview目前尚无法解决的挑战。

参考资料:

  • https://x.com/emollick/status/1864857524840616345

本文来源:新智元(ID:AI_era)

广告声明:文中包含的引用链接旨在传达更多信息,节省查找时间,仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容