沃顿商学院教授发文解析 o1：能力仍有短板，「人机协同智能」或成 AGI 最重要难题

xxn 阅读：40857 2024-12-18 16:05:51 评论：0

OpenAI 推出了全新版本的o1 Pro，该系列模型强大到何种程度？对AI的未来发展方向是否有指导意义？沃顿商学院教授在博客中给出了令人瞩目的答案。

o1 Pro正式发布，200美元/月的定价引发关注，阿尔特曼称其为“全球最智能模型”。

o1 Pro究竟有多强大？

它虽非通往AGI终点的终极利器，但它代表着扩展定律之后的又一里程碑吗？是否标志着未来LLM的发展方向？它是否真的能像OpenAI研究院的Jason Wei所说的那样成为“传奇”？

o1 Pro发布之际，沃顿商学院副教授、GenAI实验室联合主任Ethan Mollick提及了他三个月前写下的博客，该博客既是模型发布前的“预言”，也是一份具备论据并适时泼冷水的观点。

Ethan Mollick表示，我们在9月首次见到o1 preview时，他便撰写了一篇博客，详细阐述了该模型对现在和未来的重要性。模型质量固然重要，但更关键的是了解模型对人工智能未来的潜在影响。

以下是将o1 preview（横空出世三个月前）和处于性价比漩涡中的o1 Pro放在一起比较的文章，或许能为当下提供更多的启发。

“草莓”展示实力

不久之前，我已经接触到了备受瞩目的名为“草莓”的增强版推理系统，现在OpenAI正式发布，我也可以分享一些想法。

这一模型确实令人惊叹，但其能力仍有限，然而，其出现指明了人工智能的发展方向。

该新模型被称为o1-preview，该模型能够在解决问题之前“思考”问题，因此能够处理需要规划和迭代的复杂问题。

根据我们所熟知的基准结果图，o1-preview在数学和科学领域表现尤为强劲，甚至可以击败博士级别的人类专家来解决极其困难的物理问题。

然而，o1-preview并非在所有方面都有所提升，例如在书写方面并不比GPT-4o更强；但对于需要规划的任务，其变化是相当显著的。

由于很难对所有这些复杂任务的输出进行评估，展示“草莓”模型的提升（以及一些限制）最直接、直观的方式也许就是通过游戏，比如填字游戏。

填字游戏虽然下限很低，但上限很高，其中最难的填字游戏可以达到地狱模式，并且对逻辑推理能力提出了很高的要求。

电影《模仿游戏》中有这样一个情节：AI之父Alan Turing在二战期间负责英国密码破译项目Enigma，为了吸引全国的数学和密码学天才，他在报纸上发布了一个填字游戏作为报名测试，甚至最终的现场考核也是要求在规定时间内完成填词游戏题目。

电影《模仿游戏》剧照

由于o1 preview尚无法从图像中读取文字，因此Mollick只能手动输入供模型分析。如下图所示，这是一个相当具有挑战性的谜题，Mollick只选了18条提示中的8条输入到o1中。

填字游戏对LLM而言尤为困难，因为它需要迭代解决：尝试并排除许多相关答案 - 这是以前的大型模型无法做到的，因为它们一次只能添加一个token/单词到答案中。

如下图所示，如果给予Claude适当线索，它首先给出了编号为1的答案（猜测为“STAR”，但这是错误的），然后尝试解决其余的部分。

然而，由于第一个错误答案，Claude永远无法接近正确答案。如果没有计划流程，它只能盲目尝试，不知道自己前进的方向是否正确。

Claude的尝试

当面临同样问题时，“草莓”将会如何处理？

它将先开始“思考”，这个过程持续了108秒（大多数问题可以在更短时间内解决）。

此外，o1在“思考”时不再缄默，而是会“自言自语”，展示出自己的“思维链”让您了解其思路。以下是一个示例（还有更多内容未显示），这些思路非常富有启发性，值得您花些时间阅读。

在这个过程中，“草莓”不断迭代，创造出想法并排除不切实际的部分，结果令人印象深刻。

然而，o1-preview似乎仍基于GPT-4o，并且有时对语言的理解过于字面。

例如，1 Down的答案是“Galaxy cluster”，显然并非指实际的星系，而是三星手机Galaxy - “APPS”。

AI没有理解到这一含义，始终在尝试各种星系团的名称，然而通过确定Down 1是COMA（实际的星系团）可知，其余结果也是不正确的。虽然不符合规则，但相当富有创意。

公平地说，Mollick本人也未能察觉这一含义。如果将“Down 1是APPS”这一线索输入给o1，可以看到模型在接下来的一分钟内快速迭代想法（左侧图），并正确推理出Across 1的答案为“ACTS”。

这便是基于一条线索的o1给出的最终答案，完全正确，并解决了错误引用，尽管它提出了一个虚构的线索。相比之下，身为知名大学副教授的Ethan Mollick甚至未能接近这个正确答案。

综上所述，o1-preview完成了一些“草莓”无法做到的事情，但它仍有瑕疵：错误和幻觉时有发生，并且仍受到基础模型GPT-4o“智能”方面的限制。

尽管Claude有很多优点，但o1在复杂规划或解题方面明显更胜一筹，代表着这些领域的重大进步。

o1-preview意味着我们正在迎来人工智能范式的转变。“规划”是智能体的一个表现形式，人工智能可以自行得出结论并解决问题，无需人类干预。

通过上述例子可见，人工智能完成了大量的思考工作，并得出完整的结果，人类作为合作伙伴的作用被削弱，整个过程的主体是AI独立完成工作并给出答案。

可以筛选思维链的输出以检测AI的错误，但Mollick认为，作为任务的布置者，他与AI输出内容之间没有直接联系，也没有在解决方案方面发挥重要作用。这未必是坏事，但与以往不同。

随着这些系统的升级并逐渐接近真正意义上的自主智能体，我们需要解决如何与其保持同步：既能捕捉错误，又要及时察觉我们试图解决的问题。

o1-preview逐渐揭开神秘面纱，展示未曾见到的AI能力，尽管目前仍有限制。这给我们留下一个关键问题：随着AI的发展，我们将如何塑造人类与人工智能的合作？这是o1-preview目前尚无法解决的挑战。

参考资料：

广告声明：文中包含的引用链接旨在传达更多信息，节省查找时间，仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。