OpenAI 最新研究:当前 AI 模型仍无法媲美人类程序员

xxn 阅读:81610 2025-02-24 10:00:56 评论:0

根据 IT之家于 2 月 24 日的报道,OpenAI 的首席执行官萨姆·奥尔特曼(Sam Altman)声称,人工智能模型预计将在今年年底之前超越“初级”软件工程师。然而,OpenAI 的研究团队最新发布的研究指出,当前最先进的 AI 模型仍无法与专业程序员相比较。

在一篇新的研究论文中,研究人员强调,即使是顶尖的人工智能模型——那些最为创新且具开创性的系统——依旧无法处理大多数编程任务。为此,他们推出了一个名为 SWE-Lancer 的新基准测试工具,基于 Upwork 平台上 1400 多个软件工程任务而设计。通过这一基准测试,OpenAI 对三款大型语言模型(LLMs)进行了评估,包括公司自有的 o1 推理模型、旗舰产品 GPT-4o 和 Anthropic 公司的 Claude 3.5 Sonnet。

具体而言,新基准测试主要评估了这些 LLMs 处理 Upwork 平台上两类任务的能力:个体任务,涉及漏洞修复和补救措施;和管理任务,要求模型从整体上进行高层决策。值得一提的是,这些模型在测试期间未被允许访问互联网,因此它们不能直接复制网络上已有的类似答案。

在 Upwork 平台上,这些模型处理的任务总价值可达数十万美元,但它们只能解决一些表面的问题,而无法真正深入查找大型项目中的漏洞及其根本原因。这样“半成品”的解决方案对曾与 AI 合作的人士并不陌生——AI 虽然能够生成听起来自信的信息,但经常在深入审核时存在明显缺陷。

尽管论文中提到,这三款 LLMs 通常能够“比人类快得多”地完成任务,但它们未能充分理解漏洞的普遍性及其背景,从而导致所提出的解决方案“错误或不够全面”。

研究人员指出,Claude 3.5 Sonnet 的表现超越了 OpenAI 的另外两款模型,并在测试过程中“获得”的金额也高于 o1 和 GPT-4o。然而,大多数答案仍有错误。因此,研究人员表示,若想将任何模型真正应用于实际编程任务,应具备“更高的可靠性”。

总的来说,该论文似乎证实,尽管这些先进的模型可以迅速处理某些任务,但它们在技能水平上仍远远不及人类工程师。

尽管近年来大型语言模型迅速发展,并且未来可能继续改进,但在软件工程领域,目前它们的能力仍无法取代人类程序员。然而,IT之家注意到,这并未阻止某些首席执行官解除人类程序员的职务,选择使用尚未成熟的 AI 模型。

广告声明:文中提及的外部链接(包括超链接、二维码、口令等形式)旨在传递更多信息,帮助节省信息查询时间,具体结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容