OpenAI 最新研究：当前 AI 模型仍无法媲美人类程序员

xxn 阅读：81694 2025-02-24 10:00:56 评论：0

根据 IT之家于 2 月 24 日的报道，OpenAI 的首席执行官萨姆·奥尔特曼（Sam Altman）声称，人工智能模型预计将在今年年底之前超越“初级”软件工程师。然而，OpenAI 的研究团队最新发布的研究指出，当前最先进的 AI 模型仍无法与专业程序员相比较。

在一篇新的研究论文中，研究人员强调，即使是顶尖的人工智能模型——那些最为创新且具开创性的系统——依旧无法处理大多数编程任务。为此，他们推出了一个名为 SWE-Lancer 的新基准测试工具，基于 Upwork 平台上 1400 多个软件工程任务而设计。通过这一基准测试，OpenAI 对三款大型语言模型（LLMs）进行了评估，包括公司自有的 o1 推理模型、旗舰产品 GPT-4o 和 Anthropic 公司的 Claude 3.5 Sonnet。

具体而言，新基准测试主要评估了这些 LLMs 处理 Upwork 平台上两类任务的能力：个体任务，涉及漏洞修复和补救措施；和管理任务，要求模型从整体上进行高层决策。值得一提的是，这些模型在测试期间未被允许访问互联网，因此它们不能直接复制网络上已有的类似答案。

在 Upwork 平台上，这些模型处理的任务总价值可达数十万美元，但它们只能解决一些表面的问题，而无法真正深入查找大型项目中的漏洞及其根本原因。这样“半成品”的解决方案对曾与 AI 合作的人士并不陌生——AI 虽然能够生成听起来自信的信息，但经常在深入审核时存在明显缺陷。

尽管论文中提到，这三款 LLMs 通常能够“比人类快得多”地完成任务，但它们未能充分理解漏洞的普遍性及其背景，从而导致所提出的解决方案“错误或不够全面”。

研究人员指出，Claude 3.5 Sonnet 的表现超越了 OpenAI 的另外两款模型，并在测试过程中“获得”的金额也高于 o1 和 GPT-4o。然而，大多数答案仍有错误。因此，研究人员表示，若想将任何模型真正应用于实际编程任务，应具备“更高的可靠性”。

总的来说，该论文似乎证实，尽管这些先进的模型可以迅速处理某些任务，但它们在技能水平上仍远远不及人类工程师。

尽管近年来大型语言模型迅速发展，并且未来可能继续改进，但在软件工程领域，目前它们的能力仍无法取代人类程序员。然而，IT之家注意到，这并未阻止某些首席执行官解除人类程序员的职务，选择使用尚未成熟的 AI 模型。

广告声明：文中提及的外部链接（包括超链接、二维码、口令等形式）旨在传递更多信息，帮助节省信息查询时间，具体结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。