OpenAI ChatGPT 上新 Deep Research:持续思考 30 分钟输出 1 万字,刷榜“人类最后的考试”
开源项目 DeepSeek-R1 融入AI搜索工具时,OpenAI 举行了一场小规模发布会。4 点 27 分公告,8 点开始直播。ChatGPT 推出新功能“Deep Research”,将推理大型模型的思考能力用于在线搜索。
Deep Research 功能可以在数分钟内完成人类专家需要几小时才能完成的复杂研究任务。
在“人类最后的考试”中,Deep Research 刷新了最高分,比 o3-mini 高推理设置分数高出一倍。
该测试包括 3000 多个多选题和简答题,覆盖了从语言学、火箭科学到生态学等100多个主题。
与 o1 相比,Deep Research 在化学、人文社会科学以及数学领域最突出,显示出类似人类在必要时搜索专业信息的能力。
另一项名为 GAIA 的测试,在现实世界问题上评估AI的公开基准测试,Deep Research 在3个难度级别上均刷新记录。
为了保护基准测试的机密性,OpenAI 仅展示了Deep Research在完成任务时的搜索过程,但隐藏了最终答案。
Deep Research 功能将很快对Pro、Plus和Team用户开放。此外,目前版本建立在o3架构之上,Plus用户(每月20美元)每月可使用约10次,同时也在开发更高效的版本。免费用户也可获得少量的使用额度。
推理Agent的新一步
OpenAI表示,Deep Research专为从事金融、科学、工程等领域高强度知识工作、需要深入、精确和可靠研究的人群设计。
它由OpenAI o3推动,通过基于任务的训练(涉及浏览器和Python工具的使用)采用了与o1相同的强化学习方法。
只需一个提示,Deep Research便会查找、分析并整合数百个在线资源,生成类似研究分析师水平的全面报告。
官方表示,Deep Research对OpenAI的意义是:
Deep Research标志着我们向实现AGI的伟大目标迈出了重要的一步。我们一直设想AGI将能够进行新颖的科学研究,而Deep Research正是这一愿景的重要进展。
使用方法很简单,只需点击输入框下方的Deep Research按钮,支持上传文件以添加额外资料。
例如,给定提示:
撰写一份报告,探讨过去3年零售业的变化。在需要清晰度的地方使用项目符号和表格。
ChatGPT会确认问题的细节,如“您主要关心零售业的哪些方面?”“您需要全球视角还是特定地区的分析?”
然后,系统将开始分析并挖掘信息:
侧边栏将显示所采取的步骤摘要和使用的信息来源。完成任务所需时间约为5-30分钟,最终结果将以报告形式输出。
据OpenAI称,未来几周,这些报告将增加嵌入图片、数据可视化和其他分析输出。
相比GPT-4o等,Deep Research能够广泛探索和引用每个角度,适用于需要深度和细节探索的多方面、特定领域问题。
不过,OpenAI也指出了Deep Research的一些局限:
它偶尔会在回复中出现错误的推断或事实幻觉,尽管根据内部评估,其错误率明显低于现有的ChatGPT模型。
在区分权威信息和谣言方面,它可能会遇到困难,并且在保持自信方面还有待提高,因此常常无法准确传达不确定性。
报告可能会存在轻微的格式错误,启动任务可能需要更长的时间。
接下来,OpenAI计划在本月内将Deep Research推向移动和桌面应用。目前,Deep Research可访问公开网络和上传文件,未来将连接更多专业数据源,使其输出更加稳定和个性化。
我们预计ChatGPT将融合Agent体验,用于异步、现实世界的研发和执行。Deep Research(可进行异步在线调查)和Operator(可进行现实行动)的结合,将使ChatGPT能够执行越来越复杂的任务。
AI深度搜索:互联网的新面貌
OpenAI的研究员Jason Wei分享了他对这一新研究的看法:
Deep Research不仅是出色的Agent,还可视为互联网的新面貌
人类使用互联网时需要花费大量时间进行搜索和点击,受到时间和注意力的限制。AI永不疲倦,可以一次浏览多个网站,并拥有几乎无限的全球知识。
未来,手动浏览互联网将过时,就像手动计算数字而不使用计算器一样。
OpenAI toG的业务负责人Felipe Millon分享了一个个人故事。
去年十月底,Millon的妻子被诊断出双侧乳腺癌,情况严重,12月初接受了双乳房切除手术并开始化疗。
后来他们面临一个新问题,是否应该进行放疗。针对她的具体情况,不同的专家给出了不同的建议。
Millon已获得Deep Research的测试权限,因此他尝试上传手术报告并向ChatGPT寻求建议。
ChatGPT不仅确认了人类专家提出的内容,还搜索到了新的参考研究。Millon认为,这是一个将改变世界的工具。
少数第三方团队也提前获得了Deep Research的测试资格,并在今天分享了测试结果。Every团队介绍说,有些问题需要30分钟才能得到结果,答案可能超过1万个单词。
他们的测试包括:
编写过去几年每一天的历史
分析《战争与和平》的第1章,评述托尔斯泰对人性的看法
查看近期公司的10-K报告,寻找未报告的财务违规行为
测试中发现的一些限制包括:
有时信息缺乏引用来源
没有“停止”按钮,如果搜索出错需要重新开始
直播回放:https://www.youtube.com/watch?v=YkCDVn3_wiw
参考链接:
[1]https://openai.com/index/introducing-deep-research/
[2]https://x.com/_jasonwei/status/1886213911906504950
[3]https://x.com/danshipper/status/1886203397004783996
本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨西风
广告声明:文中包含的外部链接仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。