OpenAI 发布了一项强大的代理功能,使 ChatGPT 能够在线执行复杂的多步骤研究任务。据报道,这项名为“深度研究”的功能只需数十分钟就能完成人类研究人员需要数小时甚至数天才能完成的任务。
OpenAI 将“深度研究”描述为其迈向通用人工智能(AGI)的重要里程碑。
OpenAI 表示:“综合知识的能力是创造新知识的先决条件。因此,深度研究标志着我们朝着开发 AGI 的更广泛目标迈出了重要一步。”
Agentic AI 助力 ChatGPT 协助复杂研究
深度研究使 ChatGPT 能够自主查找、分析和综合来自数百个在线来源的信息。OpenAI 表示,只需用户提示,该工具就可以提供一份综合报告,可与研究分析师的输出相媲美。
借助 OpenAI 即将推出的“o3”模型变体的功能,该模型旨在让用户从耗时、劳动密集型的信息收集中解放出来。无论是流媒体平台的竞争分析、明智的政策审查,还是新通勤自行车的个性化推荐,深度研究都保证提供精确可靠的结果。
重要的是,每个输出都包含完整的引用和透明的文档——使用户能够轻松验证调查结果。
该工具似乎特别擅长发现小众或非直观的见解,使其成为金融、科学、政策制定和工程等行业的宝贵资产。但 OpenAI 还设想深度研究对普通用户有用,例如寻找超个性化推荐或特定产品的购物者。
这项最新的代理功能通过 ChatGPT 的用户界面运行;用户只需在消息编辑器中选择“深入研究”选项并输入查询即可。还可以上传支持文件或电子表格以获得更多背景信息。
一旦启动,AI 就会开始一个严格的多步骤流程,可能需要 5-30 分钟才能完成。侧边栏提供有关所采取的行动和所咨询来源的更新。用户可以继续执行其他任务,并在最终报告准备就绪时收到通知。
结果以详细、有据可查的报告形式呈现在聊天中。在接下来的几周内,OpenAI 计划通过嵌入图像、数据可视化和图表来进一步增强这些输出,以提供更高的清晰度和背景信息。
与擅长实时多模态对话的 GPT-4o 不同,深度研究优先考虑深度和细节。它能够严格引用来源并提供全面的分析,这使它与众不同——将重点从快速、总结性的答案转移到有据可查的研究级见解。
为应对现实世界的挑战而打造
Deep Rsearch 利用复杂的训练方法,以跨不同领域的实际浏览和推理任务为基础。其模型通过强化学习进行训练,以自主规划和执行多步骤研究流程,包括回溯和随着新信息的出现自适应地改进其方法。
该工具可以浏览用户上传的文件,使用 Python 生成和迭代图表,将生成的图像和网页等媒体嵌入到响应中,并引用其来源中的确切句子或段落。经过这种广泛的训练,可以生成一个能够解决复杂现实问题的高能力代理。
OpenAI 通过一系列专家级考试(被称为“人类的最后考试”)对深度研究进行了评估。这些考试包含 3,000 多个问题,涵盖从火箭科学和语言学到生态学和古典学等主题,测试人工智能解决多方面问题的能力。
结果令人印象深刻,该模型在以下领域实现了创纪录的 26.6% 的准确率:
- GPT-4o:3.3%
- Grok-2:3.8%
- 克劳德 3.5 十四行诗:4.3%
- OpenAI o1:9.1%
- DeepSeek-R1:9.4%
- 深入研究:26.6%(使用浏览+Python工具)
Deep Research 在 GAIA 基准测试中也取得了新的优异成绩,该基准测试评估了人工智能模型在现实世界中需要推理、多模式流畅性和工具使用熟练度的问题。Deep Research以 72.57% 的得分位居榜首。
局限性和挑战
尽管 ChatGPT 中的 Deep Research 代理 AI 功能标志着向前迈出了大胆的一步,但 OpenAI 承认该技术仍处于早期阶段并且存在局限性。
OpenAI 表示,该系统偶尔会“幻听”事实或做出错误推断,尽管与现有 GPT 模型相比,这种情况发生的频率明显降低。该系统还面临着区分权威来源和推测内容的挑战,并且难以校准其置信水平——通常对可能不确定的发现表现出过度的确定性。
报告和引文中的小格式错误以及启动任务的延迟也可能让初始用户感到沮丧。OpenAI 表示,随着使用量的增加和迭代改进,这些问题有望随着时间的推移而得到改善。
OpenAI 正在逐步推出该功能,首先从 Pro 用户开始,他们每月最多可以访问 100 个查询。Plus 和 Team 级别也将效仿,接下来是 Enterprise 访问权限。
英国、瑞士和欧洲经济区的居民目前还无法使用该功能,但 OpenAI 表示正在努力将其推广到这些地区。
未来几周,OpenAI 将把该功能扩展到 ChatGPT 的移动和桌面平台。长期愿景包括实现与基于订阅或专有数据源的连接,进一步增强其输出的稳健性和个性化。
展望未来,OpenAI 计划将 Deep Research 与“Operator”整合在一起,Operator是一种现有的聊天机器人功能,可执行现实世界的操作。这种整合将使 ChatGPT 能够无缝处理需要异步在线研究和现实世界执行的任务。