导读】最近,来自香港大学的3位研究员开源了一款平替版「Deep Research」,只需1美元即可拥有全自动AI研究助理!它能自主搜索、分析互联网信息,还能处理复杂编程任务,甚至能自动解析PDF、生成可视化报告。性能位列全球第三,开源第一。
OpenAI的Deep Research一经发布便引发了全网的热议。
作为新一代通用AI助手,它具备自主搜索和分析互联网海量信息的能力,并能通过编程手段对复杂数据进行深度分析,迅速在全球范围内获得了极大反响。
在即将到来的AGI时代,各行各业都需要这样的智能助手来提升工作效率。
然而,目前Deep Research仅向Pro用户开放,每月200美元的订阅费用让人望而却步。
CEO奥特曼表示,Deep Research已展现出完成具有实际经济价值任务的能力,这标志着AI发展的一个重要里程碑
为推动这项技术的普及,来自香港大学黄超教授实验室的三位研究员开源了创新型Agent框架Auto-Deep-Research,并一举在General AI Assistant benchmark GAIA评测中夺得第三,是开源方案中的最优解。
值得注意的是,Auto-Deep-Research仅基于Claude-3.5-Sonnet构建,在成本效益上具有显著优势。
此外,系统还支持DeepSeek、Hugging Face等主流模型,为用户提供了更多选择。
技术驱动全自动框架AutoAgent:https://github.com/HKUDS/AutoAgent
Auto-Deep-Research:https://github.com/HKUDS/Auto-Deep-Research
论文地址:https://arxiv.org/abs/2502.05957
目前,团队还在开发更多前沿功能,包括Claude的Model Context Protocol(MCP)和GUI Agent等。
实际案例演示
让我们通过一个具体案例,深入了解Auto-Deep-Research的实际应用能力。
以下是AutoAgent团队展示的一个金融分析案例,展现了系统如何处理复杂的多步骤分析任务。
Task:Please analyze the Apple and Microsoft 10-K forms that I uploaded, search online for current news about these two companies, and then help me conduct a quantitative analysis based on the information you find, create visualizations, and generate a detailed report.
这个任务展示了Auto-Deep-Research处理复杂分析场景的强大能力。
系统需要深入解析两份总计超过200页的PDF文档,同时进行网络信息搜索、数据分析与可视化,最终生成全面的分析报告。
演示视频通过三个并行窗口直观展示了整个工作流程:左侧是Auto-Deep-Research的终端交互界面,右上显示Agent 的文件工作目录,右下则是Agent 操控的浏览器窗口。
在用户上传文件并明确需求后,系统便全自动运行,依次完成文件解析、网络搜索、代码编写与调试等任务。
整个过程无需人工干预,仅用约10分钟就生成了一份专业的分析报告和配套的数据可视化成果,充分体现了系统的自动化处理能力。
Agent生成的和图像如下所示:(报告见文末)
最强开源Deep Research
Auto-Deep-Research采用模块化的多Agent架构设计,由三个专业子Agent和一个核心调度器(Orchestrator Agent)组成:
Web Agent专注于互联网信息的无障碍访问和深度搜索
Coding Agent负责编程实现和调试,具备严密的逻辑分析能力
Local File Agent致力于多格式文件的解析和内容理解
网络搜索神器Web Agent
网络搜索组件Web Agent是Auto-Deep-Research的核心模块之一,它整合了一套完整的网络工具集,能够高效执行从基础搜索到文件下载的各类网络任务。
Web Agent将日常网页浏览行为抽象为10个高级工具,包括点击(click)、网页搜索(web_search)、访问网址(visit_url)等核心功能。这些工具覆盖了网页搜索、页面导航、内容浏览和文件下载等常见操作场景。
在技术架构上,Web Agent基于BrowserGym框架开发,通过将底层浏览器操作封装为高级工具集,不仅提升了操作灵活性,也为功能扩展提供了良好基础。这种模块化设计确保了Web Agent能够从容应对各类网络任务需求。
编程专家助手Coding Agent
编程专家组件Coding Agent是一个全能型编程助手,它能够熟练处理数据分析、机器学习到系统管理等各类编程任务,无论是复杂计算还是自动化操作,都能高效完成。
为实现智能编程,Coding Agent配备了11个专业工具,涵盖代码脚本创建、Python代码执行、特定命令实现以及目录管理等核心功能。这套完整的工具体系使其能够从容应对各类编程需求。
在系统架构上,Coding Agent采用Docker沙箱环境确保代码执行安全,并支持与E2B等第三方沙箱系统无缝集成。同时,其交互式终端环境设计让代码执行过程和结果一目了然,大大提升了操作体验。
文件分析大师Local File Agent
文件处理专家Local File Agent是一个全能型文件管理专家,它能够统一处理和分析各类本地文件,让复杂的文件处理工作变得简单高效。
Local File Agent最突出的优势在于其强大的文件兼容性。它可以处理几乎所有常见格式,包括文档类(doc、pdf、txt、ppt)、多媒体类(mp4、mov、wav、mp3)以及数据类(csv、xlsx)等多模态文件。通过将不同格式统一转换为Markdown,实现了高效的文件分析和处理。
在用户体验方面,Local File Agent采用交互式Markdown浏览器环境,即使面对超长文本或复杂文件,也能通过分页显示实现清晰呈现,使文件处理过程更加流畅直观。
高效调配,性能领先
Auto-Deep-Research采用精简而高效的架构设计,仅需一个核心调度器——Orchestrator Agent便可驱动整个系统高效运转。
其工作流程清晰明确:Orchestrator Agent接收任务后,将其分解为多个子任务并分派给专业Agent。各Agent完成子任务后,结果返回给调度器进行评估,随后动态调整并分配新的子任务,循环往复直至完成整体目标。
这种优雅而强大的设计在GAIA benchmark评测中取得了骄人成绩:总排名第三,开源方案中位列第一,仅次于OpenAI等闭源系统。
值得一提的是,这是前三名中唯一采用Claude-3.5-Donnet的方案,无需依赖更昂贵的o1系列深度思考模型,从而也使其成为了前三方案中最具性价比的选择。
更令人欣喜的是,这个框架具备强大的扩展性,不仅支持接入Deepseek-R1模型,还可部署本地开源模型。
这意味着,人人都可以搭建属于自己的Deep Research系统,让智能研究助手不再是可望而不可即的梦想。
AutoAgent框架
值得一提的是,团队还发布了一个的不需要coding的智能体开发框架——AutoAgent。
下图展示了AutoAgent的全自动、语言驱动的通用智能体系统。其核心组件包括智能体系统实用程序、由LLM驱动的可操作引擎、自管理文件系统和自博弈智能体定制模块。
这是一个轻量级存靠语言驱动的Agent构建平台,让用户只需通过自然语言描述就能轻松创建专属AI助手,完全无需编程基础。
前文介绍的Auto-Deep-Research正是基于AutoAgent开发的一个典型应用。
作为一个全方位的Agent开发生态系统,AutoAgent不仅提供了Auto-Deep-Research这样的即用解决方案,还包含更多强大组件:
系统的智慧核心:智能决策引擎LLM Engine
LLM Engine作为系统的中枢大脑,承担着理解用户需求、制定执行策略和协调多Agent协作的重要职责。这个强大的决策引擎让人类用户与AI助手之间的互动达到前所未有的流畅度。
在架构设计上,团队选用LiteLLM作为标准化接口,实现了与超过100种主流语言模型的无缝对接。这种设计就像一个通用翻译器,确保系统能够与各类AI模型顺畅交互。同时,LLM Engine采用连续记忆机制,将历史行动和观察结果作为决策依据,不断优化判断能力。
在技术实现层面,团队创新性地设计了双模式工具调用机制:
This analysis compares the financial performance of Apple and Microsoft for Q4 FY2024. Both companies showed strong revenue growth, with Microsoft leading in terms of YoY growth rate but Apple maintaining higher absolute revenue.
Growth Rates
Segment Performance
Profitability
Apple:
Microsoft:
Apple:
Microsoft:
Both companies demonstrate strong financial health and market leadership, with different growth drivers. Microsoft shows higher growth rates while Apple maintains larger absolute revenue. Cloud services and AI integration are key future growth areas for both companies.
参考资料:
https://arxiv.org/abs/2502.05957