
上海jiotong大学和SII共同发布了Deepresearcher,代码培训框架是完全开放的资源。这是第一个通过在实际网络环境中研究加强培训的AI研究模型。随着大语言模型(LLM)推理能力的快速发展,OpenAI,Google和XAI等巨型技术已经推出了流行的深入研究产品。这些工具将帮助用户包括大量的网络信息,解决复杂的问题并大大提高研究效率。但是,现有系统中有两个主要的疾病点:一方面,诸如Deep Openai研究之类的商业产品是完全黑匣子,而且它们的技术细节并未公开披露;另一方面,开放的项目资源通常依赖于Manu -Design Flow Design流动,从而导致严格的行为和缺点,并且在复杂的研究情况下脆弱。自愿生成的深研究员通过缩放RL缩放的研究,S惊人的研究能力令人惊叹。以图中所示的示例作为证据:回答问题时,深入研究者不仅要寻求信息,而且还显示了一种复杂的行为模式,只有人们只有独立的计划研究步骤,动态调整搜索技术以及从不同资源的信息进行交叉信息。尤其值得注意的是,当面对电影的先驱等开放问题时,DeepRearcher不会盲目接受第一个搜索结果,而是积极进行第二轮更准确的搜索以验证信息的准确性并确保最终答案的可靠性。自愿发展的交叉验证行为反映了对AI研究本质的真实理解!尽管最近的研究试图将加强研究与信息获取相结合,但大多数基于本地发现Of知识模拟而不是在实际网络环境中培训。这就像研究在模拟游泳池中游泳,而不是在真正的海洋中锻炼。 DeepRearcher试图解决此问题,直接与实时搜索引擎联系,以在Totoong Internet的综合体中找到研究技能。像人类研究人员一样,它可以独立计划研究路径,交叉验证信息,动态调整技术,甚至在信息不足时诚实地确定限制。这种领导不仅填补了深入研究领域开源的主要空白,而且还提供了有关如何培养AI现实生活研究能力的新观点。纸张标题:Deepresearcher:通过在现实世界环境中研究强化来扩展深入研究纸张地址:https://github.com/gair-nlp/deepresearcher/blob/blob/main/main/resources/deepresearcher.pdf代码地址:MMARY结果DeepRearcher超过了TWHAT和答案的许多T T数据集上的所有基础。与基于立即工程的代理人相比,DeepReyarcher可以改善最高28.9分的研究任务的完成。与基于抹布的抹布研究剂(RL)相比,Deepresearcher的改进范围可达到7.2分。这在Wikipedia竹子测试套件以外的竹子测试中尤其明显。真正的搜索环境的直接联系不仅是实施的细节,而且是开发可以在现实世界应用中很好地执行研究活动的自主系统的关键要素。在使用了真正的增强研究培训环境之后,该模型显示了诸如计划,反思,交叉验证等行为,并可以保持诚实的答案。 1。为什么您必须在真实环境中进行端到端?在开发真正有效的深入研究代理时,RL缩放很重要。与传统的基于RL的Traditi相比在真实网络环境中进行的强化研究的训练具有基本的好处,这些好处将不会被任何模拟环境所取代。真正的网络环境具有高度的不确定性和复杂性。网络信息不是知识的静态固定基础,而是动态的变化,有时甚至是矛盾的内容收集。在这种环境中的培训,模型必须学会应对世界挑战:信息可靠性评估,不完整或过时的数据,从噪声中获得重要信号,以及来自不同larangan的知识的整合。相比之下,当地的抹布环境非常干净和控制,认为所有必要的信息已经在固定的知识库上,这对于真正的深入研究场景几乎是错误的。真实的环境还需要模型来产生复杂的信息集成功能。模型需要知道从许多资源和公司中收集信息通过批判性思维通过相互关联的答案mbine。它应该权衡各种信息来源的可靠性,识别和解决矛盾的观点,并以人们理解的方式显示结果。处理此信息的复杂能力只有在面对实际信息示意大学的差异和实现时才能真正发展。 RL缩放是一般能力的保证。 RL -scale培训是确保整体 - 模型技能的基本机制。通过不断测试和错误并优化大量的真实网络查询,该模型可以逐渐建立对搜索技术的深度理解,而不仅仅是记住特定的查询对响应对。可以在许多层面上看到这种理解:该模型学习如何根据问题的性质开发有效的搜索查询。它可以确定哪些搜索结果值得更深。在探索中,可以忽略的近乎搜索的搜索失败,它可以调整方法,尝试不同的关键字或搜索角度来处理复杂的概率,它可以闯入许多子问题并单独解决这些功能 - 一个 - 允许DeepRearcher可以处理在实践中没有看到的问题的类型,从而显示出真正的一般能力,而不是收获记忆中的问题。端到端的培训使模型可以摆脱工作流链。传统的小费工程技术通常会预设固定的工作流程:先制作,然后是B,最后C。在处理常见问题时,这种方法可能是有效的,但是在面对复杂而修改的研究活动时通常看起来很严格。通过RL的端到端培训,DeepRearcher可以:自主发现最佳的研究路径,而不是遵循最初的Natemptaints作品。根据问题的实际需求,灵活地调整搜索和宽度深度。在搜索过程中,动态基于新发现的信息来解决研究方向。开发人类设计师可能不会期望的创新问题解决技术。这种自治使深研究者能够处理各种研究方案,包括需要高创造力和灵活性的复杂问题。该模型不再限于设计师的框架,而是能够探索更广泛的解决方案空间。通过在真实网络环境中进行RL缩放和端到端培训,DeepReyarcher破坏了传统研究人员的局限性,并将为AI协助的Paresearch开辟新的可能性。 2。如何解决真实环境RL扩展的工程挑战。研究真实网络环境的采用面临许多不在当地抹布环境中的技术挑战。研究团队通过创新方法解决了这些问题,以确保系统可以在开放的网络环境中牢固有效地工作。在培训对处理大量同步请求的加强的教育过程,尤其是在使用GRPO算法时,该系统需要并行生成许多独立的轨迹(实施中的16个),形成大量的结论性请求。网站反爬行措施将阻止单个服务器,并且需要实时处理这些要求。因此,研究团队设计了一个共享的CPU服务器共享集群体系结构,实现了良好的任务分配机制,并建立了队列请求并加载平衡系统,以确保处理每个服务器所需的任务量彼此接近。在处理网络爬网限制和API限制时,反爬行步骤,API限制和网络延迟是对实际网络环境的必然挑战。当大量时,网站可以恢复无关的内容或拒绝响应检测到请求的内容,并且搜索引擎API通常具有严格的频率限制和使用成本。为了解决这些问题,研究团队通过智能重试机制提高了顶点,当遇到临时失败时,该机制可以自动调整该方法;构建了一个良好的缓存HIT系统,并在一定时间内(例如7天)直接从缓存获得结果的相同查询。同时,它为请求开发了一种权力下放化方法,以动态 - 不是监视API的使用来调节请求的节奏,以防止在控制成本时限制限制。优化网页优化信息的多机构概述通常很复杂且较长,与查询相关的信息可以占一小部分。为了有效提取重要信息,研究团队设计了一个多机构合作框架,以允许专业的代理商阅读负责获得孔戴nt。该系统将长网页划分为可管理的小段,并且从页面的开头,阅读代理会连续处理它,并决定根据当前查询和收集的信息继续阅读。如果前几个部分主要包含不相关的内容,则系统将判断整个网页可能不值得,从而跳过后续内容。这种处理的渐进过程不仅提高了计算效率,而且还可以更准确地身份并获得信息。 3。深研究员练习架构中的练习架构戳戳和观察结果,并通过在动态现实世界中搜索网络来解决问题。推理:Deepresearcher在执行特定的动作之前应获得认可。在DeepSeek-R1设置之后,每个推理过程都包含在标签中。 Web搜索工具:DeepRearcher通过开发JS调用Web搜索工具按格式请求。搜索结果将返回到结构化格式,每个结果包含标题,URL和摘要(摘要)。当前实现使用固定的TOP-K(例如10)作为搜索结果的搜索参数。未来的工作可以探索基于LLM的参数的动态优化,以提高搜索效率。 Web浏览代理:Ahante浏览Web提供了可靠,与问题相关的和增加有关DeepRearcher系统的更新信息。具体来说,它为每个查询保持短期银行内存。当收到Web浏览请求时,代理首先处理第一个URL页面的内容,然后根据查询,历史记忆和新获得的Web内容执行两个操作:1。找出是否有必要继续阅读下一个URL/页面剪辑,或停止浏览。 2。将相关信息添加到短期内存库中。当代理商决定停止浏览时,它包含有关短期我的新信息Mory并将其返回到Deepresearcher系统。答案:当模型确定获得足够的信息时,它将开发最终答案并将其封装在标签中并返回Touser。培训方法该项目使用加强研究(RL)研究来训练代理商。本节介绍了如何使用RL框架进行培训以及如何使用特定算法和使用的工具。 GRPO的算法在本研究中,研究小组采用了相对政策优化算法(GRPO)。 GRPO通过夺取参考策略和现有策略形成的一组推广来优化当前策略。具体而言,给出了G推出:每个输入X都符合经验分布D(即X〜D),GRPO使用这些轨迹来估算基线而无需在批评家的单一评论家中进行培训。然后,通过最大化以下目标函数将当前的方法进行优化:掩盖的观察工具的输出是一个n观察结果,而不是预期模型产生的输出。因此,研究团队还使用口罩来防止工具的输出参加培训,从而使模型的响应仅有助于培训过程。奖励功能使用F1标记作为奖励操作,并以畸形格式惩罚响应。惩罚格式:如果答案不正确(例如缺少标签或结构错误),则代理将受到-1的惩罚。 F1奖励:如果答案的格式正确,则奖励基于f1标记,该单词用于衡量与参考答案相关的生成答案的准确性。 F1分数越高,奖励越高。 4。实验结果,实验性完全证明了DeepResea的出色表现和整体能力,并清楚地显示了在真实环境中训练的主要优势。出色的性能和强大的概括能力深研究员在所有类型的评论基准测试中执行虚荣。在培训领域(包括NQ,Triviaqa,HotPotQA和2Wiki数据集),系统提高了28.9分,直接工程代理,最高为7.2分,可以提高到基于RAG的代理。该结果尤其重要,因为它表明,即使具有高度竞争性的基准,在真实生活环境中的训练仍然可以显着提高绩效。更令人印象深刻的是系统性能(OOD)数据集中的系统性能。在与训练数据显着不同的三个测试集中,Deepresearcher继续主要是其他基线方法。跨域的概括能力证明系统不仅纪念特定分布的问答模式,而且还真正学习了一般研究技能。该模型可以将识别和搜索技术切换为一种问题的全新领域,这对于实践很重要CAL应用。真正的环境培训的决定性优势是研究团队的实验设计,专门具有与模拟环境优势相关的真实环境培训。特别是在竹子测试集中,该基准特别包含需要超出维基百科知识范围的问题。 Sa Hamon Na Ito,Ang Deepresearcher Ay Makabuluhang Mas Mas Masay kaysa kaysa sa lahat ng mga pamamaraan na gumagamit lamang lamang lamang ng mga lokal na basahan。相比之下,Ang Pinaka-Nakakumbinsi Ay Ang Eksperimento:尽管R1-Searcher是在当地抹布中训练的系统,可以在森林中访问实际的网络搜索,但其性能仍然低于DeepRearcher。该结果清楚地表明,仅对理解阶段进行真实的搜索是不够的,而真正的关键是在培训过程中直接与真实环境接触。 5。RL量表行为的出现。另外,t他对研究团队的出色审查透露,深研究者通过端到端的RL缩放显示了各种意外的认知能力,这是自然而不是人工编程的结果。在解决问题的过程中,深入研究者展示了首先计划,跨估算的SAGOT资源,通过反射调整研究方向的能力,并在找不到确切答案时诚实。这些功能产生了深入研究代理的重要特征,并反映了人类研究人员重视的基本技能。 1。进行Deepresearcher计划能力可以在开始搜索之前制定初始计划,确定基本的子问题和搜索技术,类似于人类研究人员的工作方法。 2。交叉验证行为系统自动从多个资源中获取信息,并进行交叉验证。在遇到冲突的信息时,它将根据可靠性和一致性做出判断CH极大地提高了答案的准确性。 3.发现当前的搜索路径无效时,冥想并调整了分歧搜索卡丁车,深度搜索者可能会反映获得的信息并调整搜索方向。这种自适应行为旨在克服初始搜索策略的限制。 4。当找不到确切答案时,忠诚度和透明度将对限制而不是提供信息诚实。这种诚实行为对研究代理人很重要。运动演变演变的演变也发现了一些有趣的友好训练动力:增强研究的性能逐渐提高,F1标记的增长量从0.375持续增加到约0.55。在加固过程中,模型性能将继续改善,表明可以优化的公司趋势。随着培训的出现,当模型必须做机智时,使用越来越多的步骤 - 理解和工具调用H难题。随着培训的持续,不同贫困水平的工具调用数量也会增加。其中,在34个训练周期之后,4跳(四个跳跃问题)保持了增长的趋势,表明该模型仍在学习如何获取更多信息以提高处理更复杂的问题时的推理能力。在理解的所有步骤中,响应的长度显示出增长的持续增长,表明该模型在训练过程中继续扩大识别过程。随着推理的复杂性的增加,可以调整模型响应,以详细的方式形成,包括高级推理行为,例如双重审查,改进和计划。 6。摘要和重要性,深入研究者代表了AI的辅助研究成功,并且首次在真实的网络环境中成功实现了伟大的强化学习培训。这个依赖的重要性ARCH主要反映在以下方面:学术贡献表明DeepRearcher是一种破坏学习扩展的方式,使大型语言模型(LLM)能够在现实世界中的Web搜索环境中运行良好。与依赖静态知识基础或受控的采集环境的现有方法不同,Deepresearcher代理练习复杂性和开放网络中固有的动态变化(例如API限制,网页解析,反爬行机制)。与迅速设计和基于抹布的强化方法相比,这种与动态搜索环境的直接接触使Deepresearcher能够在任务和研究能力的完成方面取得重大改进。进行了广泛的实验,以证明实际生活环境训练的重大好处。专门为真实网络环境设计的RL框架建议实现迭代推理,查找和集成多源信息ation。通过采用端到端的培训框架,深研究员摧毁了固定的手动设计过程,从而使代理可以独立地了解解决问题的技术。这种方法不仅在现实世界中的Web搜索中实现了独特的挑战,例如网络延迟和反crawler延迟机制,而且还构建了可靠的多机构体系结构,从而提高了代理商从网页中收集各种信息的能力。最终,该系统显示出各种高级认知行为,包括计划,交叉验证,反思和诚实,这对于代理商的自主研究至关重要。观察并评估了新兴系统的行为,为将来的研究提供了重要的见解。 Deepresearcher的成功标志着LLM代理商发展的重要里程碑。这种方法为开发更可调和智能的系统提供了有前途的途径,允许他们解决复杂的开放域问题并应用到不同的现实任务。实际意义为开发真正可靠和灵活的深度研究系统提供了新的范式。减少对人为设计的固定工作流程的依赖,从而使其更加自主,可调和探索者。证明在复杂,开放环境中研究加强的潜力,证明在实际环境中扩大强化教育可以改善研究绩效。