news 2026/4/16 12:15:24

阿里WebSailor开源:打破开源智能体天花板,多项核心指标逼近闭源系统

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
阿里WebSailor开源:打破开源智能体天花板,多项核心指标逼近闭源系统

阿里WebSailor开源:打破开源智能体天花板,多项核心指标逼近闭源系统

【免费下载链接】WebSailor-3B项目地址: https://ai.gitcode.com/hf_mirrors/Alibaba-NLP/WebSailor-3B

智东西7月8日消息,阿里巴巴通义实验室于昨日正式对外开源新一代网络智能体WebSailor,该系统在三大权威评测基准中创下开源领域最佳成绩,成为全球首个在高难度网页任务中接近闭源方案能力水平的开源智能体。WebSailor具备在开放网络环境中自主导航、多源信息整合及复杂逻辑推理的能力,特别适用于解决路径模糊、信息分散的高难度检索任务。其技术报告于7月3日登上Hugging Face Papers日热度榜首,相关模型代码、训练方法及评测数据集已同步在Gitcode开源(仓库地址:https://gitcode.com/hf_mirrors/Alibaba-NLP/WebSailor-3B)。

作为新一代网络智能体的代表,WebSailor展现出惊人的任务处理能力。该智能体能够模拟人类浏览网页的行为,通过自主跳转页面来收集所需信息,并对这些信息进行整合与推理,最终给出准确的答案。这种能力使得WebSailor在面对复杂的检索任务时,表现得游刃有余。无论是处理需要多步判断的问题,还是应对信息来源分散的情况,WebSailor都能够凭借其强大的自主导航和信息整合能力,高效地完成任务。

一、三大评测基准创佳绩,开源领域实现断层领先 WebSailor-72B大模型在国际权威评测中表现抢眼,在BrowseComp-en、BrowseComp-zh和GAIA信息检索子集分别取得12.0%、30.1%和55.4%的优异成绩。其中BrowseComp评测集由OpenAI精心设计,包含1266个高难度网页检索任务,全面考察智能体的搜索策略、信息筛选、多源整合及逻辑推理综合能力。测试结果显示,WebSailor不仅大幅超越DeepSeek R1等主流开源方案,更在多个核心指标上首次实现对Grok-3、Doubao-Search等闭源系统的逼近。值得关注的是,该模型在专注高难度任务训练的同时,仍保持了对基础问答任务的强大泛化能力——在SimpleQA基础问答子集测试中,WebSailor-72B以93.5%的准确率领先WebDancer、WebThinker等一众开源智能体。

这一系列成绩的取得,充分证明了WebSailor在网络智能体领域的领先地位。它不仅在高难度任务中展现出卓越的能力,还在基础问答任务中保持了较高的准确率,体现了其强大的综合性能。这种性能上的优势,使得WebSailor在众多开源智能体中脱颖而出,成为了该领域的佼佼者。

二、创新后训练体系,攻克复杂推理难题 WebSailor的核心技术突破源于其独创的三段式后训练框架,通过数据生成、冷启动调优与强化学习的有机结合,实现智能体复杂任务处理能力的跨越式提升:

  1. 高不确定性任务合成技术 通义实验室构建了包含10万+样本的SailorFog-QA专用训练集,创新性地采用"网页随机游走"技术模拟人类浏览行为,在真实互联网环境中构建动态知识图谱。通过图结构深度采样与信息模糊化处理,人为制造路径非线性、起点不确定的多跳推理任务,显著提升训练数据的复杂度与不确定性。这种数据生成方式,使得WebSailor在训练过程中能够接触到各种复杂的情况,从而提高了其在实际应用中的应对能力。

  2. 专家路径压缩微调(RFT) 基于Qwen-2.5系列基础模型(涵盖3B至72B全尺寸),通过专家决策路径的结构化压缩与推理步骤显式化重构,大幅增强智能体在复杂任务中的轨迹可控性。这种微调方法有效解决了传统智能体在多步骤推理中常见的路径漂移问题,使模型能够更稳定地执行复杂指令。通过这种方式,WebSailor能够更好地理解和执行复杂的任务指令,提高了任务的完成质量和效率。

  3. 双阶段强化学习算法DUPO WebSailor创新性地提出Duplicating Sampling Policy Optimization(DUPO)强化学习框架,采用动态任务采样策略:在训练初期自动过滤简单任务,集中资源攻克高难度轨迹;训练中期实施困难样本重复采样机制,实现关键能力的精准强化。该算法使复杂任务训练效率提升2-3倍,同时有效避免模型陷入局部最优解。这种高效的强化学习算法,为WebSailor的性能提升提供了有力的支持。

三、构建Web智能体技术矩阵,引领开源生态发展 WebSailor是阿里巴巴通义实验室Web智能体技术路线图的第三款里程碑产品:2025年1月发布的WebWalker聚焦评测体系建设,构建了首个标准化网页智能体评估基准;5月推出的WebDancer重点突破自主检索策略学习,强化多源信息搜集能力;本次发布的WebSailor则实现了任务构建、策略优化与强化学习的全流程创新。通义实验室表示,未来将持续完善"浏览器原生智能体"技术框架,重点拓展跨模态信息处理与长周期任务规划能力。

从WebWalker到WebDancer,再到如今的WebSailor,阿里巴巴通义实验室在Web智能体领域的技术积累不断深化。每一款产品的发布,都在前一款产品的基础上进行了创新和改进,形成了一个完整的技术矩阵。这种技术上的不断进步,不仅推动了Web智能体技术的发展,也为开源生态的繁荣做出了重要贡献。

结语:开源智能体迈向实用化临界点 WebSailor通过创新的数据构建方法、精细化调优策略和高效强化学习算法,成功突破开源智能体在复杂网络任务中的性能瓶颈。尽管与闭源系统仍存在一定差距,但其在高难度检索任务中展现的接近商业系统的能力,标志着开源网络智能体正从学术研究走向实际应用。随着技术框架的持续完善和开源生态的协同发展,WebSailor有望成为企业级智能检索系统的标准化基础组件,推动智能体技术在垂直领域的规模化落地。

WebSailor的开源,为整个行业带来了新的机遇和挑战。它不仅为开发者提供了一个强大的工具,也为智能体技术的发展指明了方向。相信在不久的将来,随着WebSailor技术的不断完善和开源生态的不断壮大,智能体技术将会在更多的领域得到应用,为人们的生活和工作带来更多的便利。

【免费下载链接】WebSailor-3B项目地址: https://ai.gitcode.com/hf_mirrors/Alibaba-NLP/WebSailor-3B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 22:49:18

18、网络安全防护指南

网络安全防护指南 1. 服务配置文件查看 在网络安全防护中,我们首先要查看可能需要启用的其他服务的配置文件。例如,对于Web服务器,我们可能会用到Apache或者NGINX。默认的配置文件包含了大量可供使用的示例。若要启用某个示例,只需将 enabled = false 改为 enable = t…

作者头像 李华
网站建设 2026/4/12 5:45:19

Qwen3-Coder开源发布:开启智能编程新纪元,全球开发者共享

2025年7月25日,阿里云旗下通义千问团队正式对外宣布,全新一代AI编程大模型Qwen3-Coder已完成开发并开放。这款具备尖端代码生成能力与强大Agent功能的智能编程引擎,在多项国际权威编程任务评测中均取得卓越成绩,标志着我国在大模型…

作者头像 李华
网站建设 2026/4/16 12:21:13

双轨EMA融合:AdEMAMix优化器如何突破AdamW的梯度利用瓶颈

双轨EMA融合:AdEMAMix优化器如何突破AdamW的梯度利用瓶颈 【免费下载链接】Apertus-8B-Instruct-2509-GGUF 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/Apertus-8B-Instruct-2509-GGUF 2023年9月,来自瑞士洛桑联邦理工学院的Pagliard…

作者头像 李华
网站建设 2026/4/16 12:15:52

字符串(听课笔记)

字符串 String 1. 特性介绍 String 位于Java.lang包中,无需导包 String类由fianl修饰,表示不能被修改,不能被继承 String类构建的对象不可在被修改当使用一个字面量给字符串赋值时,首先会去字符串常量池中检测是否存在 如果存在&a…

作者头像 李华
网站建设 2026/4/15 17:53:28

百度网盘下载提速全攻略:告别龟速下载的终极解决方案

你是否曾经面对百度网盘几十KB/s的下载速度,感觉时间仿佛回到了拨号上网的年代?看着进度条缓慢爬行,重要文件迟迟无法到手,这种体验确实令人沮丧。今天,我将为你揭秘一个简单有效的方法,让你轻松突破下载限…

作者头像 李华
网站建设 2026/4/16 1:33:35

31、分布式文件共享与匿名发布系统中的信任问题剖析

分布式文件共享与匿名发布系统中的信任问题剖析 1. 防止拒绝服务攻击的支付方案 为防止拒绝服务攻击,可要求发布者使用 Publius 发布文档时付费。匿名电子现金系统能让发布者在保持匿名的同时完成支付。即便资金充裕的攻击者付费占满所有可用的 Publius 服务器,从其收取的费…

作者头像 李华