news 2026/4/16 9:36:47

清华智谱联手发布WebRL框架:LLM网页智能体性能跃升,任务成功率突破42.4%

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
清华智谱联手发布WebRL框架:LLM网页智能体性能跃升,任务成功率突破42.4%

近日,清华大学与智谱AI携手推出了一项名为WebRL的创新性自进化在线课程强化学习框架。该框架旨在训练基于大型语言模型(LLM)的网页智能体,使其能够更高效、精准地完成各类网页交互任务。这一突破性成果不仅为LLM在复杂网页环境中的应用开辟了新路径,也为相关领域的研究和产业发展注入了强劲动力。

【免费下载链接】webrl-glm-4-9b项目地址: https://ai.gitcode.com/zai-org/webrl-glm-4-9b

WebRL框架的一大亮点是发布了两个高性能预训练模型checkpoint,分别为WebRL-GLM-4-9B和WebRL-LLaMA-3.1-8B。这两个模型基于不同的基础LLM架构开发,为研究者和开发者提供了多样化选择,以适应不同场景下的应用需求。其中,WebRL-GLM-4-9B依托智谱AI自研的GLM-4架构,WebRL-LLaMA-3.1-8B则基于Meta公司最新发布的LLaMA-3.1架构,两者均在原有基础上针对网页交互任务进行了深度优化。开发者可访问项目地址https://gitcode.com/zai-org/webrl-glm-4-9b获取WebRL-GLM-4-9B模型,WebRL-LLaMA-3.1-8B模型的获取地址为https://gitcode.com/zai-org/webrl-llama-3.1-8b,便于研究人员和企业快速上手并应用于实际项目。

为确保训练效果,WebRL框架选择在WebArena环境中进行模型训练。WebArena作为广泛使用的网页智能体评估和训练平台,包含丰富的真实世界网页场景和任务,为模型提供了接近实际应用的训练数据和评估标准。WebRL框架在该环境中创新性地实施了自我进化的课程学习策略。此策略并非简单按固定难度顺序训练,而是通过生成和过滤的两步动态流程,不断生成逐渐更具挑战性的任务,同时确保这些任务适合当前智能体的能力水平,实现循序渐进、高效提升的训练效果。这种动态调整机制让模型在学习过程中始终处于“跳一跳够得着”的最佳学习状态,避免了因任务过难导致的挫败感或过易导致的学习效率低下问题。

在任务生成机制上,WebRL框架基于In-breadth evolving技术创建新指令。该技术能在保持任务核心目标不变的前提下,通过对任务情境、约束条件、交互方式等方面进行多样化扩展,生成大量新颖且具有针对性的训练样本。例如,在“查询天气”这一核心任务基础上,可扩展出“查询未来一周北京天气并生成出行建议”“查询上海历史最高气温出现的日期及当天天气详情”等不同情境和约束条件的任务。这不仅丰富了训练数据的多样性,避免智能体陷入单一模式的学习瓶颈,还能有效激发智能体的泛化能力和问题解决能力,使其更好地应对真实网页环境中的各种未知情况。

实验结果充分证明了WebRL框架的卓越性能。在WebArena-Lite基准测试中,WebRL框架展现出令人瞩目的提升效果。特别是Llama-3.1-8B模型,经WebRL框架训练后,网页任务成功率从原始的4.8%飙升至42.4%,提升幅度近8倍。这一数据直观展示了WebRL框架的强大赋能作用,凸显了其在提升LLM网页智能体性能方面的巨大潜力。为验证结果可靠性,研究团队在电商购物、信息检索、表单填写等多个不同类型网页任务上进行对比实验,结果均显示经WebRL训练的模型在各项指标上显著优于未训练的基础模型和其他传统训练方法训练的模型。

WebRL框架的成功研发意义远不止于一次技术突破。从学术研究角度,其提出的自我进化课程学习策略和In-breadth evolving任务生成技术,为强化学习与自然语言处理交叉领域提供了新的研究思路和方法。传统强化学习方法在处理网页交互这类复杂序列决策任务时,常面临奖励稀疏、状态空间巨大等问题,而WebRL框架通过动态课程学习和多样化任务生成有效缓解了这些难题。从产业应用角度,高性能网页智能体可广泛应用于自动化测试、智能客服、信息抽取、网页内容聚合、无障碍浏览辅助等领域,显著提升工作效率,降低人力成本,改善用户体验。例如,在电商领域,智能体可自动完成商品比价、订单跟踪等任务,为消费者提供更便捷的购物体验;在信息检索领域,能精准提取网页关键信息,生成结构化报告,帮助用户快速获取所需内容;在无障碍浏览方面,可为视障人士提供网页内容语音播报和交互引导,极大改善他们的上网体验。

展望未来,WebRL框架发展前景广阔。研究团队表示,下一步将继续优化框架的自进化机制,提升任务生成的质量和效率,探索在更复杂、更多样化的网页环境中进行训练和应用。例如,计划将训练环境扩展到包含动态JavaScript交互、多模态内容(如图片、视频)的网页场景,以提升智能体处理复杂网页元素的能力。同时,开放更多模型参数和训练工具,鼓励社区参与WebRL生态建设,共同推动LLM网页智能体技术的发展和落地。研究团队还考虑引入多智能体协作机制,让多个网页智能体协同完成更复杂任务,如多人在线协作编辑文档、联合进行网络数据采集与分析等。

WebRL框架的推出是清华大学与智谱AI在人工智能领域深度合作的又一重要成果,再次彰显了中国科研机构在全球AI技术竞争中的领先地位。这一成果为行业树立了新的技术标杆,展现了人工智能技术在服务社会、推动进步方面的无限可能。随着技术不断迭代创新,LLM网页智能体将越来越智能、贴近人类需求,成为日常生活和工作中不可或缺的得力助手。未来,随着WebRL框架不断完善和更多研究者加入,有望看到更多基于该框架的创新应用涌现,进一步推动数字经济发展和社会智能化进程。无论是提高企业运营效率、改善用户体验,还是促进信息普惠、推动社会公平,WebRL框架都将发挥重要作用,为构建更智能、高效、便捷的数字世界贡献力量。

【项目获取地址】webrl-glm-4-9b 项目地址: https://gitcode.com/zai-org/webrl-glm-4-9b

【免费下载链接】webrl-glm-4-9b项目地址: https://ai.gitcode.com/zai-org/webrl-glm-4-9b

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 16:02:22

29、Linux 内核中的定时器与时间管理:第一部分

Linux 内核中的定时器与时间管理:第一部分 1. 引言 定时器和时间管理在 Linux 内核中扮演着至关重要的角色,被广泛应用于各种任务。例如,TCP 实现中的不同超时设置、内核获取当前时间、调度异步函数以及安排下一个事件中断等。本文将从 Linux 内核的早期部分开始,深入探讨…

作者头像 李华
网站建设 2026/4/15 16:20:24

37、Linux内核中的读写信号量:原理与实现解析

Linux内核中的读写信号量:原理与实现解析 1. 引言 在Linux内核中,同步原语是确保多进程或多线程安全访问共享资源的关键机制。此前,我们已经探讨了不同类型的自旋锁、信号量和互斥量等同步原语。本文将聚焦于一种特殊类型的同步原语——读写锁(readers–writer lock),尤…

作者头像 李华
网站建设 2026/4/16 12:41:10

13、基于BPF的流量控制分类器

基于BPF的流量控制分类器 1. 流量控制概述 流量控制(Traffic Control)是内核数据包调度子系统架构,它由各种机制和排队系统组成,能够决定数据包的流向和接收方式。其常见用例包括但不限于以下方面: - 对特定类型的数据包进行优先级排序 - 丢弃特定类型的数据包 - 进行…

作者头像 李华
网站建设 2026/4/16 13:30:35

15、XDP 编程:从加载到应用的全方位指南

XDP 编程:从加载到应用的全方位指南 1. 验证 XDP 程序加载效果 在加载完 XDP 程序后,需要验证程序是否按预期工作。可以在外部机器上再次执行 nmap 命令,观察端口 8000 是否不再可达: # nmap -sS 192.168.33.11 Starting Nmap 7.70 ( https://nmap.org ) at 2019-04-…

作者头像 李华