

这项由好意思国伊利诺伊大学厄巴纳-香槟分校(UIUC)与微软算计院聚集开展的算计,于2026年6月发布在预印本平台arXiv上,论文编号为arXiv:2606.02031。有兴味深刻了解的读者不错通过该编号查询完整论文。
**一场对于"会用浏览器的AI"的竞赛**
每天,寰球非常十亿东说念主洞开浏览器,在网页上搜索商品、填写表单、比价购物、查阅信息。这些操作对东说念主类来说安若泰山,但对AI来说,却是一座难以翻越的山。网页是动态的、宏大的、充满弹窗和考证码的,况且每隔一段时候就会改版——这对需要"看懂网页、点对场地、完成任务"的AI智能体来说,简直是恶梦般的历练场。
当今最犀利的网页AI智能体,基本齐掌捏在OpenAI、Google这么的科技巨头手中,属于不合外公开历练细节的"黑箱系统"。开源社区固然也在致力,但深广依赖一种叫作念"监督学习"的格局——也便是先蚁集巨额东说念主类操作网页的示范摄像,再让AI师法。这种格局有个致命短板:摄像拍摄既立志又费时,况且录制完成的一刻起就动手"过期",压根跟不上互联网日眉月异的变化节拍。
恰是在这么的布景下,UIUC与微软的算计团队决定别有肺肠。他们的中枢念念路是:与其让AI死记硬背东说念主类的操作示范,不如让AI平直在真实网站上"我方去试",从班师和失败中学习。这个标的被称为"在线强化学习",对于视觉化的网页智能体来说,它此前险些照旧一派空缺地带。
算计团队将这套完整的历练框架定名为OpenWebRL,并在此基础上历练出了一个4B参数限度的模子OpenWebRL-4B。这个模子仅凭400条运行示范轨迹和2200个在线历练任务,就在三个顶级网页智能体测评基准上刷新了开源最高分,部分方针以致超越了OpenAI和Google的买卖系统。
**一、为什么"我方去试"比"死记硬背"更难?**
在戒备先容这套方法之前,有必要先相识为什么让AI在真实网页上"边干边学"是一件极其转折的事。
一个东说念主学骑自行车,会从跌倒中体验到均衡的迫切性,并鄙人次调节姿势。这个反馈是即时的、明晰的。但让AI在网页上学习完成任务,靠近的反馈环境要复杂得多。网页是活的——今天还能正常流露的按钮,未来可能被移走;今天能跑通的登录经过,未来可能多了沿途考证码;某些网站会把每每的自动化操作识别为"机器东说念主"并平直紧闭拜谒。这些齐是"环境噪声",很容易让AI误觉得是我方作念错了,从而学偏。
更难的问题在于:网页任务的"班师与否"时常要比及通盘任务完成后才智判断。你无法在AI点击第三个按钮的时候告诉它"这一步作念得对",只可在它最终恢复出"这款鞋的最廉价是299元"之后,才智评判通盘过程对不合。这种"过后才知说念扫尾"的反馈机制,对历练算法的设想刻薄了很高的要求。
与此同期,视觉信息的处理代价极高。每一步操作,AI齐要"看"一张网页截图——这张截图可能包含数百个元素,破费巨额计较资源。要是每一步历史截图齐保留在AI的"牵记"中,一个30步的任务轨迹以致会超出大多数模子的凹凸文承载上限。
算计团队在论文中系统性地梳理了这些挑战,并为每一个挑战设想了具体的贬责决策,这些决策共同组成了OpenWebRL框架的中枢。
**二、搭建一个"真实网页历练场"**
OpenWebRL的第一块基石,是一套能在真实网站上结实运行的浏览器环境基础设施。
不错把这套系统相识为给AI搭建了一个"沙盒游乐场"——每个历练任务齐在孤苦的捏造浏览器窗口中运行,互不烦闷,就像每位学员齐有我方专属的历练跑说念,不会因为别东说念主的差错影响我方。这套基础设施基于Playwright和Chromium构建,运行在Kubernetes容器化环境中,撑持上百个浏览器实例同期并走运作。
但真实网页的缺乏在于,即便环境搭好了,各式未必随时会发生:某个网站加载太慢、某次蚁集苦求超时、某页面顷刻间弹出考证码、某个按钮因为反自动化机制而拒却被点击。算计团队为此设想了完善的"容错机制"——系统会自动区别"是AI作念错了"照旧"是网站出问题了",并将失败原因详备纪录下来,以便后续分析。对于那些反复出现蚁集故障的网站,系统还会自动将其列入黑名单,幸免历练资源阔绰在压根无法拜谒的地址上。
**三、让AI"看见"我方的每一步操作扫尾**
仅靠截图,AI很难知说念我方的操作是否果然奏效了。点了一个按钮之后,页面可能看起来没什么变化,但本色上可能如故暗暗导航到新页面、好像填写进去的内容压根没被禁受。
OpenWebRL贬责这个问题的格局,是给每一次操作齐附上一条"翰墨反馈",相称于给AI配备了一个及时助理,在它每次操作后密语指示:"刚才你点的阿谁按钮班师了,页面跳转到了xxx",好像"你输入的翰墨和本色禁受的内容不一致,重视看"。这条翰墨反馈是通过分析操作前后的网页DOM树(网页结构树)变化来生成的,内容简陋但信息密度高。
这条反馈的迫切性在后续实验中得到了明确考证——去掉这个翰墨反馈,AI在多个基准测试上的班师率会下落5到8个百分点。尤其是在需要多步操作的长程任务中,少了这个反馈,AI就像在灰黝黑摸索,很容易在一个如故失败的操作上反复纠缠,好像没意志到某个要津门径如故出错。
**四、给AI的"操作用具箱"和"多任务并行"智商**
OpenWebRL为AI配备了一套由13个基础操作用具组成的用具箱,涵盖鼠标点击(单击、双击、右键)、键盘输入、页面回荡、网址跳转、前进后退、标签页照应,以及最迫切的"完成并施展"操作——这是AI告诉系统"任务作念罢了,我的谜底是xxx"的惟一格局。
更兴趣的是,AI每次不需要只调用一个用具。算计团队允许AI在一次"念念考-举止"周期中一语气调用多个用具。比如,AI不错在一次输出中同期完成"点击搜索框、输入要津词、按回车"这三个一语气动作,而不需要资格三次"截图→念念考→操作→恭候截图"的完整轮回。这个设想大大提高了历练效力,尊龙凯时中国官网入口减少了不必要的模子与环境之间的走动交互。
**五、贬责"牵记过载"的聪敏妙招**
一个30步的网页操作任务,要是把每一步的截图齐保留在AI的牵记中,数据量之大足以撑爆大多数模子的凹凸文限定。算计团队的贬责决策既简陋又高效:只保留最近一张截图,但完整保留历史翰墨信息。
道理道理其实很朴素:东说念主在作念复杂任务时,不需要同期盯着之前每一步的操作界面,只需要记着之前作念了什么、扫尾如何,以及刻下屏幕上看到的内容就够了。AI亦然如斯。历史截图被丢弃,但每一步的操作纪录、环境反馈和AI我方的"念念考过程"齐完整保留,算作翰墨容颜的"责任牵记"。
实验扫尾标明,只保留最近一张截图(K=1)与保留最近两张比较,效力险些莫得各别,但计较老本却显赫按捺——保留两张截图会让历练时长从约240 GPU小时增多到400 GPU小时。这个发现告诉咱们,在多模态智能体的长程任务中,讲话牵记的价值时常比视觉历史更为要津。
**六、"家教"先打好基础,再甘休自学**
OpenWebRL的历练分为两个阶段,这两个阶段的设想念念路,很像东说念主类学习生人段的经典旅途:先随着栽培学基本功,再孤苦上场实战普及。
第一阶段是"监督微调",也便是让AI先师法高东说念主操作。算计团队使用Qwen3-VL-235B(一个领有2350亿参数的超大模子,不错相识为行业顶尖水平的"栽培")来完成一批网页任务,筛选出班师的轨迹,然后从顶全心挑选412条最具代表性的轨迹,让4B的小模子来师法学习。
之是以只选412条而不是用几十万条,是有三念念尔后行的情理的。算计团队发现,要是喂太多示范数据,小模子会把栽培的操作作风学得过于稚拙,反而在后续的实战历练中枯竭"可塑性",难以被进一措施整优化。就像一个从小被逼着率由卓章的学生,反而不如阿谁只学了基本原则、但保留了自主探索智商的学生跳动更快。
实验中,算计团队对比了四种不同的运行化格局:透顶不作念监督历练、小数历练1轮、适量历练3轮,以及巨额数据历练3轮。扫尾发现,适量的监督预热(412条数据、3轮历练)带来的后续强化学习效力最佳,而巨额数据预热反而会连累最终发扬。这个论断有迫切的试验指令道理:运行化的宗旨是"让AI能动手探索",而不是"把AI调教成一个无缺的师法者"。
**七、"在试错中成长"的强化学习核默算法**
第二阶段是OpenWebRL的确的中枢:让4B模子在真实网站上我方作念任务,凭据最终的班师或失败来更新我方的"决策政策"。
这套历练算法的名字叫作念MM-GRPO(多模态多轮群体相对政策优化),百家乐官方入口但无用被这个名字吓到。它的基本逻辑其实止境直观化。
每次历练,系统会给AI兼并个任务,让它孤苦尝试5次(一组),生成5条不同的操作轨迹。有些轨迹班师完成了任务,有些失败了。系统随后计较这5次尝试的平均班师率,然后告诉AI:比平均水平高的那些轨迹,应该更多去师法;比平均水平低的那些轨迹,应该幸免古老宗旨。这种"组内相对比较"的格局,让系统不需要一个外部的"无缺规范谜底",只需要我方里面的成败对比就能持续跳动。
有一个细节止境值多礼贴:要是某个任务的5次尝试扫尾透顶同样(比如全部班师或全部失败),这组数据会被平直丢弃,不参与历练更新。道理道理很简便——全部班师意味着这个任务太简便,AI如故掌捏了;全部失败意味着这个任务刻下太难,暂时无法从中学到灵验信号。唯独那些"有时班师、有时失败"的任务,才智提供最有价值的学习素材。这相称于为AI自动构建了一个难度适中的动态课程。
历练收受了"两阶段回荡步长"的政策:先用最多15步的短程任务历练90轮,让模子在较短的任务中建造基础探索智商,再切换到最多30步的长程任务再历练50轮,让模子学会应酬的确的长程规画挑战。实验标明,这种由短到长的课程式历练,比一动手就平直上30步任务的效力要好得多,尤其在WebVoyager这个需要较多门径的基准上,差距高达7.4个百分点。
**八、谁来当"评判官"?从立志到平价的进化**
网页任务完成之后,如何判断AI的谜底是否正确?这是通盘系统中最难规范化的一环。
一些任务不错用礼貌判断,比如"找到这款手机的最廉价钱",只消查对数字就行。但许多任务的评判需要相识语义,比如"找到一家评分最高且离我最近的五星级牙医",谜底可能因网页情状不同而有合理各别,不是简便对比字符串就能判断对错的。
算计团队的默许决策是用GPT-4.1算作"评判官",但这会产生显赫的用度:一次完整的历练实验需要调用约4.32万次GPT-4.1评判API,总用度约545.5好意思元。对于许多学术算计组来说,这是不小的包袱。
为了贬责这个问题,算计团队非常从1.25万条带有GPT-4.1评判标签的真实轨迹数据中,蒸馏历练出了一个8B限度的开源评判模子OpenWebRL-Judge-8B。实考讲解,这个评判模子与GPT-4.1的判断吻合度高达89.8%,空洞F1分数达到92.1%,超越了WebJudge-7B、Qwen3-VL-32B以致GPT-4o等竞争者。用这个腹地评判模子替换GPT-4.1之后,最终模子的性能险些莫得耗费,平均班师率从68.4%仅微降到68.3%——险些不错忽略不计。
算计团队还对比了平直用Qwen3-VL-8B(未经非常历练的通用模子)算作评判官的效力,扫尾令东说念主警惕:历练奖励分数看起来越来越高,但本色测试班师率却在持续下滑——这是典型的"奖励糊弄"闲适,AI学会了如何让评判官舒坦,而不是的确完成任务。这进一步诠释,非常历练的评判模子对于通盘历练系统的结实性至关迫切。
**九、收货单:小模子击败大系统**
OpenWebRL的最终收货相称亮眼。算计团队在三个顶级网页智能体基准上进行了全面评测。
WebVoyager是一个袒护15个主流网站的空洞型基准,共595个任务;Online-Mind2Web则包含136个网站的300个长程任务,难度更高;DeepShop专注于电商购物场景,要求AI在多重拘谨下完成商品搜索与采取,共150个任务。
OpenWebRL-4B在这三个基准上分别取得了74.1%、67.0%和64.0%的班师率,平均班师率68.4%,成为同等限度开源模子中的最高水平。横向对比来看,它不仅大幅超越了FARA-7B(后者在Online-Mind2Web和DeepShop上分别唯独34.1%和26.2%)、MolmoWeb-8B(35.3%和42.3%),以致超越了领有2350亿参数的Qwen3-VL-235B-A22B。更值多礼贴的是,OpenWebRL-4B在Online-Mind2Web和DeepShop两个基准上还压过了买卖系统OpenAI CUA(58.3%和24.7%)和GPT-5的SoM版块(57.7%和49.1%)。
延迟到8B参数限度的OpenWebRL-8B发扬愈加肃肃,平均班师率达到68.7%,与买卖系统Gemini CUA(57.3%和62.0%)在两个基准上的对比中展现出较着上风。
这些收货的获取,仅使用了412条运行示范轨迹和2200个强化学习历练任务,而竞争敌手如MolmoWeb则使用了超越27.85万条数据——收支了整整两个数目级。这标明,高质地的在线交互历练所带来的普及,透顶不错弥补运行数据量上的巨大差距。
**十、AI在历练中到底学会了什么?**
2026世界杯中国官方入口算计团队莫得知足于发布收货单,而是进一步分析了历练过程中AI步履的变化,试图相识强化学习究竟转变了什么。
一个兴趣的发现是:随着历练的鼓励,AI每一步的输出如实变长了,但总体任务完成所需的门径数却在减少——平均步数从第0轮的14步下落到了第80轮的8.9步,通盘轨迹的总长度也相应镌汰。这诠释AI并不是在无效地"啰嗦",而是在更少的门径内作念更充分的念念考。
算计团队对AI的念念考内容进行了深刻分析,界说了四种常见的"念念维模式":历史总结(回顾之前作念过什么、去过哪些页面、什么方法失败了)、破损会诊(发现考证码、页面紧闭等遏制)、重试规画(制定新的替代政策)和要求考证(一一核查任务要求是否知足)。
历练前后,这四种模式的出现频率齐有显赫普及:历史总结的出现率从14.5%普及到21.4%,破损会诊从14.2%普及到23.7%。况且,出现这些念念维模式的门径,其反应长度增长更为显赫,从平均332 token增多到542 token(历史总结),从273增多到440(破损会诊);比较之下,不包含这些模式的普通门径,长度增长止境有限(从282增多到325)。
这诠释AI学会了"有采取地深度念念考":在要津决策节点上进入更多默契资源,而不是均匀地在每一步上平摊念念考量。这种步履模式与东说念主类大众的默契格局高度吻合——遭逢卡点时深度分析,老到操作时快速试验。
**归根结底,这套方法转变了什么?**
说到底,OpenWebRL讲解了一件在AI算计范围颇具争议的事:对于网页智能体这类需要在复杂、动态环境中作念长程决策的任务,"让AI在真实寰宇里边作念边学"不仅是可行的,况且比"堆砌巨额东说念主类示范数据"要高效得多。
这对普通用户意味着,将来咱们可能会看到更多能的确相识网页、完成复杂在线任务的AI助手,而这些AI不再需要依赖科技巨头掌捏的海量独到数据,而是不错通过开放的框架和有限的运行历练,在公开的互联网上持续自我普及。
从算计自己的局限性来看,有51%的失败案例源于网页自己的拜谒问题——考证码紧闭、蚁集相连失败、反自动化机制等——这些齐不是模子智商的问题,而是开放互联网上AI智能体必须面对的基础设施挑战。另外27%的失败来自模子在长程多拘谨任务中的规画和追踪智商不及,13%来自视觉定位的精度问题。这些标的,也恰是接下来算计致力的重点所在。
算计团队已晓谕将公开垦布历练数据、模子权重和完整代码,让学术界和孤苦算计者齐能在此基础上陆续探索。对视觉AI、智能体本领或强化学习感兴味的读者,不错通过arXiv编号2606.02031找到这篇完整论文,好像拜谒格局主页openwebrl.github.io获取更多资源。
---
Q&A
Q1:OpenWebRL-4B为什么只用400条历练数据就能击败用了27万条数据的模子?
A:这主要归功于在线强化学习的历练格局。OpenWebRL-4B不是靠死记硬背东说念主类示范来学习,而是在真实网站上我方动手作念任务,从班师和失败的扫尾中总结教会。400条数据仅仅用于"打基础"的运行监督历练,的确让模子突飞大进的是后续2200个任务的在线实战进修。简便说,质地高的真实交互教会,比数目大的静态示范数据更有学习价值。
Q2:OpenWebRL-Judge-8B评判模子和平直用GPT-4.1有什么区别?
A:两者的评判准确率止境接近,但老本各别巨大。用GPT-4.1作评判官,一次完整历练需要破耗约545好意思元的API用度;而OpenWebRL-Judge-8B是一个不错腹地运行的开源模子,历练完成后不需要额外付费。更迫切的是,实考讲解用GPT-4.1历练出来的模子和用OpenWebRL-Judge-8B历练出来的模子,最终测评收货险些透顶调换,平均班师率仅差0.1个百分点。
Q3:OpenWebRL历练框架为什么要把历史截图丢弃,只保留翰墨纪录?
A:因为截图的信息量极大,保存系数历史截图会超出模子的处理上限。实验发现,保留最近两张截图和只保留一张比较,效力险些莫得各别,但计较老本从240 GPU小时增多到400 GPU小时。AI的确需要的"历史牵记"百家乐官方入口,其实通过保存每步的翰墨反馈和AI我方的推理纪录就如故富足,这些翰墨信息比历史截图更紧凑、更高效地传递了要津信息。