
怎样让 AI 更聪惠地操作手机、电脑界面?
浙江大学与通义实验室 Mobile-Agent 团队在 UI-R1 的基础上,推出全新商议效用——UI-S1,建议了一种名为半在线强化学习(Semi-online Reinforcement Learning)的创新磨真金不怕火范式。
该责任交融了离线磨真金不怕火的牢固性与在线学习的长程优化材干,在不依赖信得过环境交互的前提下,显耀进步了模子在动态多轮任务中的弘扬。

也即是说,这种步履用的已经离线学习的现成操作数据,但会模拟在线学习的过程。

底下来望望是怎样作念到的。
用"离线"数据,模拟"在线"过程中枢问题:传统步履的局限性
现存的 GUI Agent 磨真金不怕火主要依赖两类强化学习范式:
离线强化学习(Offline RL)
运用事前蚁合的众人轨迹进行磨真金不怕火,具有高牢固性与低部署本钱,但其骨子是"举止克隆 + 单步效法",短缺对轨迹级奖励信号的学习材干,难以支吾需要恒久筹谋的任务。在以下任务中:基于离线学习的模子弘扬出早停征象,面对长程任务短缺灵验的筹谋。

在线强化学习(Online RL)
通过与信得过环境抓续交互得到反馈,大要捕捉到任务完成与否的全局奖励信号,适用于多步决策优化,但面对奖励寥落、试错本钱不菲以及磨真金不怕火不牢固等问题。
因此,如安在无需平凡信得过交互的前提下,赋予模子近似在线学习的落魄文连贯性和长程推理材干,成为冲破瓶颈的要津。
管制决策:三大中枢期间构建半在线学习框架

为管制上述矛盾,商议团队建议了三项要津期间,共同组成 UI-S1 的中枢架构:
半在线机制:在离线数据中模拟在线交互
离线学习的轨迹是固定的,只可将众人轨迹的动作(* 示意)作为历史:

而在线学习的轨迹是不错动态变化的,将模子我方的原始输出(π 示意)作为历史:
UI-S1 初度建议半在线强化学习范式,其中枢想想是在固定离线轨迹的基础上,在每次 rollout 过程中保留模子自己的原始输出(包括动作遴选与想维链),而非仅使用众人动作作为历史输入。
这一想象使得模子大要在磨真金不怕火中体验"自我举止带来的落魄文变化",从而增强战略的一致性和多轮连贯性。
换言之,即使莫得信得过环境反馈,模子也能"感知"我方畴昔的举止,并据此诊疗后续决策,已毕了对在线学习过程的灵验模拟。
补丁机制(Patching Module):自顺应开垦采样偏差
由于模子在 rollout 中可能偏离众人旅途,导致后续情状无法匹配原始轨迹,商议者引入了可竖立的补丁机制,以还原被中断的操作流。具体包含三种战略:
Thought-Free Patch:仅修正失实动作,保抓原想考过程不变
Off-Policy Thought Patch:调用更强外部模子重写失实想维链
On-Policy Thought Patch:诱导模子自己生成正确的推理旅途
此外,提高补丁次数上限可显耀进步模子探问完整轨迹的材干,进而增强对后期轨范的学习效果。
分析泄露,更高的补丁阈值有助于保管战略熵,堤防过早不断,促进探索种种性。
长程奖励建模:从轨范级到轨迹级的上风揣度
为了弥补传统离线 RL 无法拿获畴昔收益的舛误,UI-S1 引入了带扣头因子的畴昔奖励传播机制。关于每个中间轨范,系统不仅筹谋其即时端正奖励

还诱导畴昔轨范的潜在价值(按衰减因子 γ 加权)变成轮廓奖励:

有了这个轨范级别奖励,商议者们用其揣度归并个轨范组内的轨范级别上风,

终末一步的上风被作为轨迹级别上风,用于评估轨迹是否完成:

商议者将两个级别的上风加权后(
),收受动态采样的方式优化战略模子:

评测翻新:SOP ——更贴近信得过弘扬的动态评估目的
针对传统静态评测(如 AC-High)无法反馈多轮容错材干的问题,商议团队建议了新的评测——SOP(Semi-online Performance)。
该左券保留模子每一轮的信得过输出,一朝出现失实即拆开任务,全面模拟信得过使用场景下的连气儿交互过程。扬弃标明,SOP 与信得过在线性能高度对皆,且支抓更高任务种种性和更快评估速率,填补了现存评测体系在动态性与实用性之间的空缺。

实验扬弃:全面超过基线,迫临顶尖闭源模子
在多个主流 GUI 自动化基准上的测试中,UI-S1-7B 展现出超卓性能:
实验扬弃
相当是在 AndroidWorld 任务中,UI-S1-7B 取得了34.0%的任务到手率,接近 GPT-4o(34.5%)与 UI-TARS-7B(33.0%),显耀优于纯 SFT 或离线 RL 步履。
值得细心的是,部分基线步履在动态评测中以致不如基础模子,反馈出其在多轮泛化方面的根柢舛误。

同期,在单轮任务(如 GUI Odyssey)上,UI-S1-7B 仍保抓 +7.1% 的增益,说明半在线磨真金不怕火并未燃烧局部精度,已毕了"诟谇兼顾"的双重优化。

在旧例的 GUI 单轮评测上,UI-S1-7B 比拟于 base 模子也有一定程度的进步(比如 GUI Odyssey +7.1),评释了半在线步履并莫得燃烧单轮展望材干。
久了分析:机制灵验性与可延伸性考据补丁机制显耀进步数据运用率
作为 UI-S1 框架的中枢组件之一,补丁模块(Patch Module)在保管磨真金不怕火牢固性与进步战略泛化材干方面施展了不成替代的作用。
其想象初志在于管制半在线强化学习中一个根人性矛盾:模子在 rollout 过程中不成幸免地会偏离原始众人轨迹,导致后续情状无法对皆信得过数据,从而中断通盘轨迹的学习程度。
为缓解这一问题,商议团队引入了可疏通的补丁机制,允许系统在检测到操作偏差时,以有限次数对历史动作或想维链进行修正。通过确立超参数阈值适度每条轨迹最多可修补的次数,商议东说念主员系统评估了不同竖立下的性能变化。

实验扬弃标明,提高补丁阈值显耀进步了模子在 SOP 和 AndroidWorld 两个动态评测基准上的弘扬。
在具体修补战略的遴选上,商议对比了三种典型决策,揭示了性能与效用之间的深层衡量:
On-Policy Thought Patch
由方针战略模子自己重腾达成正确的推理过程,在语义作风和推理节律上与原输出高度一致,因此能提供最当然的落魄文衔尾,带来最优性能。但是,该步履需罕见推论完整的前向推理,筹谋支出较大,不利于大规模磨真金不怕火。
Thought-Free Patch
仅修正失实的动作标签,保留原有的想维链不变。尽管未开垦潜在的逻辑舛误,但由于 GUI 动作空间相对结构化且可通过端正校验,该方式在实践中弘扬出接近最优的性能,同期真的不引入罕见筹谋本钱,具备极高的工程实用性。
Off-Policy Thought Patch
借助外部更强的大模子(如 GPT-4)重写失实的想考过程。固然表面上可提供更高质地的推理率领,但因生成作风、术语使用与方针模子存在散播偏移,反而可能导致落魄文断裂或误导磨真金不怕火方针,践诺效果不如预期。
更进一步分析发现,较大的补丁阈值有助于在磨真金不怕火过程中保管较高的战略熵(policy entropy),即模子在动作遴选上的不确信性水平。
较高的熵值反馈了更丰富的探索举止,幸免战略过早不断于少数高频旅途。
这说明补丁机制不仅是格外转变器具,更是促进战略种种性和堤防模式坍缩的盘曲妙技。

数据缩放礼貌揭示高效学习后劲
商议标明,UI-S1 的性能增长稳当指数型数据规模律。
跟着补丁阈值从 0 增至无限,指数通盘 k 从− 1.13 进步至− 0.73,标明单元数据带来的边缘收益显然改善。
这意味着即使在有限数据条目下,该步履也能更充分挖掘非齐备轨迹中的监督信号,具备邃密的小样本顺应材干。

消融实验阐发要津组件孝敬
消融实验进一步考据了多个中枢组件的期间孝敬。
当先,在畴昔奖励建模方面,扣头因子 γ 委果立对多轮任务弘扬具有决定性影响:当 γ =0(完竣忽略畴昔奖励)时,模子性能最低;而在 γ =0.5 时达到峰值,说明为止纳入长程优化信号可显耀进步战略的全局一致性与任务完成率,突显了半在线范式在拿获跨步依赖关连上的上风。

其次,在磨真金不怕火范式组合上,斡旋使用监督微调(SFT)与半在线强化学习(Semi-online RL)的效果显然优于任一单独步履——在 AndroidWorld 基准上,组合决策取得 34.0% 的任务到手率,分辩越过仅用 Semi-online RL(30.4%)和仅用 SFT(21.7%)的竖立,且平均任务完成步数更少,标明其具备更强的旅途筹谋与推论效用。
终末,同期引入轨迹级与轨范级上风函数筹谋,并保留多帧历史不雅测信息(包括动作、想考链与界面情状),均被证实对最终性能有正向增益,去除任一组件均会导致性能着落,说明这些想象共同撑抓了模子在复杂 GUI 交互中的肃肃决策材干。

样例分析

商议者们展示了一项复杂的跨应用任务,该任务要求在多个操作轨范中抓续保留要津信息:从 Simple Gallery 中稽察一张包含交游信息的图片,并在 Markor 应用中创建文献记载该信息。
实验标明,基础模子和离线强化学习(Offline RL)模子在推论过程中出现了想维与动作不一致的问题。
举例,Offline RL 模子在筹谋完切换至下一应用后便提前拆开操作,可能因其过度拟合局部奖励,未能统筹后续任务方针。而经过监督微调(SFT)的模子则在经过中遗失了要津信息,导致推论冗余操作,如尝试创建一个已存在的文献。
比拟之下,基于半在线强化学习(Semi-Online RL)框架的 UI-S1 模子在通盘 12 步操作序列中保抓了牢固的落魄文连贯性,到手将交游信息" 2023-03-23, Monitor Stand, $33.22 "准确以 CSV 模式写入文献。
这一弘扬考据了该步履在学习多轮复杂举止方面的上风,已毕了推理过程与动作推论的高度对皆。
商议者觉得,该效用体现了半在线范式在进步 GUI 智能体长程筹谋材插手任务鲁棒性方面的要津作用。
感兴致的一又友可戳下方点斡旋得到更多内容~
论文地址:https://arxiv.org/abs/2509.11543
模样代码:https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1
模子地址:https://huggingface.co/mPLUG/UI-S1-7B
一键三连「点赞」「转发」「小心心」
接待在批驳区留住你的倡导!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见火星电竞·(CHINA)官方网站
