Skip to content
雲里
里雾
YoYo / 阅读笔记

GUI Agent 缺的不是手,是看过足够多的人怎么操作

瑶瑶
瑶瑶

引用Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

这篇论文做了一件很朴素但很关键的事:不再只靠人工标注 GUI 操作数据,而是从互联网教程视频里自动抽取交互轨迹,构造 WildGUI 数据集,用来预训练更泛化的 GUI Agent。

我喜欢这篇论文,不是因为它又把某个 benchmark 往上推了几个点,而是因为它把 GUI Agent 的问题重新放回了“经验从哪里来”。现在很多关于智能体的讨论喜欢盯着模型会不会规划、会不会调用工具、会不会自我反思,听起来都很高级。但一旦落到图形界面,问题会变得非常笨:按钮在哪里,菜单怎么展开,弹窗出现时该点哪里,网页和手机 App 的视觉结构有什么差别。一个没见过足够多真实操作过程的模型,靠推理很难凭空长出这种手感。

Video2GUI 的思路很直接:互联网上已经有大量教程视频,里面天然包含“人类如何完成任务”的过程。问题是这些视频不是干净的数据集,里面有片头、闲聊、镜头切换、无关画面,也没有标准化的动作标签。论文提出的 Video2GUI pipeline 分三步处理:先从 5 亿条视频元数据里筛出可能是 GUI 教程的视频,再用内容级评分挑出高质量屏幕录制;然后把视频切成较短片段,抽取任务指令、动作时间戳和低层操作说明;最后用关键时刻前后截图定位具体交互目标,也就是把“点击这里”落到屏幕坐标或区域上。

这个过程最有意思的地方,是它把 GUI 操作理解成一种可以从视频中“挖出来”的行为语料。过去的数据集常常依赖人工标注,质量可控,但规模和覆盖面都受限。Video2GUI 构造的 WildGUI 包含 1200 万条交互轨迹、1.24 亿张图像,覆盖超过 1500 个应用和网站。这个数字不只是炫规模。GUI Agent 的泛化恰恰需要杂乱:不同网站的表单,不同 App 的导航,不同桌面软件的菜单,不同教程作者的操作习惯。太干净的数据集会让模型学会考试,未必学会使用真实世界。

当然,我也不想把这篇论文吹成“GUI Agent 终于解决了”。它真正解决的是预训练语料稀缺的问题,不是部署可靠性问题。教程视频里的动作通常是顺利路径,用户知道自己要干什么,界面状态也相对清楚;真实任务里会有登录失效、网络卡顿、权限弹窗、A/B 测试、误点、撤销、不可见状态和一堆让人血压上来的边角情况。模型在 WildGUI 上预训练后,确实能在 ScreenSpot-Pro、OSWorld-G、AndroidControl、CAGUI、OSWorld、AndroidWorld 等评测上获得提升,但评测提升不等于可放心托管。GUI Agent 最危险的地方不是不会点,而是它点错时经常还很自信。

我更愿意把 Video2GUI 看成一个方向信号:智能体能力的下一步,很可能不是继续给模型塞更多抽象指令,而是把人类在真实环境里的操作痕迹变成可学习的中间层。GUI 不是 API。API 的语义相对稳定,参数和返回值写在文档里;GUI 的语义分散在布局、颜色、层级、动效、上下文和用户习惯里。一个按钮叫“继续”,到底是提交订单、进入下一页、确认风险,还是跳过设置,只看文字并不够。模型需要看过大量“人在这种界面里通常怎么做”,才能减少那种一本正经点错地方的荒唐感。

这也提醒我们,做 Agent 产品时不能只迷信“更强模型 + 更长上下文”。如果任务发生在 GUI 里,数据层的缺口会直接变成行为层的笨拙。你可以让模型解释屏幕,可以让它规划步骤,但如果它没有稳定的视觉 grounding 和动作经验,最后还是会在最普通的界面细节上摔倒。Video2GUI 把教程视频变成轨迹数据,本质上是在补“看别人怎么操作”的课。这个课不华丽,但非常必要。

我也有一点保留:用互联网上的视频自动合成轨迹,必然会带来噪声和偏差。教程视频偏向可讲解、可展示的任务,很多真实工作流并不会被拍成视频;热门软件会被过度代表,小众系统和内部工具依旧稀缺。再加上抽取过程本身依赖大模型判断,错误会以一种不太显眼的方式混进数据集。规模可以稀释一部分噪声,但不能让噪声消失。所以后续真正值得看的,不只是 WildGUI 能让 benchmark 涨多少,而是这些轨迹能否帮助 Agent 在新界面、新任务、异常状态里更稳地恢复。

这篇值得读。我的一句话理由是:它没有急着把 GUI Agent 包装成万能执行者,而是老老实实回答了一个基础问题:模型要想会操作界面,先得看过足够多人类是怎么操作界面的。


分享这篇文章:
分享到微博 分享到 QQ 分享到 X

Previous
大运河不是一条河:清代漕运如何成为国家机器
Next
别指望 AI 替你跳过问题定义