声明:本文来自于微信公众号 窄播,作者:窄播,授权站长之家转载发布。
当我利用智谱刚刚推出的GLM-PC,打字告诉我的电脑:「在Edge浏览器上打开百度搜索,搜索并打开得到APP的主页」,并在二十多秒后看到这个页面被成功打开时,感觉就像一个刚开始学习编程的人,成功敲出了「Hello World」。
这种新体验的出现,正在加速新人机交互时代的到来。大模型技术的发展让人们能够在不同硬件上,通过自然语言完成复杂任务的执行。而这种人机交互体验的不断完善,是构建起一个具备执行能力的完全体AI助手的关键环节之一。拥有执行能力的Agent,才能真正发挥出AI作为人类助手的价值。
当下,越来越多的企业开始致力于新人机交互体验的开发和升级。智谱在升级AutoGLM能力的同时,推出了浏览器插件 AutoGLM-Web 和 GLM-PC,进一步拓展了使用场景。Anthropic的computer use同样处在测试阶段,并「将在未来几个月内迅速提高能力」。OpenAI和Google的类似产品也已经在开发过程中。
一方面,尽管在体验上还存在诸多不足,但代理执行能力已经成为大模型的又一种基础能力;另一方面,人机交互的未来只被掀开了一角,探索还在很早期,主要在利用大模型对原有的图形界面交互进行改良,让大模型看懂图形界面,代替人去完成机械性的重复操作。
从长远来看,在大模型具备并持续完善对话、推理、执行能力,且原生AI硬件快速发展的前提下,我们可以期待一场更加彻底的人机交互迭代。「图形界面+应用」的组合,很有可能会被「AI助手+Agents」的组合替代,AI助手会成为AI OS的化身。
使用工具是大模型的一次迭代
目前,人们能有机会体验到智谱和Anthropic两家的代理执行产品。其中,Anthropic是通过API让Claude能够像人一样操作电脑,实现看屏幕、打字、移动光标等操作。智谱则通过基于 Agent 技术的 AutoGLM 和 GLM-PC 两款产品,去看懂和理解 OS 系统的操作界面,不管是手机、电脑还是 Web。
从真实的使用体验来看,智谱的产品能够帮用户完成一些回复微信消息、在微信内搜索文章等任务,并具备一定的容错率。即便我把回复对象的名字「乓乒」错输成了「乒乒」,它还是能够准确找到人。但在让AutoGLM帮我打开虎嗅的微信公众号搜索AI相关内容时,它的语音把虎嗅识别成了胡秀和互秀,需要人工介入进行调整。
AutoGLM执行复杂任务的能力还有一定的局限性。我们可以让它跨外卖应用进行比价,但让它帮助总结微信搜索结果中各条内容的概要时,它只总结了第一条的。此外,这类产品的操作等待时间比较长,且需要用户输入精准的描述,如果将关闭标签页输入成关闭主页,也无法正确完成操作。
即便能力和体验都还有很大的提升空间,智谱和Anthropic的尝试也给行业指出了一条新的突破方向,让AI具备了进入Agentic AI阶段的可能。在OpenAI和智谱对AI的发展阶段划分中,使用工具的能力都被视为AI第三阶段的标志。
OpenAI认为,人工智能的五个阶段是:可以与人类对话的聊天机器人;可在解决问题上与人类并驾齐驱的推论者;可采取行动的AI系统;能够帮助发明的创新者以及可完成组织任务的组织者。智谱对五个阶段的划分则包括:语言能力(多模态能力)、逻辑能力、使用工具的能力、自我学习能力、探究科学规律。
OpenAI和智谱的五个阶段划分虽然有所不同,但参考人的成长阶段,都能被分成掌握基础技能和实现社会化学习两个部分。前者是让AI像幼儿一样,具备了对话、推理和使用工具的能力;后者则是让AI进入到上学和工作的阶段,开始学习更复杂的知识,并承担更复杂的社会化协作。
在智谱CEO张鹏看来,智谱的AI目前在语言能力上已经达到了人类80%甚至90%的水平,在推理能力上也具备了人类60%的水平(尽管复杂推理能力只有30%)。但是在行动能力或工具使用能力上,仅具备了人30%至40%的能力,有能力去理解图形化界面,规划和完成复杂任务,却不能保证更好的效果和更广泛的适用性。
让AI具备使用工具的能力是完成基础技能养成的标志。这意味着,AI能够在不断完善对话、推理和行动三项能力的基础上,去开发更实用的功能,解决更多实际问题,并且开始对现实世界的发展进程产生更深刻地影响。其中,最为显著的改变就是推开了一个人机交互新时代的大门。
能力提升带来人机交互新可能
从命令行界面到键盘鼠标,再到触控,工程师们一直在寻找人与机器进行交互的更好方式,不断缩短输入命令到执行,再到输出结果的路径。但如张鹏所说:「用户至今仍需要花费大量的时间去学习形形色色的软件的操作,在操作界面跨多个应用来完成复杂的工作流。这中间其实有大量的、重复性的、机械性的人机的交互。」
具备对话、推理、执行能力的大模型,让人不再需要迁就机器,而是让机器开始有能力去理解人的需求,代替人完成复杂任务,用户只需要清楚说出自己的意图即可。
以购物场景为例,在图形界面下,用户要买一袋洗衣液,需要完成打开购物软件、搜索洗衣液、比较价格和功能、填写收货地址、付款等动作,这些动作共同拼凑出了「我要买袋什么样的洗衣液」这个完整的需求。未来用户直接告诉大模型「我要买袋什么样的洗衣液」,大模型就会负责完成整个购买流程。
这是一次基础交互逻辑的变化,更符合人类使用自然语言进行交互的习惯。在这种交互逻辑下,将AI助手带向大众的Siri的创始团队提出过改变人类未来的三个要素:虚拟助理、AI机器人助理和AR。虚拟助理帮助处理信息世界中的事物,AI机器人助理处理现实世界中的事务,AR负责打通虚拟与现实两个世界。
在大模型的语境下,AR更像是一种内容显示方式,真正打通虚拟与现实两个世界的是拥有多模态能力的Agent。它不但可以听懂人类的命令,根据命令拆分出指令序列,还具备调动APP和硬件的功能,协同完成任务的能力。
就像我们已经看到的外卖比价、一句话点外卖、远程操控电脑执行任务等操作,Agent已经能够在一定程度上代替人去连接和调用不同的应用。就像张鹏所说,AutoGLM在用户和众多的应用APP之间添加了一个APP执行的调度层。
在未来,Agent未尝不能直接连接扫地机器人、电饭煲、新风机,实现对硬件能力的调用。从人操控硬件,到人通过Agent去管理和操控硬件的过程中,能够实现软硬件能力的更灵活解藕与组合。这可能意味着,人正在通过Agent实现与世界的自然语言交互。
走向AI OS的过渡阶段
当下,如果大胆假设,大模型或者其具像化的AI助手,很可能成为用自然语言驱动世界的新OS。只是,目前的尝试还停留在对图形界面交互进行改良的阶段。
一方面,Agent展示出了绕过传统的API接口模式,实现对APP的调用和操控的能力。但是,其完成任务执行所依赖的还是图形界面的窗口、图标、菜单、指针形成的操作路径,通过结构化的操作拼接出完整的用户意图。这很可能是一个人机交互的过渡阶段。
另一方面,就像很多人认为的那样,未来的AI OS大概率会是一个基于自然语言和Agent实现交互的底层系统。荣耀在智谱活动上分享了其认为手机上的AI OS需要具备三个特征:基于大模型驱动的AI内核;智能体驱动的AI交互;开放服务构建的AI生态。但目前并没有形成一个完善的智能体生态。
相较于APP,这个生态会更匹配由AI助手调用分子化软硬件能力的预期。未来随着智能体生态的不断壮大,会出现与之适配的原生AI OS,实现软硬件体验的「自动驾驶」体验。当然,这需要Agent能力实现进一步拓展。
首先,实现更广泛的连接是AI OS的基础。Agent需要有更多跨平台的能力,做到无处不在。无论是在智能手机内实现跨应用的任务执行,还是在手机、PC、AI硬件上实现不同硬件端的打通,都是Agent跨平台能力的体现。
未来具备更强跨平台能力的Agent,更有希望成为系统级的AI助手。正因如此,张鹏在OpenDay上着重强调「跨App」的升级,并定义这是Agent生态里面非常关键的一步。
从目前的实践来看,智谱、Anthropic、手机厂商的实践都更多是在拓展某一硬件端内的跨应用执行能力。这是一个比较现实且急迫的需求。就像前Android工程副总裁Singleton所说:「我们可以看到AI Agent的前景,但作为开发人员,构建任何好东西都太难了。」人们需要能够绕开应用墙的AI体验构建框架。
但是,在不同硬件端的打通上,还并没有更大的突破和进展。但参照智能手机时代小米与华为在设备连接上的不同进化路径,可以看到越早从系统底层进行打通,就能积累起越来越多的后期红利。尽管智谱在这次OpenDay上展示了在手机端、PC端和WEB端的能力,但不同端的Agent还没有在这些测试产品中实现打通。
其次,Agent能力的拓展,还需要与原生AI硬件的创新相结合。「往往其实硬件跟软件是一个互相塑造,互相定义的事情。我们看到了互联网时代,互联网定义了iPhone,iPhone又创造了全新的软件生态。我们也看到今天大模型正在试图定义硬件,而这些硬件的成熟一定也会给我们带来重新被定义的软件生态。」智谱COO张帆表示。
智谱发布了一个描绘未来人机交互场景的概念短片。在短片中,人能够通过自然语言在不同场景中与不同硬件实现交互,满足自己的不同需求。这需要诸如AI耳机、AI PC、AI宠物等更多AI原生硬件的支撑,当然也需要 Agent 能力将它们无缝地衔接起来,它们将是整个软硬件融合大系统的一部分。
在已经被揭开的未来的一角中,我们看到了从Agent到AI助手,再到AI OS的可能。就像张鹏所说:「Agent可以看作是大模型通用操作系统LLM-OS的雏形,未来有可能实现原生的人机交互。」