本站没有人访问都是0,没有赚取一分钱
请扫码咨询

新闻动态

NEWS CENTER

Computer Use为什么是AI Agent的突破

2025-08-31

你有没有想过,AI agent或许真的要变成你的数字搭档了?不是那种只能回答问题的谈天机器人,也不是局限在某个特定软件里的自动化东西,而是可以像人类职工相同,在你的电脑上打开各种软件、处理杂乱使命、乃至解决突发问题的真实智能助手。最近,a16z的合伙人们发布了一篇深度剖析文章,体系梳理了Computer Use(计算机运用)技能的开展现状和未来前景。他们以为,这项技能正在将AI agent从概念面向实践,让AI真实具有了处理端到端数字作业流的才能。

看完他们的剖析后,我陷入了深度思考。过去几年,我们见证了太多AI东西的呈现,但大多数都有显着的局限性——要么只能处理特定类型的使命,要么需求人工进行大量配置和监督。而Computer Use技能的呈现,或许真的代表了一个转折点。它让AI agent可以像人类相同运用电脑,点击界面、填写表单、在不同软件之间切换,这意味着AI第一次具有了处理实践国际中那些杂乱、多步骤作业流程的才能。这不仅仅是技能进步,更或许是企业数字化劳动方法的底子性变革。

Computer Use为什么是AI Agent的突破

a16z的合伙人们在文章中提出了一个中心观念:Computer Use是实现真实AI agent的要害使能技能。他们以为,AI agent的有用性取决于两个要素:可以拜访的东西数量,以及跨东西推理的才能。而Computer Use技能在这两个方面都带来了巨大提高,让AI agent获得了运用任何软件的广度,以及将多个操作串联成完整作业流程的智能。

我深度思考后发现,这个观念提醒了过去AI应用的一个底子性限制。传统的AI东西往往依赖API接口或预定义的作业流程,这就像给AI制作了一个个孤岛,每个东西只能在自己的小圈子里发挥作用。即使是最先进的AI助手,也经常由于无法拜访某个软件的API,或者某个legacy system(传统体系)没有现代化的接口,而无法完结看似简略的使命。


但Computer Use改变了游戏规则。它让AI agent可以像人类用户相同与任何软件交互——通过点击按钮、填写表单、上传文件、乃至处理那些老旧的企业软件。这种才能的价值不仅在于扩展了AI可以运用的东西规模,更重要的是它消除了数字化程度不一致带来的妨碍。想想看,一个销售流程或许涉及CRM体系、邮件客户端、文档处理软件、内部审批体系,乃至一些只有图形界面的老旧东西。过去,AI无法处理这样的端到端流程,由于总有某个环节缺少API支持。

我以为a16z合伙人们提到的”东西可拜访性和推理才能的乘法效应”特别值得深思。当AI agent可以拜访更多东西,一起变得更善于运用这些东西时,它们可以处理的作业流程的规模和杂乱性会呈指数级增加。这不是简略的1+1=2的联系,而是或许呈现emergent capabilities(涌现才能)的情况。比方,一个可以操作浏览器、邮件和CRM的AI agent,或许会自主探究出新的作业方法,自动搜集和综合信息,乃至发现人类没有意识到的作业流程优化机会。

关于创业公司来说,这种技能突破意味着巨大的机会。a16z指出,AI领域最主要的商业机会一直是自动化作业和获取劳动力开销。Computer Use代表了迄今为止在仿制人类劳动才能方面最重要的发展。过去,那些缺少API拜访或API功用受限的软件东西构成了巨大的妨碍,特别是许多企业中心运用的legacy software(传统软件),如Epic、SAP和Oracle。具有推理才能和图形用户界面导航才能的Computer Use agent有用填补了这些空白,实现了端到端的作业自动化。


真实的应战:怎么让AI Agent习惯企业实践

虽然Computer Use技能前景宽广,但a16z的剖析也指出了一个要害应战:将这些agent大规模部署到企业环境中并非易事。他们以为,正确地将Computer Use垂直化,并协助企业采用这项技能,将是创业公司的重要探究领域。

这个观念让我想到了企业软件的杂乱实践。仅仅依托通用软件练习的Computer Use agent,比方ChatGPT agent或Claude,不太或许开箱即用地导航杂乱的企业软件环境。企业软件往往高度专业化且不直观,不同公司通常会以不同方法运用相同软件,施行定制化的视图、作业流程和数据模型。想想人类职工在参加新公司或学习新软件时通常需求多少训练时刻,就能了解这个应战有多大。

我在与各种企业打交道的过程中,深入领会到了这种定制化的杂乱程度。同样是SAP体系,不同公司的配置或许彻底不同,业务流程、用户权限、界面布局都有很大差异。即使是经验丰富的参谋,也需求花时刻了解每个公司的具体施行方法。关于AI agent来说,这种情况下的上下文了解变得至关重要。

a16z提出了一个十分实践的问题:为Computer Use模型供给上下文是一个杂乱的过程。相关的上下文或许包括书面说明、入职训练视频、浏览器操作录制,或者在某些情况下底子没有文档。怎么最好地向模型供给上下文也不是简略地在prompt开头添加文本那么简略,由于需求考虑图形和时刻维度。在这种情况下,retrieval和RAG(检索增强生成)的类比是什么?

相关推荐