谷歌近期对外展示了其正在研发的全新人工智能模型——Gemini 2.5 Computer Use。这款模型的核心能力在于配资策略平台,能够通过浏览器分析并处理网络内容,模拟人类用户在传统界面中执行各类操作。其技术亮点在于融合了视觉理解与逻辑推理,可精准解析用户指令并完成表单填写、信息提交等任务。
该模型的应用场景涵盖两大领域:一是自动化测试用户界面,验证交互设计的合理性;二是操作仅面向人类用户开发的系统,尤其针对未开放API接口的封闭平台。此前,谷歌已在AI Mode智能体功能和“Mariner”研究项目中应用类似技术,例如通过浏览器自动根据食材清单采购商品。
在行业动态方面,谷歌此举与竞争对手形成直接对话。OpenAI在年度开发者日次日宣布升级ChatGPT智能体功能,强化其代理执行复杂任务的能力;而Anthropic公司早在去年就推出了Claude AI模型的计算机操作版本。三家科技巨头在AI代理技术领域的竞争愈发激烈。
谷歌公布的演示视频显示,其计算机使用模型在加速三倍播放的条件下,仍能流畅完成网页浏览、文本输入、元素拖放等13项预设操作。技术团队强调,该模型严格限定于浏览器环境运行,不会触达桌面操作系统层级,目前尚未针对系统级控制进行优化。基准测试数据显示,其在多网页和移动端场景中的表现优于现有主流方案。
开发者可通过Google AI Studio和Vertex AI平台获取该模型配资策略平台,Browserbase在线演示环境则提供了直观体验入口。用户可实时观察模型执行“玩2048游戏”“浏览Hacker News热门话题”等动态任务,直观感受其交互能力。这种技术突破为AI代理在消费级场景的落地开辟了新路径。
海通证券提示:文章来自网络,不代表本站观点。