Skip to main content

让AI直接操作电脑,完成一次点击需消耗50万个Token智能体利用计算机视觉来操作个人电脑,它们通常会对桌面进行截图或录制视频,理解它们所“看到”的内容,然后在获得点击、打字和滚动权限的前提下采取相应的行动

  1. 让AI直接操作电脑,完成一次点击需消耗50万个Token

    智能体利用计算机视觉来操作个人电脑,它们通常会对桌面进行截图或录制视频,理解它们所“看到”的内容,然后在获得点击、打字和滚动权限的前提下采取相应的行动。

    AI 编程初创公司 Reflex 认为,实现这一目标所需的工作量绝非易事。该公司最近发布的研究声称,一个操作浏览器的视觉智能体需要消耗高达 50 万个 Token 才能完成一次下拉菜单的点击。该研究得出结论:使用智能体的成本可能比直接使用 API 高出 45 倍。

    该公司已将其基准测试工具发布在 GitHub 上,您可以自行测试其方法,看看是否会得出相同的结果。更强大的 AI 模型最终会降低这些成本。但与使用 API 相比,使用智能体来完成某项任务始终需要经历更多的步骤。

    —— The Register