发布于 2026年1月19日
620 - 《Agent Browser》
昨晚用了下 Agent browser,感觉还是挺惊艳的,做下记录。他可以把现有的浏览器给利用起来。开一个 remote port 的端口,启动之后,就可以用这个库来连接它,并且做相应的控制。然后背后去接大模型,就能够通过 AI 去控制你现有的浏览器去做很多的事情。

1、Agent Browser 是由 Vercel Labs 开发的一款专为 AI Agent 设计的浏览器自动化 CLI 工具。
基于 Rust 构建,专为 AI 设计。它会输出页面的「可访问性树」(Accessibility Tree,简单理解就是页面结构的精简版,只保留按钮、链接、输入框等可交互元素),并为每个元素生成唯一引用(如 @e2),这样 AI 就能准确地说「点击 @e2」而不是模糊地描述位置。

它是连接 AI Agent 与浏览器的桥梁,让 AI 能够像人一样浏览网页、点击按钮、填写表单。
2、快速上手。
安装。
npm install -g agent-browser
agent-browser install
基本工作流。
Step 1:打开页面并获取快照
agent-browser open https://example.com
agent-browser snapshot
快照会生成页面的可访问性树,每个元素都有唯一引用(如 @e2、@e5)。
Step 2:与元素交互
# 点击元素
agent-browser click @e2
# 填写输入框
agent-browser fill @e5 "Hello World"
3、使用本地 Google Chrome。
为什么要用本地 Chrome 而不是 Agent Browser 自带的浏览器?因为自带的是个干净的浏览器实例,没有登录状态、没有 Cookie、没有你的账号信息。而很多自动化场景需要「已登录」的状态,比如让 AI 帮你发推、管理 GitHub Issues、操作内部系统等。
Agent Browser 支持通过 Chrome DevTools Protocol (CDP) 连接到已运行的浏览器实例。我专门为此备了几个 Chrome 实例,把常用账号登上去,让 AI 可以直接操作这些已登录的会话。

以 macOS 为例。
# 启动带调试端口的 Chrome,指定独立的用户数据目录
/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome \
--remote-debugging-port=9222 \
--user