发布于 2026年1月19日

620 - 《Agent Browser》

昨晚用了下 Agent browser，感觉还是挺惊艳的，做下记录。他可以把现有的浏览器给利用起来。开一个 remote port 的端口，启动之后，就可以用这个库来连接它，并且做相应的控制。然后背后去接大模型，就能够通过 AI 去控制你现有的浏览器去做很多的事情。

AI 与浏览器的连接桥梁

1、Agent Browser 是由 Vercel Labs 开发的一款专为 AI Agent 设计的浏览器自动化 CLI 工具。

基于 Rust 构建，专为 AI 设计。它会输出页面的「可访问性树」（Accessibility Tree，简单理解就是页面结构的精简版，只保留按钮、链接、输入框等可交互元素），并为每个元素生成唯一引用（如 @e2），这样 AI 就能准确地说「点击 @e2」而不是模糊地描述位置。

UI 到可访问性树的转换

它是连接 AI Agent 与浏览器的桥梁，让 AI 能够像人一样浏览网页、点击按钮、填写表单。

2、快速上手。

安装。

npm install -g agent-browser
agent-browser install

基本工作流。

Step 1：打开页面并获取快照

agent-browser open https://example.com
agent-browser snapshot

快照会生成页面的可访问性树，每个元素都有唯一引用（如 @e2、@e5）。

Step 2：与元素交互

# 点击元素
agent-browser click @e2

# 填写输入框
agent-browser fill @e5 "Hello World"

3、使用本地 Google Chrome。

为什么要用本地 Chrome 而不是 Agent Browser 自带的浏览器？因为自带的是个干净的浏览器实例，没有登录状态、没有 Cookie、没有你的账号信息。而很多自动化场景需要「已登录」的状态，比如让 AI 帮你发推、管理 GitHub Issues、操作内部系统等。

Agent Browser 支持通过 Chrome DevTools Protocol (CDP) 连接到已运行的浏览器实例。我专门为此备了几个 Chrome 实例，把常用账号登上去，让 AI 可以直接操作这些已登录的会话。

带有登录状态的本地浏览器配置

以 macOS 为例。

# 启动带调试端口的 Chrome，指定独立的用户数据目录
/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome \
  --remote-debugging-port=9222 \
  --user

此内容需要会员权限。请先登录以查看完整内容。