发布于 2025年3月12日

译：构建 Agent 的新工具

原文：https://openai.com/index/new-tools-for-building-agents/
作者：OpenAI
译者：Claude 3.5 Sonnet

编者注：OpenAI 最近推出了一系列新工具来帮助开发者和企业构建更实用可靠的 AI 代理系统。主要包括: 1) 新的 Responses API，它结合了 Chat Completions API 的简单性和 Assistants API 的工具使用能力 2) 内置工具包括网页搜索、文件搜索和电脑使用功能 3) 新的 Agents SDK 用于编排单代理和多代理工作流 4) 集成的可观察性工具用于追踪和检查代理工作流执行情况。对于现有 API，Chat Completions API 将继续支持，而 Assistants API 计划在 2026 年中期停用。这些新工具大大简化了构建 AI 代理所需的核心逻辑、编排和交互过程。OpenAI 相信代理系统很快就会成为工作中不可或缺的一部分，他们将继续投资开发更多工具来帮助部署、评估和优化生产环境中的代理系统。

今天，我们发布了第一套构建模块，这将帮助开发者和企业构建有用且可靠的智能代理。我们将智能代理视为能够代表用户独立完成任务的系统。在过去的一年里，我们引入了新的模型能力——包括高级推理、多模态交互和新的安全技术——为我们的模型奠定了处理构建智能代理所需的复杂多步骤任务的基础。然而，客户反馈表示，将这些能力转化为生产就绪的智能代理可能具有挑战性，通常需要大量的提示词迭代和自定义编排逻辑，而且缺乏足够的可见性或内置支持。

为了解决这些挑战，我们正在推出一套专门设计用于简化智能代理应用程序开发的新API和工具：

新的 Responses API，将Chat Completions API的简单性与Assistants API的工具使用能力相结合，用于构建智能代理
内置工具，包括网络搜索、文件搜索和计算机使用
新的Agents SDK用于编排单代理和多代理工作流程
集成的可观察性工具用于追踪和检查代理工作流程执行

这些新工具简化了核心代理逻辑、编排和交互，使开发者更容易开始构建智能代理。在接下来的几周和几个月里，我们计划发布更多工具和功能，以进一步简化和加速在我们平台上构建智能代理应用程序。

介绍 Responses API

Responses API 是我们用于利用 OpenAI 内置工具构建智能代理的新 API 原语。它结合了 Chat Completions 的简单性和 Assistants API 的工具使用能力。随着模型能力的不断发展，我们相信 Responses API 将为开发者构建智能代理应用程序提供更灵活的基础。通过单个 Responses API 调用，开发者将能够使用多个工具和模型轮次解决越来越复杂的任务。

视频占位。

首先，Responses API 将支持新的内置工具，如网络搜索、文件搜索和计算机使用。这些工具旨在协同工作，将模型连接到现实世界，使它们在完成任务时更加有用。它还带来了几项可用性改进，包括统一的基于项目的设计、更简单的多态性、直观的流式事件，以及像 response.output_text 这样的 SDK 辅助工具，可以轻松访问模型的文本输出。

Responses API 专为那些希望轻松将 OpenAI 模型和内置工具集成到其应用程序中的开发者设计，无需整合多个 API 或外部供应商的复杂性。该 API 还使在 OpenAI 上存储数据变得更容易，因此开发者可以使用追踪和评估等功能来评估代理性能。需要提醒的是，我们默认不会使用业务数据训练我们的模型，即使数据存储在 OpenAI 上。该 API 从今天起向所有开发者开放，且不单独收费——代币和工具按照我们定价页面上指定的标准费率计费。查看 Responses API 快速入门指南了解更多信息。

这对现有 API 意味着什么

Chat Completions API：Chat Completions 仍然是我们最广泛采用的 API，我们完全致力于通过新模型和功能来支持它。不需要内置工具的开发者可以放心继续使用 Chat Completions。当新模型的功能不依赖于内置工具或多个模型调用时，我们会继续向 Chat Completions 发布新模型。然而，Responses API 是 Chat Completions 的超集，具有相同的出色性能，因此对于新的集成，我们建议从 Responses API 开始。
Assistants API：基于开发者对 Assistants API 测试版的反馈，我们在 Responses API 中加入了关键改进，使其更灵活、更快速且更易于使用。我们正在努力实现 Assistants 和 Responses API 之间的完全功能对等，包括支持类似 Assistant 和 Thread 的对象，以及代码解释器工具。完成后，我们计划正式宣布 Assistants API 的弃用，目标日期为 2026 年中期。弃用后，我们将提供从 Assistants API 到 Responses API 的明确迁移指南，允许开发者保留所有数据并迁移其应用程序。在我们正式宣布弃用之前，我们将继续向 Assistants API 提供新模型。Responses API 代表了在 OpenAI 上构建智能代理的未来方向。

网络搜索

开发者现在可以通过清晰且相关的网络引用获得快速、最新的答案。在 Responses API 中，网络搜索作为工具在使用 gpt-4o 和 gpt-4o-mini 时可用，并且可以与其他工具或函数调用配对。

const response = await openai.responses.create({
    model: "gpt-4o",
    tools: [ { type: "web_search_preview" } ],
    input: "今天发生了什么积极的新闻故事？",
});
console.log(response.output_text);

在早期测试中，我们看到开发者使用网络搜索构建各种用例，包括购物助手、研究代理和旅行预订代理——任何需要来自网络的及时信息的应用程序。

例如，Hebbia 利用网络搜索工具帮助资产管理者、私募股权和信贷公司以及法律实践从广泛的公共和私人数据集中快速提取可操作的见解。通过将实时搜索功能集成到他们的研究工作流程中，Hebbia 提供更丰富、更具上下文特定性的市场情报，并持续提高其分析的精确性和相关性，超越当前基准。

API 中的网络搜索由与 ChatGPT 搜索相同的模型提供支持。在 SimpleQA（一个评估 LLM 回答简短事实性问题准确性的基准）上，GPT-4o 搜索预览和 GPT-4o mini 搜索预览分别得分 90% 和 88%。

使用 API 中的网络搜索生成的响应包括源链接，如新闻文章和博客文章，让用户可以了解更多信息。通过这些清晰的内联引用，用户可以以新的方式与信息互动，而内容所有者可以获得接触更广泛受众的新机会。

任何网站或发布者都可以选择在 API 的网络搜索中出现。

网络搜索工具在 Responses API 中以预览版向所有开发者开放。我们还通过 gpt-4o-search-preview 和 gpt-4o-mini-search-preview 在 Chat Completions API 中为开发者提供直接访问我们微调搜索模型的权限。定价分别从每千次查询 30 美元和 25 美元起，分别适用于 GPT-4o 搜索和 4o-mini 搜索。在Playground中试用网络搜索，并在我们的文档中了解更多信息。

文件搜索

开发者现在可以使用改进的文件搜索工具轻松从大量文档中检索相关信息。通过支持多种文件类型、查询优化、元数据过滤和自定义重排序，它可以提供快速、准确的搜索结果。而且，使用 Responses API，只需几行代码就可以完成集成。

const productDocs = await openai.vectorStores.create({
    name: "Product Documentation",
    file_ids: [file1.id, file2.id, file3.id],
});

const response = await openai.responses.create({
    model: "gpt-4o-mini",
    tools: [{
        type: "file_search",
        vector_store_ids: [productDocs.id],
    }],
    input: "什么是 OpenAI 的深度研究？",
});

console.log(response.output_text);

文件搜索工具可用于各种现实世界用例，包括使客户支持代理轻松访问常见问题解答、帮助法律助理快速参考过去的案例以供合格专业人士使用，以及协助编码代理查询技术文档。例如，Navan 在其 AI 驱动的旅行代理中使用文件搜索，快速从知识库文章（如其公司的差旅政策）中为用户提供精确答案。通过内置的查询优化和重排序，他们能够在无需额外调整或配置的情况下设置强大的 RAG（检索增强生成）管道。通过为每个用户组设置专用的向量存储，Navan 能够根据个人账户设置和用户角色定制答案，为客户和员工节省时间，同时帮助提供准确、个性化的支持。

该工具在 Responses API 中向所有开发者开放。使用费用为每千次查询 2.50 美元，文件存储费用为 0.10 美元/GB/天，第一个 GB 免费。该工具继续在 Assistants API 中可用。最后，我们还为 Vector Store API 对象添加了新的搜索端点，以直接查询您的数据，用于其他应用程序和 API。在我们的文档中了解更多信息，并在Playground中开始测试。

计算机使用

为了构建能够在计算机上完成任务的智能代理，开发者现在可以在 Responses API 中使用计算机使用工具，该工具由与计算机使用代理（CUA）模型相同的模型提供支持，该模型使Operator成为可能。这个研究预览模型创造了新的最先进记录，在OSWorld完整计算机使用任务中达到 38.1% 的成功率，在WebArena中达到 58.1%，在WebVoyager基于网络的交互中达到 87%。

内置的计算机使用工具捕获由模型生成的鼠标和键盘动作，使开发者能够通过直接将这些动作转换为其环境中的可执行命令来自动化计算机使用任务。

const response = await openai.responses.create({
    model: "computer-use-preview",
    tools: [{
        type: "computer_use_preview",
        display_width: 1024,
        display_height: 768,
        environment: "browser",
    }],
    truncation: "auto",
    input: "我在寻找一台新相机。帮我找到最好的一款。",
});

console.log(response.output);

开发者可以使用计算机使用工具来自动化基于浏览器的工作流程，如对网络应用程序进行质量保证或在传统系统中执行数据输入任务。例如，Unify是一个用于增长收入的行动系统，使用智能代理来识别意图、研究账户并与买家互动。使用 OpenAI 的计算机使用工具，Unify 的智能代理可以访问以前通过 API 无法访问的信息——例如，使房地产管理公司能够通过在线地图验证企业是否扩大了其房地产足迹。这项研究作为触发个性化外联的自定义信号——使销售团队能够精确且规模化地与买家互动。

作为另一个例子，Luminai集成了计算机使用工具，为缺乏 API 可用性和标准化数据的传统系统的大型企业自动化复杂的运营工作流程。在最近与一个主要社区服务组织的试点中，Luminai 在短短几天内就实现了申请处理和用户注册流程的自动化——这是传统机器人流程自动化（RPA）在数月努力后仍难以实现的。

在去年通过 Operator 推出 CUA 之前，我们进行了广泛的安全测试和红队测试，解决了三个关键风险领域：滥用、模型错误和前沿风险。为了解决通过 API 中的 CUA 将 Operator 的功能扩展到本地操作系统相关的风险，我们进行了额外的安全评估和红队测试。我们还为开发者添加了缓解措施，包括防止提示注入的安全检查、敏感任务的确认提示、帮助开发者隔离其环境的工具，以及增强对潜在政策违规的检测。虽然这些缓解措施有助于降低风险，但模型仍容易出现无意的错误，特别是在非浏览器环境中。例如，CUA 在 OSWorld（一个旨在衡量 AI 代理在现实世界任务上表现的基准）上的表现目前为 38.1%，表明该模型在自动化操作系统任务方面尚未达到高度可靠。在这些场景中建议进行人工监督。有关我们 API 特定安全工作的更多详细信息可以在我们更新的系统卡片中找到。

基准类型	基准	计算机使用（通用接口）	网络浏览代理	人类

		OpenAI CUA	之前的最高水平	之前的最高水平
计算机使用	OSWorld	38.1%	22.0%	-	72.4%
浏览器使用	WebArena	58.1%	36.2%	57.1%	78.2%
WebVoyager	87.0%	56.0%	87.0%	-

评估详情在这里描述

Agents SDK

除了构建智能代理的核心逻辑并让它们访问工具以使其有用之外，开发者还需要编排智能代理工作流程。我们的新开源 Agents SDK 简化了多代理工作流程的编排，并在我们去年发布的实验性 SDK Swarm 基础上提供了重大改进，该 SDK 被开发者社区广泛采用并成功部署在多个客户中。

改进包括：

智能代理：易于配置的 LLM，具有清晰的指令和内置工具。
交接：智能地在代理之间转移控制。
护栏：可配置的输入和输出验证安全检查。
追踪和可观察性：可视化代理执行追踪以调试和优化性能。

from agents import Agent, Runner, WebSearchTool, function_tool, guardrail

@function_tool
def submit_refund_request(item_id: str, reason: str):
    # 您的退款逻辑在这里
    return "success"

support_agent = Agent(  
    name="支持和退货",  
    instructions="您是一个可以提交退款的支持代理 [...]",  
    tools=[submit_refund_request],  
)

shopping_agent = Agent(  
    name="购物助手",  
    instructions="您是一个可以搜索网络的购物助手 [...]",  
    tools=[WebSearchTool()],  
)

triage_agent = Agent(  
    name="分诊代理",  
    instructions="将用户路由到正确的代理。",  
    handoffs=[shopping_agent, support_agent],  
)

output = Runner.run_sync(  
    starting_agent=triage_agent,  
    input="什么鞋子最适合我目前的服装搭配？",  
)

Agents SDK 适用于各种现实世界应用，包括客户支持自动化、多步骤研究、内容生成、代码审查和销售前景开发。例如，Coinbase 使用 Agents SDK 快速原型设计和部署了 AgentKit，这是一个工具包，使 AI 代理能够与加密钱包和各种链上活动无缝交互。在短短几个小时内，Coinbase 将其开发者平台 SDK 的自定义操作集成到了一个功能完整的代理中。AgentKit 的简化架构简化了添加新代理操作的过程，让开发者能够更多地关注有意义的集成，而不是在复杂的代理设置中导航。

在几天内，Box 能够快速创建利用网络搜索和 Agents SDK 的代理，使企业能够搜索、查询和从存储在 Box 和公共互联网源中的非结构化数据中提取见解。这种方法不仅允许客户访问最新信息，还能以安全和安全的方式搜索其内部专有数据，遵守其内部权限和安全策略。例如，一家金融服务公司可以构建一个自定义代理，调用 Box AI 代理来整合存储在 Box 中的内部市场分析与来自网络的实时新闻和经济数据，为其分析师提供全面的投资决策视图。

视频占位。

Agents SDK 可与 Responses API 和 Chat Completions API 配合使用。该 SDK 还将与其他提供商的模型一起工作，只要它们提供 Chat Completions 风格的 API 端点。开发者可以立即将其集成到他们的 Python 代码库中，Node.js 支持即将推出。在我们的文档中了解更多信息。

在设计 Agents SDK 时，我们的团队受到社区中其他优秀工作的启发，包括 Pydantic、Griffe 和 MkDocs。我们致力于继续将 Agents SDK 构建为一个开源框架，以便社区中的其他人可以扩展我们的方法。

下一步：构建智能代理平台

我们相信智能代理很快将成为劳动力的重要组成部分，显著提高各行业的生产力。随着公司越来越多地寻求利用 AI 处理复杂任务，我们致力于提供构建模块，使开发者和企业能够有效地创建能够产生实际影响的自主系统。

通过今天的发布，我们引入了第一批构建模块，使开发者和企业能够更轻松地构建、部署和扩展可靠、高性能的 AI 智能代理。随着模型能力变得越来越具有代理性，我们将继续投资于我们的 API 之间的更深层次集成，以及新工具来帮助在生产中部署、评估和优化智能代理。我们的目标是为开发者提供无缝的平台体验，用于构建能够帮助处理任何行业各种任务的智能代理。我们很期待看到开发者接下来会构建什么。要开始使用，请浏览我们的文档，并继续关注更多更新。