Notes On Dialogue Agent

  1. Dialogue Agent Workflow 对话 Agent 工作流
  2. Dialogue Agent
  3. Reference

Dialogue Agent Workflow 对话 Agent 工作流

我们先参考下 GPT-5 工作流说明:

GPT-5 is a unified system with a smart and fast model that answers most questions, a deeper reasoning model for harder problems, and a real-time router that quickly decides which model to use based on conversation type, complexity, tool needs, and explicit intent (for example, if you say “think hard about this” in the prompt).

The router is continuously trained on real signals, including when users switch models, preference rates for responses, and measured correctness, improving over time. Once usage limits are reached, a mini version of each model handles remaining queries. In the near future, we plan to integrate these capabilities into a single model.

最简化的单一任务下的 Dialogue Agent 大致可以分为意图识别 + 模型路由 + 工具调用

        ┌────────────────────────────┐
        │ 用户输入                    │
        │ "苹果股票未来3个月的趋势分析"  │
        └──────────────┬─────────────┘
                       │
                       ▼
    ┌─────────────────────────────────────────┐
    │ STEP 1: Fast Intent Recognition         │
    | - 常用轻量模型 bert/gpt-5-mini/internVL   |
    │ - 轻量模型判断输入意图类型:                │
    │   闲聊/任务/ 工具调用 / 代码 / 其他         │
    │ - 可多标签/多意图                         │
    │ 输出:路由标签 + 初步意图预测               │
    └──────────────────┬──────────────────────┘
                       │
                       ▼
       ┌──────────────────────────────────┐
       │ STEP 2: 模型路由 (Model Router)   │
       └───────────────┬──────────────────┘
                       ▼
       ┌───────────────┬────────────────────┐
       │               │                    │
       ▼               ▼                    ▼
[核心 LLM (CoT)]   [专用工具/插件]      [代码生成模型]
- 执行多轮对话     - 翻译/搜索/API调用   - Copilot类任务
- 生成推理链       - 根据路由调用        - 根据路由调用
       │
       ▼
[STEP 3] Function Call / 动作层
- 根据 CoT / Intent 调用 API / 插件 / 外部服务
       │
       ▼
[STEP 4] 响应生成层
- 汇总 CoT reasoning + 执行结果
- 生成自然语言回答给用户

Dialogue Agent

通常用一级+二级意图标签来做分类,如下为一级标签的定义:
一级意图如下

类别名称 定义
知识问答 用户为解决信息差而主动发起查询行为,旨在获取特定领域知识、事实或操作指导,涵盖专业领域到日常兴趣,只要构成有效搜索查询、有检索价值即归于此。
文本创作 用户请求模型生成或加工各类文本内容的意图,是内容生产核心,下设创意写作、正式文稿、社交文案、文本优化四个二级类别。
视频创作 用户明确表达生成一部完整视频成品的需求,仅咨询拍摄、剪辑等局部技术环节的归为知识问答。
音乐创作 用户明确提出生成或定制全新音乐作品的需求,例如作曲、作词或编曲。
图片理解 用户通过上传或拍摄图片,希望模型对图像内容进行分析并解决相关问题,下设“拍题答疑”二级类别,专为教育场景设计。
图片创作 用户通过文本指令,要求模型生成一张符合描述的全新图片。
翻译 用户明确请求将文本内容从一种语言转换为另一种语言。
闲聊 用户发起的以情感交流、社交互动或娱乐为目的的非任务型对话,主题开放、无具体目标,核心在于维持对话氛围。
数学 通过对数学相关的概念、定理、公式等知识进行学习理解,并基于此对数学问题进行分析、求解、计算的过程。
问答答疑 用户提供具有明确“问题-答案”结构的题目,期望模型直接给出标准答案或详细解析,包括选择题、判断题及分析代码、文章等复杂任务。
意图不明 因用户信息不足、表达混乱或过于模糊,导致系统在当前上下文无法推断其具体需求,也无法归入任何其他明确类别的消息。

Reference

[1]. GPT-5 System Card.


转载请注明来源 goldandrabbit.github.io