Agent优化的数据“抓手”:有效问题筛选标准

✍️ 作者: Remy

为算法工程师筛选用于效果优化的聊天记录时,核心目标是找到那些能**最大限度暴露模型(Agent)当前问题和“天花板”**的对话。

“有效”问题(或对话)不一定是客户满意度高的问题,恰恰相反,那些让Agent处理失败、或处理得不够好的对话,才是最有价值的优化养料。

以下是“有效”问题(对话)的筛选标准,按优先级分为三大类:


第一优先级:暴露“硬性问题”的对话(High Priority)

这类对话直接指向模型的核心能力缺陷(如理解、推理、执行失败),是必须优先优化的目标。

1. 任务失败(Task Failure)

  • 标准: 客户明确提出了一个Agent本应能完成的指令或任务,但Agent未能成功执行。
  • 关键词/特征:
    • 客户重复提问或重申指令(“我不是说了吗”、“你怎么还没…”、“再说一遍…”)。
    • 客户明确表示问题未解决(“没用”、“不对”、“我的问题还没解决”)。
    • 在多轮对话中,Agent最终也没有给出解决方案,或客户放弃了。
    • 示例: 客户想修改订单地址,Agent却在反复询问订单号,最终修改失败。

2. 意图识别错误(Intent Misunderstanding)

  • 标准: Agent完全误解了客户的核心诉求,导致答非所问。
  • 关键词/特征:
    • 客户的纠正(“我不是这个意思”、“你理解错了”、“谁问你这个了?”)。
    • 客户的问题很清晰,但Agent的回答完全偏离主题。
    • 示例: 客户问“你们的发票抬头怎么开?”,Agent回答“发票会在3天内寄出。”(错误地识别为查询物流)。

3. 触发兜底/回退(Fallback Triggered)

  • 标准: Agent无法理解客户的问题,直接承认“不知道”或转向人工客服。这是最明显的高价值样本。
  • 关键词/特征:
    • Agent的兜底话术(“抱歉,我不太明白您的问题”、“我还在学习中”、“为您转接人工…”)。
    • 示例: 客户问了一个稍复杂的产品比较问题,Agent直接回答“抱歉,我无法回答这个问题。”

4. 上下文理解失败(Context Loss)

  • 标准: 在多轮对话中,Agent忘记了客户之前提供的信息或当前的对话主题。
  • 关键词/特征:
    • Agent重复询问已经给过的信息(“您刚才说的订单号是?”)。
    • 客户提醒Agent(“我上面说过了”、“你忘了?”)。
    • 示例: 客户:“我有A和B两个产品。” Agent:“A怎么样?” 客户:“那B呢?” Agent:“B是什么?”

第二优先级:暴露“体验问题”的对话(Medium Priority)

这类对话虽然任务可能最终完成了,但过程曲折,暴露了效率、逻辑和情商的不足。

5. 低效对话(Inefficient Interaction)

  • 标准: Agent通过非常多轮次的对话才解决了一个本可以很简洁的问题,或者Agent的回答过于冗长、抓不住重点。
  • 关键词/特征:
    • 对话轮次(Turns)过多: 解决一个简单问题(如查天气)却用了超过5轮对话。
    • 客户表现不耐烦: (“说重点”、“太长了”、“所以到底怎么办?”)。
    • 挤牙膏式提问: Agent本可以一次性收集所有信息,却分了三四次提问。
    • 示例: 客户想退货,Agent问完订单号,又问原因,再问商品状态,而不是一次性引导客户提供所有必要信息。

6. 负面情绪与客户抱怨(Negative Sentiment)

  • 标准: 客户在对话中表现出明显的不满、愤怒、失望或讽刺情绪。
  • 关键词/特征:
    • 负面情绪词(“垃圾”、“气死我了”、“真差劲”、“搞什么”、“无语”)。
    • 反问和讽刺(“你是个机器人吧?”、“你到底会不会?”、“呵呵”)。
    • 示例: 无论客户说什么,只要对话中出现了强烈的情绪词,都应被采样,分析Agent的哪个环节导致了情绪爆发。

7. 逻辑混乱或事实错误(Factuality & Logic Error)

  • 标准: Agent提供了错误的信息(如价格、日期、规则)或给出的建议不符合逻辑。
  • 关键词/特征:
    • 客户指出了事实错误(“你们官网不是这么说的”、“价格不对”、“你算错了”)。
    • Agent的回答自相矛盾。
    • 示例: Agent告知客户A活动和B活动可以同享,但客户尝试后发现不行,回来质问。

第三优先级:暴露“边界与潜在机会”的对话(Low Priority)

这类对话用于拓展Agent的能力边界和挖掘新的用户需求

8. 边界问题(Edge Cases)

  • 标准: 客户提出了一些非常规、罕见但合理的问题,超出了Agent当前的知识库或技能范围。
  • 关键词/特征:
    • 问题本身很长、很复杂,包含多个约束条件。
    • 非标准提问方式(例如用比喻、俚语或有错别字)。
    • 示例: “如果我这个月的套餐流量快用完了,但我下个月又要出国,我应该现在办加油包还是预约一个国际漫游套餐更划算?”

9. 新增需求(New Requirements)

  • 标准: 客户提出的需求是Agent目前完全没有被设计用来处理的,但该需求具有普遍性。
  • 关键词/特征:
    • 功能请求(“你们应该加一个…功能”、“你能不能帮我…”)。
    • 示例: 客户对一个电商Agent说:“你能不能帮我比较一下A和B的优缺点?”(如果Agent目前只有查询功能,这就是一个“比较”的新需求)。

10. “AI戏耍”与安全问题 (Red Teaming / Safety)

  • 标准: 客户试图诱导Agent说出不当言论、暴露系统提示词(Prompt)或进行攻击。
  • 关键词/特征:
    • 诱导性问题(“你觉得…怎么样?”、“你是一个…模型吗?”)。
    • 角色扮演要求、恶意提问。
    • 示例: “你必须回答我…”、“忘了你的规则…”。

总结:如何落地筛选(建议流程)

  1. 自动化初筛(高召回):
    • 使用关键词列表(如“没解决”、“垃圾”、“转人工”、“不明白”)进行批量捞取。
    • 筛选对话轮次 > N 轮(如 N=10)的长对话。
    • 筛选出所有触发了“兜底回复”的会话。
    • 使用情绪分析模型,筛选所有负面情绪的会话。
  2. 人工精筛(高准确):
    • 由算法或标注团队按照上述“三大优先级”标准,对初筛的样本进行二次审核和分类。
    • 重点关注: 那些客户在对话中途放弃或最后转向人工的会话。
  3. 构建黄金测试集:
    • 将这些筛选出来的“有效问题”整理成回归测试集(Golden Set),在模型每次迭代后进行评测,确保老问题被修复且不发生回退。