Agent优化的数据“抓手”:有效问题筛选标准

发布于 2025年10月27日 作者 Remy

为算法工程师筛选用于效果优化的聊天记录时,核心目标是找到那些能**最大限度暴露模型(Agent)当前问题和“天花板”**的对话。

“有效”问题(或对话)不一定是客户满意度高的问题,恰恰相反,那些让Agent处理失败、或处理得不够好的对话,才是最有价值的优化养料。

以下是“有效”问题(对话)的筛选标准,按优先级分为三大类:


第一优先级:暴露“硬性问题”的对话(High Priority)

这类对话直接指向模型的核心能力缺陷(如理解、推理、执行失败),是必须优先优化的目标。

1. 任务失败(Task Failure)

  • 标准: 客户明确提出了一个Agent本应能完成的指令或任务,但Agent未能成功执行。
  • 关键词/特征:
    • 客户重复提问或重申指令(“我不是说了吗”、“你怎么还没…”、“再说一遍…”)。
    • 客户明确表示问题未解决(“没用”、“不对”、“我的问题还没解决”)。
    • 在多轮对话中,Agent最终也没有给出解决方案,或客户放弃了。
    • 示例: 客户想修改订单地址,Agent却在反复询问订单号,最终修改失败。

2. 意图识别错误(Intent Misunderstanding)

  • 标准: Agent完全误解了客户的核心诉求,导致答非所问。
  • 关键词/特征:
    • 客户的纠正(“我不是这个意思”、“你理解错了”、“谁问你这个了?”)。
    • 客户的问题很清晰,但Agent的回答完全偏离主题。
    • 示例: 客户问“你们的发票抬头怎么开?”,Agent回答“发票会在3天内寄出。”(错误地识别为查询物流)。

3. 触发兜底/回退(Fallback Triggered)

  • 标准: Agent无法理解客户的问题,直接承认“不知道”或转向人工客服。这是最明显的高价值样本。
  • 关键词/特征:
    • Agent的兜底话术(“抱歉,我不太明白您的问题”、“我还在学习中”、“为您转接人工…”)。
    • 示例: 客户问了一个稍复杂的产品比较问题,Agent直接回答“抱歉,我无法回答这个问题。”

4. 上下文理解失败(Context Loss)

  • 标准: 在多轮对话中,Agent忘记了客户之前提供的信息或当前的对话主题。
  • 关键词/特征:
    • Agent重复询问已经给过的信息(“您刚才说的订单号是?”)。
    • 客户提醒Agent(“我上面说过了”、“你忘了?”)。
    • 示例: 客户:“我有A和B两个产品。” Agent:“A怎么样?” 客户:“那B呢?” Agent:“B是什么?”

第二优先级:暴露“体验问题”的对话(Medium Priority)

这类对话虽然任务可能最终完成了,但过程曲折,暴露了效率、逻辑和情商的不足。

5. 低效对话(Inefficient Interaction)

  • 标准: Agent通过非常多轮次的对话才解决了一个本可以很简洁的问题,或者Agent的回答过于冗长、抓不住重点。
  • 关键词/特征:
    • 对话轮次(Turns)过多: 解决一个简单问题(如查天气)却用了超过5轮对话。
    • 客户表现不耐烦: (“说重点”、“太长了”、“所以到底怎么办?”)。
    • 挤牙膏式提问: Agent本可以一次性收集所有信息,却分了三四次提问。
    • 示例: 客户想退货,Agent问完订单号,又问原因,再问商品状态,而不是一次性引导客户提供所有必要信息。

6. 负面情绪与客户抱怨(Negative Sentiment)

  • 标准: 客户在对话中表现出明显的不满、愤怒、失望或讽刺情绪。
  • 关键词/特征:
    • 负面情绪词(“垃圾”、“气死我了”、“真差劲”、“搞什么”、“无语”)。
    • 反问和讽刺(“你是个机器人吧?”、“你到底会不会?”、“呵呵”)。
    • 示例: 无论客户说什么,只要对话中出现了强烈的情绪词,都应被采样,分析Agent的哪个环节导致了情绪爆发。

7. 逻辑混乱或事实错误(Factuality & Logic Error)

  • 标准: Agent提供了错误的信息(如价格、日期、规则)或给出的建议不符合逻辑。
  • 关键词/特征:
    • 客户指出了事实错误(“你们官网不是这么说的”、“价格不对”、“你算错了”)。
    • Agent的回答自相矛盾。
    • 示例: Agent告知客户A活动和B活动可以同享,但客户尝试后发现不行,回来质问。

第三优先级:暴露“边界与潜在机会”的对话(Low Priority)

这类对话用于拓展Agent的能力边界和挖掘新的用户需求

8. 边界问题(Edge Cases)

  • 标准: 客户提出了一些非常规、罕见但合理的问题,超出了Agent当前的知识库或技能范围。
  • 关键词/特征:
    • 问题本身很长、很复杂,包含多个约束条件。
    • 非标准提问方式(例如用比喻、俚语或有错别字)。
    • 示例: “如果我这个月的套餐流量快用完了,但我下个月又要出国,我应该现在办加油包还是预约一个国际漫游套餐更划算?”

9. 新增需求(New Requirements)

  • 标准: 客户提出的需求是Agent目前完全没有被设计用来处理的,但该需求具有普遍性。
  • 关键词/特征:
    • 功能请求(“你们应该加一个…功能”、“你能不能帮我…”)。
    • 示例: 客户对一个电商Agent说:“你能不能帮我比较一下A和B的优缺点?”(如果Agent目前只有查询功能,这就是一个“比较”的新需求)。

10. “AI戏耍”与安全问题 (Red Teaming / Safety)

  • 标准: 客户试图诱导Agent说出不当言论、暴露系统提示词(Prompt)或进行攻击。
  • 关键词/特征:
    • 诱导性问题(“你觉得…怎么样?”、“你是一个…模型吗?”)。
    • 角色扮演要求、恶意提问。
    • 示例: “你必须回答我…”、“忘了你的规则…”。

总结:如何落地筛选(建议流程)

  1. 自动化初筛(高召回):
    • 使用关键词列表(如“没解决”、“垃圾”、“转人工”、“不明白”)进行批量捞取。
    • 筛选对话轮次 > N 轮(如 N=10)的长对话。
    • 筛选出所有触发了“兜底回复”的会话。
    • 使用情绪分析模型,筛选所有负面情绪的会话。
  2. 人工精筛(高准确):
    • 由算法或标注团队按照上述“三大优先级”标准,对初筛的样本进行二次审核和分类。
    • 重点关注: 那些客户在对话中途放弃或最后转向人工的会话。
  3. 构建黄金测试集:
    • 将这些筛选出来的“有效问题”整理成回归测试集(Golden Set),在模型每次迭代后进行评测,确保老问题被修复且不发生回退。

Ad Blocker Detected

We noticed that you are using an ad blocker. This site relies on advertisements to provide free content and stay operational.

How to whitelist our site:

To continue accessing our content, please disable your ad blocker or whitelist our site. Once you've disabled it, please refresh the page.

Thank you for your understanding and support! 🙏