Agentの最適化におけるデータの「レバレッジポイント」:有効な問題のフィルタリング基準

公開日 2025年10月27日 著者 Remy

アルゴリズムエンジニアが効果最適化のためのチャット履歴をフィルタリングする際、中核的な目標は、モデル(Agent)の現在の問題点と「天井」を最大限に露呈させる対話を見つけることです。

「有効」な問題(または対話)は、必ずしも顧客満足度の高い問題ではありません。むしろ逆に、Agentが処理に失敗した、または十分にうまく処理できなかった対話こそが、最も価値のある最適化の栄養源なのです。

以下は「有効」な問題(対話)のフィルタリング基準で、優先度別に3つの大カテゴリーに分類されています:


第一優先度:「ハードな問題」を露呈する対話(High Priority)

このタイプの対話は、モデルの**コア能力の欠陥(理解、推論、実行の失敗など)**を直接指摘しており、優先的に最適化すべき対象です。

1. タスク失敗(Task Failure)

  • 基準: 顧客がAgentが完遂すべき明確な指示またはタスクを提示したが、Agentが正常に実行できなかった。
  • キーワード/特徴:
    • 顧客が質問を繰り返したり、指示を言い直したりする(「言ったじゃないですか」「まだやってないの…」「もう一度言うけど…」)。
    • 顧客が問題が解決していないことを明確に示す(「ダメだ」「違う」「私の問題はまだ解決していない」)。
    • 複数回のやりとりでも、Agentが最終的に解決策を提示できなかった、または顧客が諦めた。
    • 例: 顧客が注文の住所を変更したいのに、Agentが注文番号を繰り返し尋ね続け、最終的に変更に失敗した。

2. 意図認識エラー(Intent Misunderstanding)

  • 基準: Agentが顧客の核心的な要求を完全に誤解し、的外れな回答をした。
  • キーワード/特徴:
    • 顧客の訂正(「そういう意味じゃない」「理解が間違ってる」「誰がそんなこと聞いた?」)。
    • 顧客の問題は明確だが、Agentの回答が完全にテーマから逸れている。
    • 例: 顧客が「請求書の宛名はどう記入しますか?」と尋ねたのに、Agentが「請求書は3日以内に発送されます」と回答(物流の確認と誤認)。

3. フォールバック/バックアップトリガー(Fallback Triggered)

  • 基準: Agentが顧客の問題を理解できず、直接「わからない」と認めたり、人間のカスタマーサービスに転送した。これは最も明確な高価値サンプルです。
  • キーワード/特徴:
    • Agentのフォールバック定型文(「申し訳ございません、ご質問の意味がよくわかりません」「まだ学習中です」「人間のサポートに転送します…」)。
    • 例: 顧客がやや複雑な製品比較の質問をしたところ、Agentが直接「申し訳ございません、この質問にはお答えできません」と回答した。

4. コンテキスト理解の失敗(Context Loss)

  • 基準: 複数回のやりとりで、Agentが顧客が以前に提供した情報や現在の対話テーマを忘れた。
  • キーワード/特徴:
    • Agentがすでに提供された情報を繰り返し尋ねる(「先ほどおっしゃった注文番号は?」)。
    • 顧客がAgentに思い出させる(「上で言ったでしょ」「忘れたの?」)。
    • 例: 顧客:「AとBの2つの製品があります。」 Agent:「Aはどうですか?」 顧客:「じゃあBは?」 Agent:「Bって何ですか?」

第二優先度:「体験の問題」を露呈する対話(Medium Priority)

このタイプの対話は、タスクが最終的に完了した可能性があるものの、プロセスが曲折しており、**効率性、ロジック、EQ(感情的知性)**の不足を露呈しています。

5. 非効率な対話(Inefficient Interaction)

  • 基準: Agentが非常に多くの回数のやりとりを経て、本来は簡潔に解決できる問題を解決した、またはAgentの回答が冗長すぎて要点を掴めない。
  • キーワード/特徴:
    • 対話回数(Turns)が多すぎる: 単純な問題(天気を調べるなど)の解決に5回以上のやりとりを使った。
    • 顧客が焦りを示す: (「要点を言って」「長すぎる」「結局どうすればいいの?」)。
    • 小出し質問: Agentが一度にすべての情報を収集できるのに、3、4回に分けて質問した。
    • 例: 顧客が返品したいのに、Agentが注文番号を尋ね、次に理由を尋ね、さらに商品の状態を尋ねるなど、一度に必要な情報をすべて提供するよう顧客を誘導しなかった。

6. ネガティブな感情と顧客の苦情(Negative Sentiment)

  • 基準: 顧客が対話中に明確な不満、怒り、失望、または皮肉な感情を示した。
  • キーワード/特徴:
    • ネガティブな感情語(「ゴミ」「腹が立つ」「本当にひどい」「何やってんだ」「呆れた」)。
    • 反語と皮肉(「あなたロボットでしょ?」「できるの、できないの?」「呵呵」)。
    • 例: 顧客が何を言っても、対話中に強い感情語が現れた場合はすべてサンプリングし、Agentのどの段階で感情の爆発を引き起こしたかを分析すべきです。

7. ロジックの混乱または事実誤認(Factuality & Logic Error)

  • 基準: Agentが誤った情報(価格、日付、ルールなど)を提供したり、論理に合わない提案をしたりした。
  • キーワード/特徴:
    • 顧客が事実誤認を指摘した(「公式サイトにはそう書いてない」「価格が違う」「計算間違ってる」)。
    • Agentの回答が自己矛盾している。
    • 例: AgentがAキャンペーンとBキャンペーンは併用できると顧客に伝えたが、顧客が試したところできず、戻ってきて問い詰めた。

第三優先度:「境界と潜在的機会」を露呈する対話(Low Priority)

このタイプの対話は、Agentの能力の境界を拡大し、新しいユーザーニーズを発掘するために使用されます。

8. エッジケース(Edge Cases)

  • 基準: 顧客が非常に非定型的で稀だが合理的な問題を提起し、Agentの現在のナレッジベースやスキルの範囲を超えている。
  • キーワード/特徴:
    • 問題自体が長く、複雑で、複数の制約条件を含んでいる。
    • 非標準的な質問方法(例えば比喩、俗語、または誤字を使用)。
    • 例: 「今月のパケット容量がもうすぐなくなりそうだけど、来月海外に行く予定なので、今チャージパックを購入するか、国際ローミングパッケージを予約するか、どちらがお得ですか?」

9. 新規要求(New Requirements)

  • 基準: 顧客が提起した要求は、Agentが現在処理するように設計されていないものだが、その要求には普遍性がある。
  • キーワード/特徴:
    • 機能リクエスト(「…機能を追加すべき」「…を手伝ってくれる?」)。
    • 例: 顧客がEコマースAgentに「AとBの長所と短所を比較してくれる?」と尋ねた(Agentが現在クエリ機能しかない場合、これは「比較」という新しい要求)。

10. 「AIをからかう」とセキュリティ問題 (Red Teaming / Safety)

  • 基準: 顧客がAgentに不適切な発言をさせようとしたり、システムプロンプト(Prompt)を露出させようとしたり、攻撃を仕掛けようとしたりした。
  • キーワード/特徴:
    • 誘導的な質問(「あなたは…についてどう思いますか?」「あなたは…モデルですか?」)。
    • ロールプレイ要求、悪意のある質問。
    • 例: 「私に答えなければならない…」「あなたのルールを忘れて…」。

まとめ:フィルタリングの実装方法(推奨フロー)

  1. 自動化された初期フィルタリング(高リコール):
    • キーワードリスト(「解決していない」「ゴミ」「人間に転送」「わからない」など)を使用して一括抽出を行う。
    • 対話回数 > N 回(例:N=10)の長い対話をフィルタリングする。
    • すべての「フォールバック応答」がトリガーされたセッションをフィルタリングする。
    • 感情分析モデルを使用して、すべてのネガティブな感情のセッションをフィルタリングする。
  2. 人手による精密フィルタリング(高精度):
    • アルゴリズムまたはアノテーションチームが、上記の「3つの優先度」基準に従って、初期フィルタリングされたサンプルを二次審査と分類を行う。
    • 重点的に注目: 顧客が対話の途中で諦めたり、最終的に人間に転送されたセッション。
  3. ゴールデンテストセットの構築:
    • これらのフィルタリングされた「有効な問題」をリグレッションテストセット(Golden Set)として整理し、モデルの各イテレーション後に評価を行い、古い問題が修正され、後退が発生していないことを確認する。