
AIエージェント設計実践
目的・責務・入出力を最初に固める
ペルソナと責務のピン留め
まず「誰の、どの瞬間の負」を片づけるのかを一文で言えるまで削ります。例:社内ヘルプデスクの一次切り分け、見積書のドラフト生成、問い合わせメールの要約+優先度付けなど。ここで決まるのはエージェントの意思決定範囲(やる/やらない)です。雑務を全部やるではなく、入力条件と成功の定義を明文化します。
入出力契約とSLO
曖昧な「いい感じの回答」は事故の温床です。入出力フォーマット、必須フィールド、禁止事項、SLOを仕様化します。
- 入力: {カテゴリ, 参考URL, 添付ID} を必須。日本語のみ受理。
- 出力: {要約(300字以内), 根拠URL配列, 次のアクション} をJSONで返す。
- SLO: 一次応答5秒以内、正答率80%以上、1リクエストあたり$0.02以内。
データ境界と権限
人の役割に合わせて閲覧・操作可能な情報を制限します。社外公開文書のみで答えるエージェント、社内秘にアクセスできる承認済みエージェントを分離。トークン上限やプロンプトに機微情報を埋め込まない設計も基本です。
思考・RAG・ツールの設計で結果は9割決まる
モデル選択と思考の深さ
生成品質とコスト・遅延の折り合いをつけます。長文要約はClaude、コード操作はChatGPTやCopilot、ウェブ検索+事実回答はGeminiなど、得意領域で使い分けると結果が安定します。推論を深くする必要があるのは「意思決定」だけで、テンプレ変換や抽出は浅い思考で十分です。
RAGの実装ポイント
- 分割: 400〜800トークンでチャンク化。見出し境界を優先。
- 索引: ベクトル+キーワードのハイブリッド検索を基本。Top-kは3〜5。
- プロンプト: 引用元を必ず列挙、引用外の断定はしない、を明文化。
- キャッシュ: 質問の正規化(類義語畳み込み)でヒット率を上げる。
ツール呼び出しとガードレール
関数群(検索、DB更新、メール送信など)はスキーマを固定し、サンドボックスで実行。高リスク操作は「提案→人承認→実行」の三段階。失敗時のフォールバック(再試行、別モデル、静的FAQ)は必ず用意します。
身近な企業活用例:EC中小のカスタマー対応エージェント
状況
メール・チャットの一次応答が遅れ、在庫・返品規定の問い合わせが集中。最初はChatGPTに商品DBをRAGでつないだだけのボットを導入。
失敗
分割がページ単位で長すぎ、在庫SKUの取り違えが多発。返信文も「たぶん在庫があります」と曖昧。深夜帯にAPI遅延が重なり、一次応答が15秒超に。NPSが低下し一時停止に。
改善
- チャンクをSKU行ごとに再構築、ハイブリッド検索へ。回答は必ずSKUと倉庫IDを引用。
- 高リスク操作(返金処理、住所変更)は提案止まりにし、オペレーター承認フローを追加。
- Geminiで検索要約、Claudeで回答起草に分離。価格計算はルールベースに切り出し。
- キャッシュ導入とプロンプト短縮で平均応答5.2秒→2.8秒、コスト30%削減。
- 監査ログとテンプレ比較の自動評価を毎晩実行し、誤回答を学習用負例として登録。
結果、正答率は68%→89%、一次解決率は45%→72%に。オペレーターは承認と例外処理に集中でき、繁忙期の外注をゼロにできました。
運用・評価・拡張のロードマップ
評価設計
- オフライン: 代表100問のゴールデンセットを用意し、正答・引用妥当性・毒性を自動採点。
- オンライン: A/Bでプロンプトとモデルを比較。ユーザーの編集率を品質指標にする。
- SRE視点: p95レイテンシ、トークン/リクエスト、ツール失敗率をダッシュボード化。
ガバナンスとセキュリティ
PIIの自動マスキング、モデルごとのデータ保持ポリシーの明示、プロンプトのバージョン管理は必須。重大インシデント時は「機能停止→静的回答に切替→影響範囲解析→段階復旧」のランブックで対応します。
拡張パターン
- 役割分担型マルチエージェント(調査・要約・検証)で品質を底上げ。
- 人間の作業トレースからツール呼び出しを自動合成し、Copilot風の支援を社内ワークフローへ。
- コスト最適化はルーターで軽量モデル優先、難問のみ高性能モデルにエスカレーション。
設計の肝は「責務の狭さ」「入出力の厳格さ」「運用の可視化」に尽きます。ChatGPT、Claude、Gemini、Copilotといった実サービスを適材適所で組み合わせ、データ境界とガードレールを先に決めるとスケールしても壊れません。こうした設計・評価・運用を土台にすると、生成AIプラットフォーム事業としても、モデル選択や観測、権限管理を横断で提供でき、個別のエージェント活用を安全に積み上げていけます。