AIエージェント設計実践

目的・責務・入出力を最初に固める

ペルソナと責務のピン留め

まず「誰の、どの瞬間の負」を片づけるのかを一文で言えるまで削ります。例：社内ヘルプデスクの一次切り分け、見積書のドラフト生成、問い合わせメールの要約＋優先度付けなど。ここで決まるのはエージェントの意思決定範囲（やる／やらない）です。雑務を全部やるではなく、入力条件と成功の定義を明文化します。

入出力契約とSLO

曖昧な「いい感じの回答」は事故の温床です。入出力フォーマット、必須フィールド、禁止事項、SLOを仕様化します。

入力: {カテゴリ, 参考URL, 添付ID} を必須。日本語のみ受理。
出力: {要約(300字以内), 根拠URL配列, 次のアクション} をJSONで返す。
SLO: 一次応答5秒以内、正答率80%以上、1リクエストあたり$0.02以内。

データ境界と権限

人の役割に合わせて閲覧・操作可能な情報を制限します。社外公開文書のみで答えるエージェント、社内秘にアクセスできる承認済みエージェントを分離。トークン上限やプロンプトに機微情報を埋め込まない設計も基本です。

思考・RAG・ツールの設計で結果は9割決まる

モデル選択と思考の深さ

生成品質とコスト・遅延の折り合いをつけます。長文要約はClaude、コード操作はChatGPTやCopilot、ウェブ検索＋事実回答はGeminiなど、得意領域で使い分けると結果が安定します。推論を深くする必要があるのは「意思決定」だけで、テンプレ変換や抽出は浅い思考で十分です。

RAGの実装ポイント

分割: 400〜800トークンでチャンク化。見出し境界を優先。
索引: ベクトル＋キーワードのハイブリッド検索を基本。Top-kは3〜5。
プロンプト: 引用元を必ず列挙、引用外の断定はしない、を明文化。
キャッシュ: 質問の正規化（類義語畳み込み）でヒット率を上げる。

ツール呼び出しとガードレール

関数群（検索、DB更新、メール送信など）はスキーマを固定し、サンドボックスで実行。高リスク操作は「提案→人承認→実行」の三段階。失敗時のフォールバック（再試行、別モデル、静的FAQ）は必ず用意します。

身近な企業活用例：EC中小のカスタマー対応エージェント

状況

メール・チャットの一次応答が遅れ、在庫・返品規定の問い合わせが集中。最初はChatGPTに商品DBをRAGでつないだだけのボットを導入。

失敗

分割がページ単位で長すぎ、在庫SKUの取り違えが多発。返信文も「たぶん在庫があります」と曖昧。深夜帯にAPI遅延が重なり、一次応答が15秒超に。NPSが低下し一時停止に。

改善

チャンクをSKU行ごとに再構築、ハイブリッド検索へ。回答は必ずSKUと倉庫IDを引用。
高リスク操作（返金処理、住所変更）は提案止まりにし、オペレーター承認フローを追加。
Geminiで検索要約、Claudeで回答起草に分離。価格計算はルールベースに切り出し。
キャッシュ導入とプロンプト短縮で平均応答5.2秒→2.8秒、コスト30%削減。
監査ログとテンプレ比較の自動評価を毎晩実行し、誤回答を学習用負例として登録。

結果、正答率は68%→89%、一次解決率は45%→72%に。オペレーターは承認と例外処理に集中でき、繁忙期の外注をゼロにできました。

運用・評価・拡張のロードマップ

評価設計

オフライン: 代表100問のゴールデンセットを用意し、正答・引用妥当性・毒性を自動採点。
オンライン: A/Bでプロンプトとモデルを比較。ユーザーの編集率を品質指標にする。
SRE視点: p95レイテンシ、トークン/リクエスト、ツール失敗率をダッシュボード化。

ガバナンスとセキュリティ

PIIの自動マスキング、モデルごとのデータ保持ポリシーの明示、プロンプトのバージョン管理は必須。重大インシデント時は「機能停止→静的回答に切替→影響範囲解析→段階復旧」のランブックで対応します。

拡張パターン

役割分担型マルチエージェント（調査・要約・検証）で品質を底上げ。
人間の作業トレースからツール呼び出しを自動合成し、Copilot風の支援を社内ワークフローへ。
コスト最適化はルーターで軽量モデル優先、難問のみ高性能モデルにエスカレーション。

設計の肝は「責務の狭さ」「入出力の厳格さ」「運用の可視化」に尽きます。ChatGPT、Claude、Gemini、Copilotといった実サービスを適材適所で組み合わせ、データ境界とガードレールを先に決めるとスケールしても壊れません。こうした設計・評価・運用を土台にすると、生成AIプラットフォーム事業としても、モデル選択や観測、権限管理を横断で提供でき、個別のエージェント活用を安全に積み上げていけます。

AIエージェント設計実践

AIエージェント設計実践

目的・責務・入出力を最初に固める

ペルソナと責務のピン留め

入出力契約とSLO

データ境界と権限

思考・RAG・ツールの設計で結果は9割決まる

モデル選択と思考の深さ

RAGの実装ポイント

ツール呼び出しとガードレール

身近な企業活用例：EC中小のカスタマー対応エージェント

状況

失敗

改善

運用・評価・拡張のロードマップ

評価設計

ガバナンスとセキュリティ

拡張パターン

関連記事

分析コスト最適化の方法

年間AI活用総括レポート

API連携による動画基盤拡張

契約更新戦略と継続強化策