生成AIセキュリティ対策の実務

2026.04.28
生成AIセキュリティ対策の実務

生成AIセキュリティ対策の実務

まず押さえるべき脅威モデルと優先順位

生成AIの事故は「抽象的なAIリスク」より、具体のデータ流通で起きます。最初に攻撃面を列挙し、影響×発生可能性×可観測性で粗く採点し、上位から潰します。典型は次の5つです。

  • 機密データの外部送信(誤投入、ログ/学習への二次利用)
  • プロンプトインジェクション/検索汚染(RAGで外部/悪性文書に引きずられる)
  • ツール呼び出しの誤作動(外部API/DBに不正クエリ)
  • 生成物の誤用(コード脆弱性/事実誤認/コンプラ逸脱)
  • サプライチェーン(モデル更新、依存OSS、拡張機能)

初期フェーズの優先は「外部送信」と「インジェクション/ツール誤作動」です。理由は影響が大きく、対策が比較的シンプルだからです。次いで生成物とサプライチェーンを運用で締めていきます。

設計で漏れない・暴れないを作る

データ取り扱いの原則

  • デフォルト外部送信禁止:モデルはサーバーサイドのプロキシからのみ呼び出し、直接Web UI使用は高リスク用途で禁止。必要ならChatGPT/Claude/GeminiのAPIに限定します。
  • 最小化とマスキング:送信前にPII/秘匿値をトークン化。顧客名/メール/ID/金額などは形式保存しつつ擬似化。追跡用に元値ハッシュを別途保管します。
  • 保管と鍵:プロンプト/出力は暗号化して保存し、BYOKで鍵を分離。再学習に使わない設定をベンダー側で確認します。

プロンプトインジェクション/ツール誤作動の抑制

  • コンテキスト衛生:RAG文書はHTML除去、スクリプト/リンクを正規化、外部命令句(「無視して…」)を検出・破棄。信頼ソース以外は埋め込まない。
  • 意図のサンドボックス化:ツール実行層はLLMから直接叩かせず、許可制ブローカーで「動詞・対象・範囲」を検証。SQLは静的解析、上限行数、読み取り専用から始めます。
  • ネットワーク制御:外向きはドメインAllowlist。社内APIはmTLS、スコープ付きトークン、レート制限。
  • プロンプトの構造化:テンプレートをリポジトリ管理し、システム/タスク/制約/出力スキーマを分離。出力はJSON Schema検証で崩れを検知。

アクセスとロール

  • SSO+RBAC+行単位のデータフィルタ。部署/案件/地域でスコープを切る。
  • 人の関与:高リスク(社外送付、法務・財務)は二人承認やヒト検証を挟む。
  • モデル抽象化:用途ごとにプロファイル(温度/最大トークン/コスト上限)を定義し、ChatGPT/Claude/Geminiを切替可能に。更新時の影響半径を局所化します。

運用で守る:ログ、検知、評価の型

  • 監査ログ:入力/出力/コンテキストのハッシュ、呼び出し元、モデル版、コスト、ツール実行結果を記録。本文は最小限(機微はトークン化)で180日保持。
  • DLPと検知:送信前スキャンでPII/社内分類ラベルを検出。プロンプト注入シグネチャ、外部リンク混入、拒否応答の急増をアラート。
  • 自動評価(Evals):社内ドメインの正確性、禁則ワード、注入耐性を毎ビルドで回す。週次でモデル更新のリグレッションを可視化。
  • ガードレール:モデレーションAPIやルールベース判定で踏み絵を設置。危険度に応じて「遮断/要承認/要注意」へルーティング。
  • コストとSLA:リクエスト上限、同時実行数、タイムアウト/フォールバック(例:Claude失敗時にChatGPTへ)を定義。重大用途は冗長化。

サプライチェーンは「更新前の検証」が肝です。モデル/ライブラリ/埋め込み器のバージョン固定、ステージング評価、段階的リリース、即時ロールバック手順を用意します。Copilotのような開発支援も、リポジトリとブランチで作用範囲を限定し、秘密情報のサジェストを監査します。

身近な企業活用例:中堅ECの失敗から改善まで

マーケが口コミ要約にChatGPTのWeb UIを使い始め、顧客メール本文をそのまま貼り付けていたことが後から判明。加えてFAQ生成で外部ブログをRAGに混ぜ、プロンプトインジェクションで在庫APIのテストキーが不正呼び出しされ、レート制限に引っかかる事象が発生しました。

改善では、まずAPI経由の社内プロキシに切替。入力はPIIマスキング、出力はJSON Schemaで型検証。RAGは社内ナレッジのみを対象にし、HTMLとリンクを正規化、外部命令句をフィルタ。ツール実行はブローカーで読み取り専用に限定し、在庫APIはAllowlistとmTLSを導入。SSO+RBACでマーケは要約プロファイルのみ、CSは回答ドラフトのみと権限を分離しました。モデルは要約をClaude、分類はGemini、汎用はChatGPTと使い分け、障害時は自動フォールバック。ログは機微をトークン化し、拒否率や注入検知をダッシュボード化。結果として、漏えい疑義ゼロ、回答精度+11%、月額コスト▲18%を達成しました。

実務に落とすチェックリスト(着手順)

  1. 使用禁止データの明文化(例:未公表財務、顧客生データ、ソースコード秘密)とUI/プロキシ強制
  2. 送信前マスキングとDLP、外部送信のAllowlist
  3. RAG前処理(HTML除去、命令句フィルタ)とツール実行ブローカー
  4. SSO/RBACとプロファイル(温度/コスト/タイムアウト)設定
  5. 監査ログ、評価セット、段階的リリースとロールバック手順

生成AIは速く広がる分、設計と運用の「型」を先に用意した組織が事故を回避し、学習速度で差をつけます。生成AIプラットフォーム事業では、この型をプロダクトとして提供する責務があります。複数モデル(ChatGPT/Claude/Gemini)の抽象化、統一ポリシーと監査、データ最小化と鍵管理、評価の自動化までを土台として備えることで、各事業部は安心してユースケース拡張に集中できます。