生成AIとAPIコスト最適化

2026.04.28
生成AIとAPIコスト最適化

生成AIとAPIコスト最適化

プロダクトに生成AIを組み込むと、最初に驚くのは「使われるほど料金が跳ねる」ことです。単価が安いモデルを選んでも、プロンプトが太り、失敗リトライが重なり、RAGで長文を食べさせると、月末の請求書は簡単に想定の数倍になります。コストは“後付け”では最適化できません。設計段階から、測り、削り、切り替える仕組みを入れることが肝です。

コスト構造を分解する:トークン、モデル、呼び出しパターン

トークン経済の式を明確にする

基本式は「総コスト = リクエスト数 × (入力トークン × 入力単価 + 出力トークン × 出力単価)」。まず1フローあたりの平均入力/出力トークンを実測し、最大値・95%値も押さえます。システムプロンプトやFew-shotの例は恒常的な“固定費”です。禁止語辞書や行動規範を毎回丸ごと入れるのは避け、ID化や短文化で圧縮します。

モデル選択は「深さの要否」で決める

ChatGPT、Claude、Geminiの上位モデルは長文推論や厳密なフォーマットに強い一方、単価が上がります。論述やツール呼び出しが不要な場面は、軽量モデルへルーティング。温度やtop-pは品質に効きますが単価には直結しません。一方でmax_tokensやツールの引数スキーマの長さは直撃します。JSONスキーマは必要最小限に。

呼び出しパターンを設計する

逐語要約や段落ごとの校正は「バッチ化」で大幅に削減できます。ストリーミングはUX改善のために有効ですが、サーバ側のリトライ条件が緩いと二重課金につながります。超過防止には「1セッション上限トークン」「1ユーザー/日あたり予算」「フォールバック回数上限」を実装します。

いますぐ効く最適化チェックリスト

プロンプトとコンテキストのダイエット

  • 長文の行動規範は要点の箇条書きに置換(同義反復を削除)。
  • Few-shotは1例に圧縮し、失敗パターンではなく成功パターンのみ提示。
  • RAGのコンテキストは最大3〜5チャンクに制限し、先に再ランキングで圧縮。
  • 改行・不要装飾・法的免責の定型はハッシュでキャッシュし、差分だけ送る。

モデルルーティングとフォールバック

  • “難易度スコア”でルーティング:短文Q&Aやタグ抽出は軽量、規約準拠チェックは上位。
  • 厳密なJSON出力は「構造化出力API」や関数呼び出しを優先し、再生成を避ける。
  • 品質検査は小型モデル→閾値未達のみ上位モデルで再判定(2段階推論)。
  • 失敗リトライは最大2回まで。再プロンプトは差分指定(指示追加のみ)。

キャッシュとバッチ

  • プロンプト+ユーザー設定のハッシュでレスポンスキャッシュ。時間減衰を設ける。
  • セマンティックキャッシュ:類似度が高い過去応答を再利用(埋め込みコストと比較)。
  • 5〜20件の要約や分類は1リクエストで一括処理し、見出し単位に分割出力。

RAGと埋め込みのコスト設計

埋め込み単価と閾値設計

RAGは「検索が安く、生成が高い」前提で設計します。埋め込み生成は一度きりですが、ドキュメントの更新頻度が高い場合は差分更新とスケジュールを用意。検索側はトップKを上げるほどLLMに渡るトークンが増えます。まずK=8→再ランキングでK=3に絞る二段階が現実的です。高頻度クエリはクエリ自体の埋め込みをキャッシュし、しきい値以下の追加ヒットは破棄します。

チャンクと再ランキングで“無駄話”を削る

チャンクは長すぎると生成側の入力課金が膨らみ、短すぎるとヒット率が落ちます。目安は400〜800トークン、重複は10〜15%。回答前に小型モデルで「要約→核要点抽出」を行い、LLMへは要点+出典のみを渡すと、出力トークンも縮みます。画像生成(MidjourneyやStable Diffusion)のプロンプトは短くても問題ありませんが、テキスト→画像→再説明の多段はコストが跳ねるため、必要出力だけに限定します。

身近な企業活用例:EC中堅の失敗と改善

商品Q&A自動回答に生成AIを導入。初月、ChatGPT上位モデルを固定で使用し、商品説明全文(平均2,500トークン)を毎回コンテキスト投入。さらに否定表現を避ける長文ポリシーを都度付与し、失敗時は最大5回リトライ。結果、1件あたり平均入力3,800トークン・出力900トークン、1日3,000件で月次コストは想定の3.2倍に膨張しました。回答速度も遅く、顧客満足度が下落。

改善では、まずポリシーを200トークンの箇条書きに圧縮し、FAQと取説をRAG化。トップK=12→軽量モデルで再ランキング→K=3のみを上位モデルへ。Q&Aの難易度をスコアリングし、在庫・配送など定型は軽量モデルで即時回答、素材安全性など曖昧質問だけを上位モデルへルーティング。失敗リトライは2回に制限し、差分指示で再実行。さらに高頻度質問はセマンティックキャッシュを導入。結果、1件あたり入力は1,100トークン、出力は600トークンに。上位モデルの使用比率は35%まで低下し、月次コストは58%削減、初回回答までの中央値は3.8秒→1.9秒に改善しました。品質は人手評価でA評価比率が62%→74%へ。

運用ガバナンスと可視化が最終兵器

ダッシュボードで「機能別・ユーザー別・テナント別」のトークン消費を可視化し、予算しきい値で自動的に軽量モデルへフォールバックする仕組みを入れると、暴走を防げます。A/Bテストは“同一質問セット・同一RAG設定・モデルだけ変更”の統制で測定。プロンプトはGitでバージョン管理し、変更が単価と品質に与える影響をリリースノートに残します。ログは個人情報をマスキングし、CopilotやClaudeなど他サービスへの再送信を避けるデータ境界も重要です。最後に、価格は変動します。GeminiやClaudeの新バージョンが出るたびに小規模ベンチを自動実行し、閾値に達したらルーティング表を更新できる仕組みを“プラットフォーム側”に持たせるのが安全です。

生成AIプラットフォーム事業としては、モデルルーティング、プロンプト圧縮、RAG最適化、メータリング/課金連携を土台に、プロダクトチームが安心して“使われるほど最適化される”体験を提供することが求められます。技術と運用を一体で設計することで、コストはコントロール可能な変数に変わります。