社内AIチャットボット構築方法

2026.04.28
社内AIチャットボット構築方法

社内AIチャットボット構築方法

課題の定義とKPI設計を最初に決める

「社内ボットを入れてみる」では失敗します。まずは対象業務と成功指標を決めます。おすすめは1部門1ユースケースの一点突破です。例えば総務への定型問い合わせ一次対応、営業向け製品仕様検索、開発向けナレッジ検索など。KPIは以下が実務で使いやすいです。

  • 一次解決率(人手介入なしで完了):目標70〜90%
  • 回答所要時間(P95):3秒以内
  • 正答率(事前に用意した評価セットで測定):80%以上
  • 出典表示率:100%(出典なければ回答拒否)
  • 利用率(週1回以上利用するユーザー比率):50%以上

成功しやすいユースケース

  • 規程・福利厚生・手続きのFAQ(文書が整っている)
  • 製品マニュアル・仕様の横断検索(RAGと相性が良い)
  • ヘルプデスクの一次切り分け(チケット連携で効果が出やすい)

逆に、最新の社内事情や未整備のノウハウ依存は初期は避けます。まずは情報の“定常領域”で勝ち筋を作ります。

データ準備と権限設計が7割

精度はモデルの賢さだけでなくデータの品質で決まります。社内のドキュメントを棚卸しし、読み取り可否と鮮度をタグ付けします。PDFはテキスト抽出の品質差が大きいので、表や箇条書きを崩さない抽出器(構造化OCR)を選びます。文書は段落〜小見出し単位でチャンク化し、タイトル、部門、更新日、公開範囲などのメタデータを付与してベクトル化します。

データの種類と更新頻度

  • 変化が少ない:就業規則、固定化した業務手順 → 月次クロールで十分
  • 変化が中程度:製品仕様、価格、販促情報 → 週次更新+改定イベントで即時反映
  • 変化が多い:障害情報、組織変更、アナウンス → Pub/SubやWebhookで即時反映

権限は必ずインデックスとクエリの双方で絞ります。具体的には、ユーザーのグループ情報をトークンに含め、検索時にメタデータフィルタで行レベル制御をかけます。個人情報や原価などの機微は、取得時にマスキングルールで匿名化し、原本へのリンクは監査ログ付きに限定します。

モデル選定とアーキテクチャの要点

ChatGPTやClaude、Geminiは生成品質が高く、社内ボットに向いています。Copilot系はIDE統合が強みですが、社内QA用途ではRAG前提での対話最適化が重要です。選定時は以下を比較します。

  • コンテキスト長とレイテンシ:長文の規程を参照するなら長い方が有利
  • 価格:1ユーザー/日10問・1問4Kトークンで月あたりの上限を試算
  • 安全性:プロンプトガード、拒否戦略、監査APIの有無
  • ツール実行:関数呼び出しでチケット発行や社内検索を組み合わせられるか

最小構成のRAG

  • LLM API(例:ChatGPT/Claude/Gemini)
  • 埋め込みモデル+ベクトルDB(PineconeやElasticのkNN、Weaviate等)
  • 文書クローラ/ETL(SharePoint、Confluence、ファイルサーバ対応)
  • APIゲートウェイ+SSO連携(OpenID Connect)
  • 監査・評価基盤(質問、回答、出典、満足度、コストのログ)

回答は「検索→根拠抽出→要約→出典を強制表示→足りなければ追加検索」をパイプライン化します。出典がゼロなら「分かりません」と明確に返し、類似FAQや担当窓口を提案します。

構築手順と運用で効かせるポイント

  1. 2週間PoC:トップ10の質問で正答率/出典率/レイテンシを計測。改善が鈍い箇所はデータ起因かプロンプト起因かを切り分けます。
  2. パイロット展開(1部門/30〜50名):週次で評価セットを更新し、業務フローに組み込めるUI(Slack/Teams、ポータル)を用意。
  3. 本番:権限連携、監査ログ、コンプライアンスレビューを整備。運用SLO(P95 3秒、稼働99.9%)を設定。
  4. 継続改善:プロンプトのバージョン管理、A/Bテスト、ハルシネーション事例の再学習。回答の最終文に必ず根拠リンクを残すテンプレを固定。

身近な企業活用例:失敗からの改善

総務・経理・ITへの問い合わせが月900件。最初は社内Wikiを一括投入し、汎用プロンプトでChatGPTに接続。しかし「最新の有給申請フローが違う」「誰でも原価に触れられる」などの苦情で2週間で停止。

改善では、

1) 対象を「総務の手続きFAQ」に限定

2) Confluenceの公開範囲をメタデータ化

3) 出典必須・出典ゼロは回答拒否

4) 人名・社員番号はマスキング

5) 週次で総務が更新する運用フローを明確化

6) 正答率評価セットを30問→120問へ拡充。

結果、一次解決率は62%→88%、総務メールは半減、P95応答2.2秒、月額コストは約8万円(1人/日8問換算)。「出典が常に付く」ことで信頼が回復しました。

この規模でも、ボトルネックは技術より運用でした。権限の欠落と更新フロー不在が失敗の主因で、RAGと出典強制、部門オーナーシップの3点で改善しています。

コスト・リスクの現実解

  • コスト試算:平均4Kトークン/問×10問/日×200人=8,000,000トークン/月。モデル単価に応じて上限制御(レート制限、サマリで短文化)。
  • 法務・セキュリティ:社外送信禁止の文書は埋め込みも含めて社内推論に限定。PIIは保存前に匿名化。監査ログは180日以上保管。
  • 継続性:モデル代替戦略(ChatGPT/Claude/Geminiの切替)を想定し、プロンプトと評価セットをベンダーロックインしない形で管理。

社内AIチャットボットは、「課題定義→データ整備→RAGアーキ→運用改善」の順で組み立てると再現性が高まります。各要素を部品化していくと、社内の他業務にも横展開しやすくなり、結果として生成AIプラットフォーム事業の基盤づくりにも直結します。部門ごとに必要な共通部品(認証、データコネクタ、評価・監査、コスト管理)を積み上げる発想が、長期運用で効いてきます。