
社内AIチャットボット構築方法
課題の定義とKPI設計を最初に決める
「社内ボットを入れてみる」では失敗します。まずは対象業務と成功指標を決めます。おすすめは1部門1ユースケースの一点突破です。例えば総務への定型問い合わせ一次対応、営業向け製品仕様検索、開発向けナレッジ検索など。KPIは以下が実務で使いやすいです。
- 一次解決率(人手介入なしで完了):目標70〜90%
- 回答所要時間(P95):3秒以内
- 正答率(事前に用意した評価セットで測定):80%以上
- 出典表示率:100%(出典なければ回答拒否)
- 利用率(週1回以上利用するユーザー比率):50%以上
成功しやすいユースケース
- 規程・福利厚生・手続きのFAQ(文書が整っている)
- 製品マニュアル・仕様の横断検索(RAGと相性が良い)
- ヘルプデスクの一次切り分け(チケット連携で効果が出やすい)
逆に、最新の社内事情や未整備のノウハウ依存は初期は避けます。まずは情報の“定常領域”で勝ち筋を作ります。
データ準備と権限設計が7割
精度はモデルの賢さだけでなくデータの品質で決まります。社内のドキュメントを棚卸しし、読み取り可否と鮮度をタグ付けします。PDFはテキスト抽出の品質差が大きいので、表や箇条書きを崩さない抽出器(構造化OCR)を選びます。文書は段落〜小見出し単位でチャンク化し、タイトル、部門、更新日、公開範囲などのメタデータを付与してベクトル化します。
データの種類と更新頻度
- 変化が少ない:就業規則、固定化した業務手順 → 月次クロールで十分
- 変化が中程度:製品仕様、価格、販促情報 → 週次更新+改定イベントで即時反映
- 変化が多い:障害情報、組織変更、アナウンス → Pub/SubやWebhookで即時反映
権限は必ずインデックスとクエリの双方で絞ります。具体的には、ユーザーのグループ情報をトークンに含め、検索時にメタデータフィルタで行レベル制御をかけます。個人情報や原価などの機微は、取得時にマスキングルールで匿名化し、原本へのリンクは監査ログ付きに限定します。
モデル選定とアーキテクチャの要点
ChatGPTやClaude、Geminiは生成品質が高く、社内ボットに向いています。Copilot系はIDE統合が強みですが、社内QA用途ではRAG前提での対話最適化が重要です。選定時は以下を比較します。
- コンテキスト長とレイテンシ:長文の規程を参照するなら長い方が有利
- 価格:1ユーザー/日10問・1問4Kトークンで月あたりの上限を試算
- 安全性:プロンプトガード、拒否戦略、監査APIの有無
- ツール実行:関数呼び出しでチケット発行や社内検索を組み合わせられるか
最小構成のRAG
- LLM API(例:ChatGPT/Claude/Gemini)
- 埋め込みモデル+ベクトルDB(PineconeやElasticのkNN、Weaviate等)
- 文書クローラ/ETL(SharePoint、Confluence、ファイルサーバ対応)
- APIゲートウェイ+SSO連携(OpenID Connect)
- 監査・評価基盤(質問、回答、出典、満足度、コストのログ)
回答は「検索→根拠抽出→要約→出典を強制表示→足りなければ追加検索」をパイプライン化します。出典がゼロなら「分かりません」と明確に返し、類似FAQや担当窓口を提案します。
構築手順と運用で効かせるポイント
- 2週間PoC:トップ10の質問で正答率/出典率/レイテンシを計測。改善が鈍い箇所はデータ起因かプロンプト起因かを切り分けます。
- パイロット展開(1部門/30〜50名):週次で評価セットを更新し、業務フローに組み込めるUI(Slack/Teams、ポータル)を用意。
- 本番:権限連携、監査ログ、コンプライアンスレビューを整備。運用SLO(P95 3秒、稼働99.9%)を設定。
- 継続改善:プロンプトのバージョン管理、A/Bテスト、ハルシネーション事例の再学習。回答の最終文に必ず根拠リンクを残すテンプレを固定。
身近な企業活用例:失敗からの改善
総務・経理・ITへの問い合わせが月900件。最初は社内Wikiを一括投入し、汎用プロンプトでChatGPTに接続。しかし「最新の有給申請フローが違う」「誰でも原価に触れられる」などの苦情で2週間で停止。
改善では、
1) 対象を「総務の手続きFAQ」に限定
2) Confluenceの公開範囲をメタデータ化
3) 出典必須・出典ゼロは回答拒否
4) 人名・社員番号はマスキング
5) 週次で総務が更新する運用フローを明確化
6) 正答率評価セットを30問→120問へ拡充。
結果、一次解決率は62%→88%、総務メールは半減、P95応答2.2秒、月額コストは約8万円(1人/日8問換算)。「出典が常に付く」ことで信頼が回復しました。
この規模でも、ボトルネックは技術より運用でした。権限の欠落と更新フロー不在が失敗の主因で、RAGと出典強制、部門オーナーシップの3点で改善しています。
コスト・リスクの現実解
- コスト試算:平均4Kトークン/問×10問/日×200人=8,000,000トークン/月。モデル単価に応じて上限制御(レート制限、サマリで短文化)。
- 法務・セキュリティ:社外送信禁止の文書は埋め込みも含めて社内推論に限定。PIIは保存前に匿名化。監査ログは180日以上保管。
- 継続性:モデル代替戦略(ChatGPT/Claude/Geminiの切替)を想定し、プロンプトと評価セットをベンダーロックインしない形で管理。
社内AIチャットボットは、「課題定義→データ整備→RAGアーキ→運用改善」の順で組み立てると再現性が高まります。各要素を部品化していくと、社内の他業務にも横展開しやすくなり、結果として生成AIプラットフォーム事業の基盤づくりにも直結します。部門ごとに必要な共通部品(認証、データコネクタ、評価・監査、コスト管理)を積み上げる発想が、長期運用で効いてきます。