データサイエンスの基礎

意思決定から逆算する課題定義とデータ設計

出発点は「どの意思決定を、誰が、いつ変えるか」です。解約抑止なのか、在庫最適化なのか、広告入札なのか。担当者と実行タイミング（毎朝、週次、リアルタイム）を決め、コスト制約やキャパシティ（1日何件アクション可能か）も同時に明確化します。そのうえでKPIを「対象集団＋期間＋定義」で固め、観測単位（顧客、セッション、SKU、店舗）を一意に決めます。生データは捨てずに保存し、分析用テーブルは不可逆な集計を避けて再生成可能に。IDの正規化、タイムゾーン統一、イベント時刻とスナップショット日の区別など、後戻りしづらい基本設計を先に固めるのが近道です。

例：課題→指標→アクションの接続

「60日以内解約率を2pt下げる」を目標にするなら、対象は初回購入から60日経過ユーザー、ベースラインと比較対象期間も固定。モデル出力は「誰に何をするか」に直結させ、例えばスコア上位N名へクーポン配布、残りは通常リマインド。オフライン評価はAUCだけでなくPR-AUCやキャリブレーションも確認し、オンラインはA/Bテストで「1人あたり粗利」が改善するかで判定します。

収集・前処理の実務：欠損、偏り、リークを潰す

現場で効くのは華やかなアルゴリズムより地味な前処理です。計測ミスや仕様変更の痕跡は必ず残ります。SQLの差分検知、インクリメンタル取り込み、冪等なパイプライン、スキーマ変更の検知をルーチン化しましょう。PIIは早期にトークナイズし、権限と監査ログを分離。日締め・週締めの基準を統一し、期間またぎの二重計上を防ぎます。ちょっとした検算や可視化はCopilotやChatGPT、クエリの静的検査や説明生成はGeminiの助けを借りると手戻りが減ります（ただし本番検証は必ず人の目で）。

前処理チェックリスト

欠損の発生パターン（行・列・期間）と機構（MCAR/MAR/MNAR）の当たりを付ける
外れ値の業務上限・下限を決め、IQRと合わせて二重で監視
将来情報や後工程フラグの混入を排除（典型的なデータリーク）
時間の基準統一（UTC/ローカル、集計締め日、夏時間）
訓練・本番の分布差をPSI/KSで監視し、ドリフト閾値を運用決め
データ・特徴量・モデルのバージョンを別々に管理し再現性を担保

モデル選定と評価：シンプルで勝つ

最初の勝ち筋は、ルール基準→ロジスティック回帰→決定木系の順で十分です。回帰ならMAE/SMAPE、分類ならAUCだけでなくPR-AUCとログロス、ランキングならNDCGといった具合に、業務の密度と陽性率に適した指標を使い分けます。時系列はランダム分割を避け、時系列スプリットで将来外挿の耐性を見ること。モデルはキャリブレーションを取り、しきい値は「実行キャパシティ」とコストで決めます。例えば1日500件しか架電できないなら、検証データのスコア分布から上位500件になるカットを選び、偽陽性・偽陰性の損失見積りでROIをチェック。オンラインではA/Bやバンディットで意思決定まで検証を延長し、勝つまで回すのではなく事前に停止基準を置きます。

閾値設計と運用制約の織り込み

月間予算、在庫、人手の制約を変数にし、1件あたり期待粗利−施策コストが正になる範囲でスコアしきい値を調整します。需要予測では安全在庫係数を業務の許容欠品率から逆算し、外れ値日（セール・障害）はフラグを入れて学習と推論の両方で扱いを揃えます。説明可能性はSHAPなどで十分で、重要なのは「重要特徴に業務で手を入れられるか」。触れない要因が支配的なら、モデル精度が高くても意思決定は改善しません。

運用の基礎（プラットフォーム視点）

バッチかストリーミングか、SLA（いつまでに更新）と監視（欠損・ドリフト・遅延）を先に定義。特徴量はカタログ化し、血統（リネージ）を記録。ノートブックで作った処理はテスト付きでパイプライン化し、失敗時のロールバック手順を用意します。日次の定常運転を自動化し、人は例外対応と改善に集中できる形が理想です。補助的にClaudeでドキュメント叩き台を作ると、属人化の解消が進みます。

身近な企業活用例：小売EC30名の解約予測の立て直し

解約率が高止まりし、急ごしらえのXGBoostでAUCは0.92。しかし本番で施策効果が出ず、クーポン費用だけが増えました。原因は「出荷後に付与される解約防止クーポン利用フラグ」が学習に混入したデータリークと、配布キャパシティ無視の一斉配信でした。改善では目的から再設計。対象は初回購入後30〜60日の顧客、行動・在庫・CS接点の15特徴に絞ったロジスティック回帰に変更。PSI監視と日次再学習をやめ、週次でしきい値再設定に留めました。日次バッチで上位400名だけに施策、メール本文の案はChatGPTとClaudeで数案を自動生成し、CSがトーンだけ最終調整。SQLの差分検査はGeminiでクエリの意図説明を出させてレビュー効率を上げ、パイプラインの雛形はCopilotで作成。6週間のA/Bで解約率は18%→14%（-4pt）、メールの誤配信は半減、在庫滞留も12%改善。何より、しきい値とキャパシティを連動させたことで、現場の運用ストレスが大きく下がりました。

データサイエンスの基礎は、課題定義→堅実な前処理→シンプルな評価としきい値設計→壊れない運用、という地味な積み上げに尽きます。この土台を組織横断で標準化し、特徴量や血統、監視を共通化する取り組みは、データ解析プラットフォーム事業と最も親和性が高い領域です。意思決定に直結する形でデータを流し、現場が無理なく回せる仕組みに落とすことが、長く効く強さにつながります。

データサイエンスの基礎

データサイエンスの基礎

意思決定から逆算する課題定義とデータ設計

例：課題→指標→アクションの接続

収集・前処理の実務：欠損、偏り、リークを潰す

前処理チェックリスト

モデル選定と評価：シンプルで勝つ

閾値設計と運用制約の織り込み

運用の基礎（プラットフォーム視点）

身近な企業活用例：小売EC30名の解約予測の立て直し

関連記事

アラート設計とノイズ削減

経営ダッシュボード設計術

小規模AI導入成功事例

生成AIとAPIコスト最適化