
データサイエンスの基礎
意思決定から逆算する課題定義とデータ設計
出発点は「どの意思決定を、誰が、いつ変えるか」です。解約抑止なのか、在庫最適化なのか、広告入札なのか。担当者と実行タイミング(毎朝、週次、リアルタイム)を決め、コスト制約やキャパシティ(1日何件アクション可能か)も同時に明確化します。そのうえでKPIを「対象集団+期間+定義」で固め、観測単位(顧客、セッション、SKU、店舗)を一意に決めます。生データは捨てずに保存し、分析用テーブルは不可逆な集計を避けて再生成可能に。IDの正規化、タイムゾーン統一、イベント時刻とスナップショット日の区別など、後戻りしづらい基本設計を先に固めるのが近道です。
例:課題→指標→アクションの接続
「60日以内解約率を2pt下げる」を目標にするなら、対象は初回購入から60日経過ユーザー、ベースラインと比較対象期間も固定。モデル出力は「誰に何をするか」に直結させ、例えばスコア上位N名へクーポン配布、残りは通常リマインド。オフライン評価はAUCだけでなくPR-AUCやキャリブレーションも確認し、オンラインはA/Bテストで「1人あたり粗利」が改善するかで判定します。
収集・前処理の実務:欠損、偏り、リークを潰す
現場で効くのは華やかなアルゴリズムより地味な前処理です。計測ミスや仕様変更の痕跡は必ず残ります。SQLの差分検知、インクリメンタル取り込み、冪等なパイプライン、スキーマ変更の検知をルーチン化しましょう。PIIは早期にトークナイズし、権限と監査ログを分離。日締め・週締めの基準を統一し、期間またぎの二重計上を防ぎます。ちょっとした検算や可視化はCopilotやChatGPT、クエリの静的検査や説明生成はGeminiの助けを借りると手戻りが減ります(ただし本番検証は必ず人の目で)。
前処理チェックリスト
- 欠損の発生パターン(行・列・期間)と機構(MCAR/MAR/MNAR)の当たりを付ける
- 外れ値の業務上限・下限を決め、IQRと合わせて二重で監視
- 将来情報や後工程フラグの混入を排除(典型的なデータリーク)
- 時間の基準統一(UTC/ローカル、集計締め日、夏時間)
- 訓練・本番の分布差をPSI/KSで監視し、ドリフト閾値を運用決め
- データ・特徴量・モデルのバージョンを別々に管理し再現性を担保
モデル選定と評価:シンプルで勝つ
最初の勝ち筋は、ルール基準→ロジスティック回帰→決定木系の順で十分です。回帰ならMAE/SMAPE、分類ならAUCだけでなくPR-AUCとログロス、ランキングならNDCGといった具合に、業務の密度と陽性率に適した指標を使い分けます。時系列はランダム分割を避け、時系列スプリットで将来外挿の耐性を見ること。モデルはキャリブレーションを取り、しきい値は「実行キャパシティ」とコストで決めます。例えば1日500件しか架電できないなら、検証データのスコア分布から上位500件になるカットを選び、偽陽性・偽陰性の損失見積りでROIをチェック。オンラインではA/Bやバンディットで意思決定まで検証を延長し、勝つまで回すのではなく事前に停止基準を置きます。
閾値設計と運用制約の織り込み
月間予算、在庫、人手の制約を変数にし、1件あたり期待粗利−施策コストが正になる範囲でスコアしきい値を調整します。需要予測では安全在庫係数を業務の許容欠品率から逆算し、外れ値日(セール・障害)はフラグを入れて学習と推論の両方で扱いを揃えます。説明可能性はSHAPなどで十分で、重要なのは「重要特徴に業務で手を入れられるか」。触れない要因が支配的なら、モデル精度が高くても意思決定は改善しません。
運用の基礎(プラットフォーム視点)
バッチかストリーミングか、SLA(いつまでに更新)と監視(欠損・ドリフト・遅延)を先に定義。特徴量はカタログ化し、血統(リネージ)を記録。ノートブックで作った処理はテスト付きでパイプライン化し、失敗時のロールバック手順を用意します。日次の定常運転を自動化し、人は例外対応と改善に集中できる形が理想です。補助的にClaudeでドキュメント叩き台を作ると、属人化の解消が進みます。
身近な企業活用例:小売EC30名の解約予測の立て直し
解約率が高止まりし、急ごしらえのXGBoostでAUCは0.92。しかし本番で施策効果が出ず、クーポン費用だけが増えました。原因は「出荷後に付与される解約防止クーポン利用フラグ」が学習に混入したデータリークと、配布キャパシティ無視の一斉配信でした。改善では目的から再設計。対象は初回購入後30〜60日の顧客、行動・在庫・CS接点の15特徴に絞ったロジスティック回帰に変更。PSI監視と日次再学習をやめ、週次でしきい値再設定に留めました。日次バッチで上位400名だけに施策、メール本文の案はChatGPTとClaudeで数案を自動生成し、CSがトーンだけ最終調整。SQLの差分検査はGeminiでクエリの意図説明を出させてレビュー効率を上げ、パイプラインの雛形はCopilotで作成。6週間のA/Bで解約率は18%→14%(-4pt)、メールの誤配信は半減、在庫滞留も12%改善。何より、しきい値とキャパシティを連動させたことで、現場の運用ストレスが大きく下がりました。
データサイエンスの基礎は、課題定義→堅実な前処理→シンプルな評価としきい値設計→壊れない運用、という地味な積み上げに尽きます。この土台を組織横断で標準化し、特徴量や血統、監視を共通化する取り組みは、データ解析プラットフォーム事業と最も親和性が高い領域です。意思決定に直結する形でデータを流し、現場が無理なく回せる仕組みに落とすことが、長く効く強さにつながります。