機械学習におけるEDAって結局何するの?

概要
- paoさんのEDAに関する記事。考え方が自分と似ていて共感するところが多く、言語化して整理されているのが良かった。
- 前提として共有目的や意思決定のためのEDAもあるが、それとは別として考える。
- モデリングする上でのデータを見る時には以下の考え方を頭に持っておくのは重要。
- その上で以下の二つのパターンに分ける。
- データの概要理解
- 仮説ベースでの分析
- 後半が大事で、更にマクロに見ることとミクロに見ることが大事
- (個人的にはミクロに見ることが大事で、その部分がアナリストの人とかと違うところかなと思ってます。アナリストは事業のKPIなどマクロな指標を見ることが重要だが、機械学習する上ではミクロに見た上で、仮説を立てて個別の事例を表現できるような特徴量を作ることが重要)
機械学習モデルのモデル設計だったり、前処理だったり、精度だったりに影響しない部分でのデータの理解はあまり意味がありません。