MLプロジェクトにおけるデータ管理
概要
サマリー
- WandBでモデルの学習に利用するデータセットの管理ができるよ。
- 学習・評価の結果と利用したデータセットを紐づけて管理できる。
- データはWandBのサーバーに保存することも、S3などの外部ストレージに保存することもできる。
- データの変更履歴も残せる。
- データのロードも簡単
「データリネージ」という考え方
オライリー・ジャパン 機械学習システムデザイン
- WandBにバージョン管理されたデータフォルダをログする
ダウンロード&学習に利用
- ステップ間の関係を追跡する
- wandbのUI上でええ感じに確認
- 新しいバージョンを追加し、自動的に重複を削除する
- 差分だけ登録可能。重複するデータを無駄に再インデックスしない。