MLプロジェクトにおけるデータ管理

 

概要

サマリー
  • WandBでモデルの学習に利用するデータセットの管理ができるよ。
    • 学習・評価の結果と利用したデータセットを紐づけて管理できる。
    • データはWandBのサーバーに保存することも、S3などの外部ストレージに保存することもできる。
    • データの変更履歴も残せる。
    • データのロードも簡単
 
データリネージ」という考え方
オライリー・ジャパン 機械学習システムデザイン
 
  • WandBにバージョン管理されたデータフォルダをログする
ダウンロード&学習に利用
  • ステップ間の関係を追跡する
    • wandbのUI上でええ感じに確認
  • 新しいバージョンを追加し、自動的に重複を削除する
    • 差分だけ登録可能。重複するデータを無駄に再インデックスしない。