Dataflux Dataset for PyTorch

概要

  • 小さいファイルが複数GCSに入っている時にlocalに直接持って来ずにDataLoaderを高速化できるライブラリ。textデータとかだと良さそう
  • こんな感じでかける
    • GCS Compose APIを使って、小さいobjectをconcatしたり、並列でlistingしたりしているらしい。