Fitting larger networks into memory.

概要

  • gradient checkpointingの動作についてアニメーションでわかりやすいです
  • 本日の勉強会のメイントピックでも出てきます