Faster Segment Anything (MobileSAM)

概要

  • MobileSAMはオリジナルのSAMと同等の性能を発揮し(少なくとも視覚的には)、画像エンコーダの変更以外はオリジナルのSAMと全く同じパイプラインを維持している。
  • オリジナルのヘビー級のViT-Hエンコーダー(632M)を、はるかに小さなTiny-ViT(5M)に置き換えている。
  • シングルGPUの場合、MobileSAMは画像1枚あたり約12msで動作する: 画像エンコーダーで8ms、マスクデコーダーで4ms。