Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (Ren et al., 2015)

概要

  • 物体検出モデル
    • 画像からbbox + ラベルを予測する問題
    • 物体検出の主な流れは、encoding → region proposal (RoI) → bbox + classification
    • Faster R-CNN は region proposal (RoI) の部分で新規手法 Region Proposal Network (RPN) を提案
    • モデルの流れは、R-CNN (2013) → Fast R-CNN (2015) → Faster R-CNN (2015)
  • RPN
 
  • 概要
    • feature map 1ピクセルあたり k 個の “Anchor Box” を基準としてbboxを予測する
  • 処理の流れ
    • 入力
      • 元画像を畳み込んだ feature map(Zeiler and Fergus model (ZF) やVGG-16を利用)
    • intermediate layer
      • 入力をさらに畳み込み、ZFなら W x H x 256、VGG-16なら W x H x 512 に変換
    • 出力: cls layer
      • 1 x 1 畳み込みで、W x H x 2k に変換
      • anchorが物体 or 背景 のどちらかを予測
      • 正解ラベルは、ground-truthとanchor boxのIoUが (i) 最も大きい (ii) 0.7以上 のいずれかをpositive, IoU0.3以下がnegative
    • 出力: reg layer
      • 1 x 1 畳み込みで、W x H x 4k に変換
      • bboxの4頂点を予測
      • bbox ↔ anchor boxの位置関係と、ground-truth ↔ anchor boxの位置関係を近づけるように学習
    • loss: classification lossとregression lossの和
  • RPNで得られたregion proposal (RoI) をもとに、Fast R-CNNを使って最終的なbbox + classificationを予測する
    • RPNの学習とFast R-CNNの学習を交互に実施する