Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (Ren et al., 2015)
概要
- 物体検出モデル
- 画像からbbox + ラベルを予測する問題
- 物体検出の主な流れは、encoding → region proposal (RoI) → bbox + classification
- Faster R-CNN は region proposal (RoI) の部分で新規手法 Region Proposal Network (RPN) を提案
- モデルの流れは、R-CNN (2013) → Fast R-CNN (2015) → Faster R-CNN (2015)
- RPN
- 概要
- feature map 1ピクセルあたり k 個の “Anchor Box” を基準としてbboxを予測する
- 処理の流れ
- 入力
- 元画像を畳み込んだ feature map(Zeiler and Fergus model (ZF) やVGG-16を利用)
- intermediate layer
- 入力をさらに畳み込み、ZFなら W x H x 256、VGG-16なら W x H x 512 に変換
- 出力: cls layer
- 1 x 1 畳み込みで、W x H x 2k に変換
- anchorが物体 or 背景 のどちらかを予測
- 正解ラベルは、ground-truthとanchor boxのIoUが (i) 最も大きい (ii) 0.7以上 のいずれかをpositive, IoU0.3以下がnegative
- 出力: reg layer
- 1 x 1 畳み込みで、W x H x 4k に変換
- bboxの4頂点を予測
- bbox ↔ anchor boxの位置関係と、ground-truth ↔ anchor boxの位置関係を近づけるように学習
- loss: classification lossとregression lossの和
- RPNで得られたregion proposal (RoI) をもとに、Fast R-CNNを使って最終的なbbox + classificationを予測する
- RPNの学習とFast R-CNNの学習を交互に実施する