Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (Ren et al., 2015)
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/c66292cc-4d53-4885-8b46-4d535d25990c/1426e0492a5ca5e258cbef458563425d.png)
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/b2247ffc-6ed2-41f0-9665-2a07f9e3aaba/c439a87e97396918bf729e292c15ae5e.png)
概要
- 物体検出モデル
- 画像からbbox + ラベルを予測する問題
- 物体検出の主な流れは、encoding → region proposal (RoI) → bbox + classification
- Faster R-CNN は region proposal (RoI) の部分で新規手法 Region Proposal Network (RPN) を提案
- モデルの流れは、R-CNN (2013) → Fast R-CNN (2015) → Faster R-CNN (2015)
- RPN
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/73ec9024-c839-44d3-8bd9-486159d40731/93fa6f6d01865f1f862acd04f991f5a1.png)
- 概要
- feature map 1ピクセルあたり k 個の “Anchor Box” を基準としてbboxを予測する
- 処理の流れ
- 入力
- 元画像を畳み込んだ feature map(Zeiler and Fergus model (ZF) やVGG-16を利用)
- intermediate layer
- 入力をさらに畳み込み、ZFなら W x H x 256、VGG-16なら W x H x 512 に変換
- 出力: cls layer
- 1 x 1 畳み込みで、W x H x 2k に変換
- anchorが物体 or 背景 のどちらかを予測
- 正解ラベルは、ground-truthとanchor boxのIoUが (i) 最も大きい (ii) 0.7以上 のいずれかをpositive, IoU0.3以下がnegative
- 出力: reg layer
- 1 x 1 畳み込みで、W x H x 4k に変換
- bboxの4頂点を予測
- bbox ↔ anchor boxの位置関係と、ground-truth ↔ anchor boxの位置関係を近づけるように学習
- loss: classification lossとregression lossの和
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/7c756498-8e54-4f04-b3f6-c287d04f7bdb/eff5561d89d9090806b1f5c725abb59f.png)
- RPNで得られたregion proposal (RoI) をもとに、Fast R-CNNを使って最終的なbbox + classificationを予測する
- RPNの学習とFast R-CNNの学習を交互に実施する