End-to-End Object Detection with Transformers



概要
- 2020, Facebook AI
- 画像からの物体検出
- Fast(er)-RCNNは複数の構成要素があるが、DETR (DEtection TRansformer) はtransformerの枠組みを使ってe2eで学習・予測できるようにした最初の論文
- 流れ: 画像 → backbone (embedding) → encoding → decoding → bbox,label
- backbone
- CNNで画像()を特徴マップ()に変換
- encoding
- 入力: 特徴マップ
- 特徴マップを に変換しspatial positional encodingを加える
- 言語モデルにおける 次元・token数 の入力に対応する
- 出力: transformerのencoderの出力
- decoding
- 入力: N個のベクトル(object queries)、encoderの出力
- encoderの出力は、keyとして入力される前にspatial positional encodingが加えられる
- N個のobject queriesは同時に入力される
- 言語モデルのdecodingでは1文字ずつ増やして入力
- object queriesは入力でもありつつ、positional encodingとしての役割も持つ
- decoderのattentionのqueryに毎回加える
- 出力: N個のベクトル
- bbox,label
- 入力: decoderの出力(N個のベクトル)
- Linear (+ ReLU) で bbox (x, y, h, w)とクラスラベルを予測
- Nは画像中の物体数よりも多くなるので、クラスラベルには”該当なし”も含まれる
- 正解ラベルとの対応付けはマッチング問題を解く
- ハンガリアンアルゴリズム
- lossの合計が最小になる組み合わせを見つける

参考