MDETR - Modulated Detection for End-to-End Multi-Modal Understanding
概要
- DETRの拡張版 MDETR (Modulated DETR)
- テキストと画像をセットで入力し、groundingが可能
- GLIPはMDETRを参考にしている
- 基本的にはDETRと同じ
- DETR: 入力データ(画像)から、Transformerを使って物体検出
- MDETR: 入力データ(画像+テキスト)から、Transformerを使ってGrounding(テキストに対応する物体の検出)
- 入力データの扱い
- 画像: CNNで特徴マップに変換 → Linearで分割して横に並べ、positional encodingを付与
- テキスト: RoBERTaでエンコード
- 画像とテキストをconcatして1つの入力列とする
- 物体検出
- DETRと同様にN個のObejct Queryを個々の物体のboxに変換する
- boxとテキストの対応関係
- boxと正解の物体との対応はマッチング問題で見つける
- Contrastive alignment
- InfoNCE
- O: 物体、T: テキスト
- 物体ごとに各テキストとの関係性を見るloss + テキストごとに書く物体との関係性を見るloss
- Soft token prediction
- トークンの最大数を256に固定
- boxごとにテキスト中の範囲を当てるように損失を計算する
- 正解の範囲が1, それ以外が0
- 直接トークンを当てると、多対多の関係性を掴みづらい