MDETR - Modulated Detection for End-to-End Multi-Modal Understanding
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/216a7d31-7eaf-4fd6-8618-8230294270e2/820c37406396c4c95ad7aff1a1c726f0.png)
概要
- DETRの拡張版 MDETR (Modulated DETR)
- テキストと画像をセットで入力し、groundingが可能
- GLIPはMDETRを参考にしている
- 基本的にはDETRと同じ
- DETR: 入力データ(画像)から、Transformerを使って物体検出
- MDETR: 入力データ(画像+テキスト)から、Transformerを使ってGrounding(テキストに対応する物体の検出)
- 入力データの扱い
- 画像: CNNで特徴マップに変換 → Linearで分割して横に並べ、positional encodingを付与
- テキスト: RoBERTaでエンコード
- 画像とテキストをconcatして1つの入力列とする
- 物体検出
- DETRと同様にN個のObejct Queryを個々の物体のboxに変換する
- boxとテキストの対応関係
- boxと正解の物体との対応はマッチング問題で見つける
- Contrastive alignment
- InfoNCE
- O: 物体、T: テキスト
- 物体ごとに各テキストとの関係性を見るloss + テキストごとに書く物体との関係性を見るloss
- Soft token prediction
- トークンの最大数を256に固定
- boxごとにテキスト中の範囲を当てるように損失を計算する
- 正解の範囲が1, それ以外が0
- 直接トークンを当てると、多対多の関係性を掴みづらい
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/4540c23d-7a9a-4b09-b37f-eab0ed4947b8/ad61121c3c84ed7e8ecd230b04cd8a49.png)
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/384b6909-d7ee-4a16-be6e-837239ac4650/7e905fb17631bff265c174c255e3f87b.png)