MDETR - Modulated Detection for End-to-End Multi-Modal Understanding

 

概要

  • DETRの拡張版 MDETR (Modulated DETR)
  • テキストと画像をセットで入力し、groundingが可能
    • GLIPはMDETRを参考にしている
  • 基本的にはDETRと同じ
    • DETR: 入力データ(画像)から、Transformerを使って物体検出
    • MDETR: 入力データ(画像+テキスト)から、Transformerを使ってGrounding(テキストに対応する物体の検出)
  • 入力データの扱い
    • 画像: CNNで特徴マップに変換 → Linearで分割して横に並べ、positional encodingを付与
    • テキスト: RoBERTaでエンコード
    • 画像とテキストをconcatして1つの入力列とする
  • 物体検出
    • DETRと同様にN個のObejct Queryを個々の物体のboxに変換する
  • boxとテキストの対応関係
    • boxと正解の物体との対応はマッチング問題で見つける
    • Contrastive alignment
    • InfoNCE
      • O: 物体、T: テキスト
      • 物体ごとに各テキストとの関係性を見るloss + テキストごとに書く物体との関係性を見るloss
    • Soft token prediction
      • トークンの最大数を256に固定
      • boxごとにテキスト中の範囲を当てるように損失を計算する
        • 正解の範囲が1, それ以外が0
        • 直接トークンを当てると、多対多の関係性を掴みづらい