Learning Human-Compatible Representations for Case-Based Decision Support

概要

  • ICLR2023
  • 考える状況
    • ラベルを予測したい画像と、ヒントとなる近傍の画像を提示されて、人間がアノテーションする
      • すでにある分類モデルの予測結果と、その分類モデルが似ていると判断した画像をヒントとして提示する
  • 分類モデルが獲得する埋め込み表現の近さと、人間が感じる「近さ」の基準は異なる
  • 埋め込み表現に人間が感じる近さの概念を入れると、アノテーション精度がどう変わるか実験
  • 提案: 通常の分類誤差に加えて、似ているもの同士の埋め込み表現を知覚するような誤差を追加
    • ある画像に対して、人間が近いと判断した画像、遠いと判断した画像、の3つ組データを用意
    • 今回は lambda = 0.5
  • 2種類のデータセットで実験
    • 比較手法
      • RIRO: ランダムにヒント画像を出す
      • MLE: Cross-entropyだけで学習したモデル(精度だけを追及したモデル)
      • HC: 提案手法
    • 結果
      • アノテーション精度は、MLEよりHCの方が良い
      • MLEはランダムよりも悪くなる(!)
        • 単なる分類のための埋め込み表現での近さは、人間を混乱させるような結果になる可能性がある