画像を理解するGPT-4 Visionで、既存の画像認識モデルを説明可能にする

概要

  • モチベーションとしては、画像認識モデルの説明可能性、特に、このモデルは全体としてどういう特徴を見ているんだ?の理解にはまだまだ職人芸が必要とされている
  • 写真から撮影場所がどこかを予測するモデル
    • 江東区と予測される確信度が高いTOP7を見る
    • なんとなく全部柵が映ってないか? <- 人間の職人芸
  • 特化型モデルで識別・ピクセル重要度抽出した後に、GPTで自然言語に変換する
    • 撮影場所を判定したい画像を与える
    • 認識モデルで撮影場所を判定する
    • さらに認識モデルが重要とするピクセルをGradCAMで抽出する
    • (判定結果、入力画像、GradCAM画像)の3つを後述のプロンプトに入力する
      • プロンプト
 

頻出単語の解析

  • 説明文を形態素解析して単語出現頻度ベクトルに
  • 単語出現頻度ベクトルから
  • 線形識別器によって、各クラスに重要な単語を抜き出す
 

東京都港区

  • "東京タワー","公園の遊歩道","木々","芝生","街灯","遠景のビル群","空と雲","人々”
 

北海道旭川市

  • "広い駐車場","低層の建物","青い壁の建物","広い空と雲","遠くの山々","横断歩道の白線","駐車された車","道路の標識","緑の樹木","広い道路”