画像を理解するGPT-4 Visionで、既存の画像認識モデルを説明可能にする
概要
- モチベーションとしては、画像認識モデルの説明可能性、特に、このモデルは全体としてどういう特徴を見ているんだ?の理解にはまだまだ職人芸が必要とされている
- 写真から撮影場所がどこかを予測するモデル
- 江東区と予測される確信度が高いTOP7を見る
- なんとなく全部柵が映ってないか? <- 人間の職人芸
- 特化型モデルで識別・ピクセル重要度抽出した後に、GPTで自然言語に変換する
- 撮影場所を判定したい画像を与える
- 認識モデルで撮影場所を判定する
- さらに認識モデルが重要とするピクセルをGradCAMで抽出する
- (判定結果、入力画像、GradCAM画像)の3つを後述のプロンプトに入力する
- プロンプト
頻出単語の解析
- 説明文を形態素解析して単語出現頻度ベクトルに
- 単語出現頻度ベクトルから
- 線形識別器によって、各クラスに重要な単語を抜き出す
東京都港区
- "東京タワー","公園の遊歩道","木々","芝生","街灯","遠景のビル群","空と雲","人々”
北海道旭川市
- "広い駐車場","低層の建物","青い壁の建物","広い空と雲","遠くの山々","横断歩道の白線","駐車された車","道路の標識","緑の樹木","広い道路”