ヤフーの画像分野の研究内容紹介(MIRU2023 レポート)

概要

1. アテンションはアノテーションの代わりになるか?:テキスト−画像生成モデルの注視機構を利用した領域分割の弱教師あり学習

  • セマンティックセグメンテーションのアノテーションはコストが高い
  • Stable Diffusionで学習用の画像と正解の切り抜きとなるアノテーションを生成させることで大量の学習データの自動生成
    • attentionを用いて画像をマスクするattn2maskを提案
  • 従来は人手作成学習データで正確率が70%程度だった画像セットに関して、正確率50%が出ており、完璧とは行かないまでも上々の結果が得られた
 
 

2. 拡散モデルによる画像内の物体の任意色への変換および類似画像検索への応用

  • Yahoo!ショッピングやヤフオク!での類似画像検索の改善に向けて商品画像の色変換に取り組み
  • グレースケール画像を条件とした画像カラーリングを応⽤し,グレースケール化およびヒストグラム平坦化を適⽤した画像と⾊ラベルをモデルの⼊⼒として,⼊⼒画像を復元できる拡散モデルを学習
  • 評価の結果、色変換の質・背景などに余計な変化を与えない度合いの評価指標で既存のStarGANより高いスコアを示した
  • 色変換した学習データを利用することで、商品色を考慮した画像検索の性能を改善できることなどがわかった