YOLO-World: Real-Time Open-Vocabulary Object Detection
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/323eca6e-97fc-4d03-9a91-dba653d2c0ad/05560fde60fbb27c4299d5840943bc57.png)
概要
- 事前にカテゴリを設定しないオープンボキャブラリーな設定での物体検出において最先端の精度と速度を達成したYOLO-WorldがTencent AI Labから発表された
- まだpushされてないが、オープンソース化される予定:https://github.com/AILab-CVC/YOLO-World/tree/master
- GPLライセンスなので、商用利用可能ではあるが、ソフトウェア配布時に公開義務がある
- 全体像
- 主な工夫としては下記のVision-Language PAN (Path Aggregation Network)で、VisionとTextの相互作用をより考慮できるようにした部分。
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/63d2b6fd-7374-4662-8a16-5874e2006170/a516d7cf32b1628ecf9f59a1762c2590.png)
- 入出力
- アノテーションをbbox-categoryペアではなく、bbox-textのペアで作成する。
- カテゴリ名だったり、名詞、カテゴリの説明などを用いる
- 出力としては、予測のBBoxとそれに対応するobject embedding を出力
- モデル
- YOLO Backbone: YOLOv8
- Text Encoder: CLIPで事前学習されたTransformer
- テキスト入力がCaptionや文章表現だった場合、n-gramアルゴリズムを用いて名詞句を抽出する
- Text Contrastive Head: 3x3のCNNを2つ
- object embeddingとtext間の類似度を計算するためのHead
- Re-parametizable Vision-Language PAN
- Text EmbeddingとImage Featureを混ぜるT-CSP Layer
- マルチスケールでImageとTextの情報のAttentionから、Text Embeddingを更新するImage-Pooling Attention
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/2bdb5999-5b08-4408-ba1a-a8d87d980c8f/b23aeb21fffd937529b92dc09c373e45.png)
- 訓練
- BBoxへのラベルの割り当て方などはYOLOv8と同じ
- Textとobject embeddingのcontrastive loss + BBox回帰のIOU Lossとdistributed focal loss
- BBox-テキストペアを作成するために、Pseudo Labelingを行った
- n-gramアルゴリズムで名詞句を抽出
- GLIPなどで粗いBBoxとTextのペアを生成
- CLIPなどを使用して、画像-テキストペアとBBox-テキストペアで関連性が少ないものをフィルタリング。NMSなどを用いて冗長なBBoxも削除 (Appendixに詳細)
- CC3Mデータセットの226k枚の画像から821k個の擬似アノテーションを作成した
- 結果
- YOLOv8と比較しても大きく精度改善しており、既存の2-stageベースのモデルよりも精度が向上している
- ユーザが自由に設定した単語や表現でもうまく予測が行われている
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/b442b544-ed06-44f2-b4ba-14b2c78a231a/a8b9ffdbda97bd671e15b455e4cf47a3.png)
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/63682093-7589-4007-9d34-d0fbcaf06b3e/74d50fc6c37ac152a0ff1763395c91c1.png)
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/e5f3b0f7-6aca-48d9-9c1f-ce9a38cf238a/a499c386ce3f0ae7926a22ff85da5539.png)