LLaVA-1.6: Improved reasoning, OCR, and world knowledge

概要

  • アップデート内容
    • 入力画像の解像度を4kに増やすことで、より多くの視覚的な詳細を捉えることができるようになった(最大672x672、336x1344、1344x336)
    • visual instruction tuningにおいてdata mixtureを使用し、視覚的推論とOCRの能力向上
    • さまざまなシナリオでの視覚的会話の性能向上
    • SGLangを用いた効率的なデプロイメントと推論
 
  • demo
  • 使用例
 
併せて読みたい