LLaVA-1.6: Improved reasoning, OCR, and world knowledge
概要
- アップデート内容
- 入力画像の解像度を4kに増やすことで、より多くの視覚的な詳細を捉えることができるようになった(最大672x672、336x1344、1344x336)
- visual instruction tuningにおいてdata mixtureを使用し、視覚的推論とOCRの能力向上
- さまざまなシナリオでの視覚的会話の性能向上
- SGLangを用いた効率的なデプロイメントと推論
- demo
- 使用例
併せて読みたい