LLaVA-1.6: Improved reasoning, OCR, and world knowledge
概要
- アップデート内容
- 入力画像の解像度を4kに増やすことで、より多くの視覚的な詳細を捉えることができるようになった(最大672x672、336x1344、1344x336)
- visual instruction tuningにおいてdata mixtureを使用し、視覚的推論とOCRの能力向上
- さまざまなシナリオでの視覚的会話の性能向上
- SGLangを用いた効率的なデプロイメントと推論
- demo
- 使用例
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/a981a80d-5a5f-4e3a-bad2-5e335ee88bd3/66b543967cf7cd0eefe7a187aa6e54f4.png)
併せて読みたい