LLaVA-Read: Enhancing Reading Ability of Multimodal Language Models (arXiv 2024)

Ruiyi Zhang, Yufan Zhou, Jian Chen, Jiuxiang Gu, Changyou Chen, Tong Sun

January 2024