Jiuxiang Gu

My name is Jiuxiang Gu (顾久祥). I am a Senior Research Scientist at Adobe Research in Seattle. I received my Ph.D. from Nanyang Technological University, Singapore (2016.1–2019.5), under the supervision of Prof. Jianfei Cai, Dr. Gang Wang, and Prof. Tsuhan Chen. My research journey began in hardware design. From 2010 to 2015, I worked as a hardware engineer (ASIC, FPGA, and PCB design). In 2015, I made the transition to Artificial Intelligence.

My current research focuses on multimodal foundation models, efficient AI, reasoning, and document intelligence.

Outside of research, I enjoy hiking and exploring the outdoors, as well as 3D printing, painting, and designing and building robots.

Open to collaborations and internships in the above areas.

Latest Updates

Jul 2026
Chimera, our hybrid visual diffusion transformer with a Chinchilla-style scaling recipe, is now available.
Jul 2026
FLARE, our framework for converting hybrid autoregressive models into diffusion language models, is now available.
Jul 2026
LaViDa-O, our unified diffusion model for multimodal understanding and generation, appears at ICLR 2026.
Jul 2026
LaViDa-R1, our reasoning model for unified multimodal diffusion, appears at ICML 2026.
Jun 2026
Sparse-LaViDa, our efficient sparse multimodal diffusion model, appears at CVPR 2026.
Apr 2026
FastCar, our work on efficient autoregressive video generation for edge devices, appears at ICLR 2026.

Selective Works

2026

arXiv preprint arXiv:2607.28611, 2026
Chimera: Designing and Chinchilla-Scaling Hybrid Visual Diffusion Transformers

Chongjian Ge, Hanwen Jiang, Tianyu Wang, Jiuxiang Gu, Yiran Xu, Ziwen Chen, Shaoteng Liu, Jing Shi, Yicong Hong, Zefan Cai, Hailin Jin, and Hao Tan

arXiv Website
arXiv preprint arXiv:2606.01774, 2026
FLARE: Diffusion for Hybrid Language Models

Yuchen Zhu, Jing Shi, Chongjian Ge, Hao Tan, Yiran Xu, Wanrong Zhu, Jason Kuen, Koustava Goswami, Rajiv Jain, Yongxin Chen, Molei Tao, and Jiuxiang Gu

arXiv
ICLR 2026
LaViDa-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation

Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, and Jason Kuen

arXiv Code Website

2025

AAAI 2025
Numerical pruning for efficient autoregressive models

Xuan Shen, Zhao Song, Yufa Zhou, Bo Chen, Jing Liu, Ruiyi Zhang, Ryan A. Rossi, Hao Tan, Tong Yu, Xiang Chen, Yufan Zhou, Tong Sun, Pu Zhao, Yanzhi Wang, and Jiuxiang Gu

arXiv

2024

ICLR 2024
Lrm: Large reconstruction model for single image to 3d

Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, and Hao Tan

arXiv
ICLR 2024
ADoPD: A large-scale document page decomposition dataset

Jiuxiang Gu, Xiangxi Shi, Jason Kuen, Lu Qi, Ruiyi Zhang, Anqi Liu, Ani Nenkova, and Tong Sun

Website 🤗 Dataset

2021

NeurIPS 2021
Unidoc: Unified pretraining framework for document understanding

Jiuxiang Gu, Jason Kuen, Vlad I Morariu, Handong Zhao, Rajiv Jain, Nikolaos Barmpalios, Ani Nenkova, and Tong Sun

Website

2018

AAAI 2018
Stack-Captioning: Coarse-to-Fine Learning for Image Captioning

Jiuxiang Gu, Jianfei Cai, Gang Wang, and Tsuhan Chen

arXiv Code
CVPR 2018
Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models

Jiuxiang Gu, Jianfei Cai, Shafiq Joty, Li Niu, and Gang Wang

arXiv
Pattern Recognition, 2018
Recent advances in convolutional neural networks

Jiuxiang Gu, Zhenhua Wang, Jason Kuen, Lianyang Ma, Amir Shahroudy, Bing Shuai, Ting Liu, Xingxing Wang, Gang Wang, Jianfei Cai, and others

arXiv