Xian Liu's Homepage

Xian Liu

Research Scientist
NVIDIA Research
Santa Clara, CA

E-mail / CV / Google Scholar / Github / Twitter / LinkedIn

Full Publications [ Home ] (* indicates equal contribution)

	Cosmos World Foundation Model Platform for Physical AI NVIDIA Research: Xian Liu (Core Contributor). Contributions: Auto-Regressive Foundation Model Pre-Training & Post-Training. (CES'25 Best of AI, Best Overall) Webpage / Project / Technical Report / Blog / Github / HuggingFace / Demo / Keynote (Jensen Huang, CES'25)
	Cosmos Tokenizer: A Suite of Image and Video Neural Tokenizers NVIDIA Research: Xian Liu (Core Contributor). Contributions: Continuous/Discrete Image/Video Tokenizers. Webpage / Technical Report / Blog / Github / HuggingFace / Demo / Benchmark
	Cosmos-Transfer1: World Generation with Adaptive Multimodal Control NVIDIA Research: Xian Liu (Core Contributor). Contributions: Adaptive Multi-Modal Control, Data Processing Pipelines, Open-Source Repo. Webpage / Project / Technical Report / Demo / Github / HuggingFace
	Cosmos-Predict2: World Foundation Model Platform for Physical AI NVIDIA Research: Xian Liu (Core Contributor). Contributions: Data Processing Pipelines, Captioning, Long Video Generation, Transfer Post-training. Webpage / Project / Technical Report (Coming soon) / Blog / Github / HuggingFace / Benchmark
	DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior Junzhe Lu, Jing Lin, Hongkun Dou, Ailing Zeng, Yue Deng, Xian Liu, Zhongang Cai, Lei Yang, Yulun Zhang, Haoqian Wang, Ziwei Liu. International Conference on Computer Vision (ICCV), 2025. (Oral) ICCV 2025 / Paper (Coming Soon)
	HMAR: Efficient Hierarchical Masked AutoRegressive Image Generation Hermann Kumbong, Xian Liu, Tsung-Yi Lin, Xihui Liu, Ziwei Liu, Daniel Y. Fu, Ming-Yu Liu, Christopher Ré, David W. Romero. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025. CVPR 2025 / Paper (Coming Soon)
	T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025. CVPR 2025 / HuggingFace Leaderboard / Project / Code / arXiv
	3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation Xiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin. International Conference on Learning Representations (ICLR), 2025. ICLR 2025 / OpenReview / Project / Code / arXiv / Dataset
	High-Quality Joint Image and Video Tokenization with Causal VAE Dawit Mureja Argaw, Xian Liu, Qinsheng Zhang, Joon Son Chung, Ming-Yu Liu, Fitsum Reda. International Conference on Learning Representations (ICLR), 2025. ICLR 2025 / OpenReview
	Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding Yao Teng, Han Shi, Xian Liu, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu. International Conference on Learning Representations (ICLR), 2025. ICLR 2025 / OpenReview / Code / arXiv
	EdgeRunner: Auto-regressive Auto-encoder for Artistic Mesh Generation Jiaxiang Tang, Zhaoshuo Li, Zekun Hao, Xian Liu, Gang Zeng, Ming-Yu Liu, Qinsheng Zhang. International Conference on Learning Representations (ICLR), 2025. ICLR 2025 / OpenReview / Project / Code / arXiv / Mesh Tokenizer
	MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls Yuxuan Bian, Ailing Zeng, Xuan Ju, Xian Liu, Zhaoyang Zhang, Wei Liu, Qiang Xu. AAAI Conference on Artificial Intelligence (AAAI), 2025. AAAI 2025 / Project / Code / Demo / arXiv / Dataset
	TC4D: Trajectory-Conditioned Text-to-4D Generation Sherwin Bahmani, Xian Liu, Yifan Wang, Ivan Skorokhodov, Victor Rong, Ziwei Liu, Xihui Liu, Jeong Joon Park, Sergey Tulyakov, Gordon Wetzstein, Andrea Tagliasacchi, David B. Lindell. European Conference on Computer Vision (ECCV*), 2024. ECCV 2024 / Project / arXiv / Github
	BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed Dual-Branch Diffusion Xuan Ju, Xian Liu, Xintao Wang, Yuxuan Bian, Ying Shan, Qiang Xu. European Conference on Computer Vision (ECCV), 2024. ECCV 2024 / Project / arXiv / Demo Video / Dataset / Github / HuggingFace Demo
	E²GAN: Efficient Training of Efficient GANs for Image-to-Image Translation Yifan Gong, Zheng Zhan, Qing Jin, Yanyu Li, Yerlan Idelbayev, Xian Liu, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren. International Conference on Machine Learning (ICML), 2024. ICML 2024 / Paper / arXiv
	HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting Xian Liu, Xiaohang Zhan, Jiaxiang Tang, Ying Shan, Gang Zeng, Dahua Lin, Xihui Liu, Ziwei Liu. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. (Highlight, Top 2.8%) CVPR 2024 / Project / Paper / arXiv / Demo Video / Code / Models
	TextCraftor: Your Text Encoder Can be Image Quality Controller Yanyu Li, Xian Liu, Anil Kag, Ju Hu, Yerlan Idelbayev, Dhritiman Sagar, Yanzhi Wang, Sergey Tulyakov, Jian Ren. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. CVPR 2024 / Project / Code / Paper / arXiv
	HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov. International Conference on Learning Representations (ICLR), 2024. (Review Score 6, 6, 8, 10, Top 1.6%, Rank) ICLR 2024 / OpenReview / Project / Paper / arXiv / Short Demo (3min) / Long Demo (10min) / Github
	Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos Rui Qian, Shuangrui Ding, Xian Liu, Dahua Lin. International Conference on Computer Vision (ICCV), 2023. ICCV 2023 / Paper
	Make-A-Volume: Leveraging Latent Diffusion Models for Cross-Modality 3D Brain MRI Synthesis Lingting Zhu, Zeyue Xue, Zhenchao Jin, Xian Liu, Jingzhen He, Xuanyu Liu, Ziwei Liu, Lequan Yu. Medical Image Computing and Computer Assisted Intervention (MICCAI), 2023. MICCAI 2023 / Paper
	Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation Xian Liu, Lingting Zhu, Xuanyu Liu, Rui Qian, Ziwei Liu, Lequan Yu. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023. CVPR 2023 / Paper / Code
	MonoHuman: Animatable Human Neural Field from Monocular Video Zhengming Yu, Wei Cheng, Xian Liu, Wayne Wu, Kwan-Yee Lin. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023. CVPR 2023 / Paper / Project / Code
	ChemSpacE: Interpretable and Interactive Chemical Space Exploration Yuanqi Du, Xian Liu, Shengchao Liu, Jieyu Zhang, Bolei Zhou. Transactions on Machine Learning Research (TMLR), 2023. TMLR 2023 / Paper / Poster
	Audio-Driven Co-Speech Gesture Video Generation Xian Liu, Qianyi Wu, Hang Zhou, Yuanqi Du, Wayne Wu, Dahua Lin, Ziwei Liu. Advances in Neural Information Processing Systems (NeurIPS), 2022. (Spotlight, Top 5%) NeurIPS 2022 / Paper / Project / Code
	Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation Xian Liu, Yinghao Xu, Qianyi Wu, Hang Zhou, Wayne Wu, Bolei Zhou. European Conference on Computer Vision (ECCV), 2022. (Oral, Top 2.7%) ECCV 2022 / Paper / Project / Code
	ChemSpacE: Toward Steerable and Interpretable Chemical Space Exploration Yuanqi Du, Xian Liu, Shengchao Liu, Jieyu Zhang, Bolei Zhou. International Conference on Learning Representations (ICLR) Workshop, 2022. Also appears at ELLIS 2021 MLMD Workshop. (Oral, Top 5%) ICLR 2022 / Paper / Poster
	Object-Compositional Neural Implicit Surfaces Qianyi Wu, Xian Liu, Yuedong Chen, Kejie Li, Chuanxia Zheng, Jianfei Cai, Jianmin Zheng. European Conference on Computer Vision (ECCV), 2022. ECCV 2022 / Paper / Project / Code
	Static and Dynamic Concepts for Self-supervised Video Representation Learning Rui Qian, Shuangrui Ding, Xian Liu, Dahua Lin. European Conference on Computer Vision (ECCV), 2022. ECCV 2022 / Paper / Code
	Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation Xian Liu, Qianyi Wu, Hang Zhou, Yinghao Xu, Rui Qian, Xinyi Lin, Xiaowei Zhou, Wayne Wu, Bo Dai, Bolei Zhou. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022. Also appears at CVPR 2022 Sight and Sound Workshop. [5-min Invited Talk] (link) CVPR 2022 / Paper / Poster / Project / Code
	Visual Sound Localization in the Wild by Cross-Modal Interference Erasing Xian Liu, Rui Qian, Hang Zhou, Di Hu, Weiyao Lin, Ziwei Liu, Bolei Zhou, Xiaowei Zhou. AAAI Conference on Artificial Intelligence (AAAI*), 2022. AAAI 2022 / Paper / Poster
	Enhancing Self-supervised Video Representation Learning via Multi-level Feature Optimization Rui Qian, Yuxi Li, Huabin Liu, John See, Shuangrui Ding, Xian Liu, Dian Li, Weiyao Lin. International Conference on Computer Vision (ICCV), 2021. ICCV 2021 / Paper / Code
	Motion Capture from Internet Videos Junting Dong, Qing Shuai, Yuanqing Zhang, Xian Liu, Xiaowei Zhou, Hujun Bao. European Conference on Computer Vision (ECCV), 2020. (Oral, Top 2%) ECCV 2020 / Paper / Project / Code