Zheng Zhu (朱政)

Selected Pre-print Publications

· Zheng Zhu, Xiaofeng Wang, Wangbo Zhao, Chen Min, Nianchen Deng, Min Dou, Yuqi Wang, Botian Shi, Kai Wang, Chi Zhang, Yang You, Zhaoxiang Zhang, Dawei Zhao, Liang Xiao, Jian Zhao, Jiwen Lu, Guan Huang. Is Sora a world simulator? a comprehensive survey on general world models and beyond. arXiv preprint arXiv:2405.03520, 2024.

· Xiaofeng Wang, Zheng Zhu, Guan Huang, Boyuan Wang, Xinze Chen, Jiwen Lu. WorldDreamer: Towards general world models for video generation via predicting masked tokens. arXiv preprint arXiv:2401.09985, 2024.

· Licheng Wen, Xuemeng Yang, Daocheng Fu, Xiaofeng Wang, Pinlong Cai, Xin Li, Tao Ma, Yingxuan Li, Linran Xu, Dengke Shang, Zheng Zhu, Shaoyan Sun, Yeqi Bai, Xinyu Cai, Min Dou, Shuanglu Hu, Botian Shi, Yu Qiao. On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving. arXiv preprint arXiv:2311.05332, 2023.

· Yunpeng Zhang, Zheng Zhu, Wenzhao Zheng, Junjie Huang, Guan Huang, Jie Zhou, Jiwen Lu. BEVerse: Unified perception and prediction in birds-eye-view for vision-centric autonomous driving. arXiv preprint arXiv:2205.09743, 2022.

· Junjie Huang, Guan Huang, Zheng Zhu, Yun Ye, Dalong Du. BEVDet: High-performance multi-camera 3d object detection in bird-eye-view. arXiv preprint arXiv:2112.11790, 2021.

Selected Conference Publications

·Guosheng Zhao, Xiaofeng Wang, Chaojun Ni, Zheng Zhu, Wenkang Qin, Guan Huang, Xingang Wang. ReconDreamer++: Harmonizing Generative and Reconstructive Models for Driving Scene Representation. IEEE International Conference on Computer Vision (ICCV), 2025.

·Chaojun Ni, Xiaofeng Wang, Zheng Zhu, Weijie Wang, Haoyun Li, Guosheng Zhao, Jie Li, Wenkang Qin, Guan Huang, Wenjun Mei. WonderTurbo: Generating Interactive 3D World in 0.72 Seconds. IEEE International Conference on Computer Vision (ICCV), 2025.

·Xianda Guo, Wenjie Yuan, Yunpeng Zhang, Tian Yang, Chenming Zhang, Zheng Zhu, Qin Zou, Long Chen. Adjacent-view Transformers for Supervised Surround-view Depth Estimation. IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2025.

·Chaojun Ni, Guosheng Zhao, Xiaofeng Wang, Zheng Zhu, Wenkang Qin, Guan Huang, Chen Liu, Yuyin Chen, Yida Wang, Xueyang Zhang, Yifei Zhan, Kun Zhan, Peng Jia, Xianpeng Lang, Xingang Wang, Wenjun Mei. ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025.

· Guosheng Zhao, Chaojun Ni, Xiaofeng Wang, Zheng Zhu, Guan Huang, Xinze Chen, Boyuan Wang, Youyi Zhang, Wenjun Mei, Xingang Wang. DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025.

· Boyuan Wang, Xiaofeng Wang, Chaojun Ni, Guosheng Zhao, Zhiqin Yang, Zheng Zhu, Muyang Zhang, YuKun Zhou, Xinze Chen, Guan Huang, Lihong Liu, Xingang Wang. HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025.

· Yifan Wang, Jian Zhao, Zhaoxin Fan, Xin Zhang, Xuecheng Wu, Yudian Zhang, Lei Jin, Xinyue Li, Gang Wang, Mengxi Jia, Ping Hu, Zheng Zhu, Xuelong Li. JTD-UAV: MLLM-Enhanced Joint Tracking and Description Framework for Anti-UAV Systems. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025.

· Guosheng Zhao, Xiaofeng Wang, Zheng Zhu, Xinze Chen, Guan Huang, Xiaoyi Bao, Xingang Wang. DriveDreamer-2: LLM-enhanced world models for diverse driving video generation. AAAI Conference on Artificial Intelligence (AAAI), 2025.

·Boyu Zhang, Zheng Zhu, Wenbo Xu. Detachable novel views synthesis of dynamic scenes using distribution-driven neural radiance fields. AAAI Conference on Artificial Intelligence (AAAI), 2025.

·Xiaofeng Wang, Zheng Zhu, Guan Huang, Xinze Chen, Jiwen Lu. DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving. European Conference on Computer Vision (ECCV), 2024.

·Zijian Zhou, Zheng Zhu, Holger Caesar, Miaojing Shi. OpenPSG: Open-set Panoptic Scene Graph Generation via Large Multimodal Models. European Conference on Computer Vision (ECCV), 2024.

·Yiqun Duan, Xianda Guo, Zheng Zhu. DiffusionDepth: Diffusion denoising approach for monocular depth estimation. European Conference on Computer Vision (ECCV), 2024.

·Chen Min, Dawei Zhao, Liang Xiao, Jian Zhao, Xinli Xu, Zheng Zhu, Lei Jin, Jianshu Li, Yulan Guo, Junliang Xing, Liping Jing10, Yiming Nie, Bin Dai. DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024.

·Jianqiang Xia, DianXi Shi, Ke Song, Linna Song, XiaoLei Wang, Songchang Jin, Li Zhou, Yu Cheng, Lei Jin, Zheng Zhu, Jianan Li, Gang Wang, Junliang Xing, Jian Zhao. Unified Single-Stage Transformer Network for Efficient RGB-T Tracking. International Joint Conference on Artificial Intelligence (IJCAI), 2024.

·Jiayu Zou, Kun Tian, Zheng Zhu, Yun Ye, Xingang Wang. DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception. AAAI Conference on Artificial Intelligence (AAAI), 2024.

·Bohan Li, Yasheng Sun, Jingxin Dong, Zheng Zhu, Jinming Liu, Xin Jin, Wenjun Zeng. One at A Time: Progressive Multi-step Volumetric Probability Learning for Reliable 3D Scene Perception. AAAI Conference on Artificial Intelligence (AAAI), 2024.

·Xiaofeng Wang, Zheng Zhu, Wenbo Xu, Yunpeng Zhang, Yi Wei, Xu Chi, Yun Ye, Dalong Du, Jiwen Lu, Xingang Wang. OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic Occupancy Perception. IEEE International Conference on Computer Vision (ICCV), 2023.

·Yunpeng Zhang, Zheng Zhu, Dalong Du. OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy Prediction. IEEE International Conference on Computer Vision (ICCV), 2023.

·Yi Wei, Linqing Zhao, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu. SurroundOcc: Multi-camera 3D Occupancy Prediction for Autonomous Driving. IEEE International Conference on Computer Vision (ICCV), 2023.

·Yanqing Liu, Jianyang Gu, Kai Wang, Zheng Zhu, Wei Jiang, Yang You. DREAM: Efficient Dataset Distillation by Representative Matching. IEEE International Conference on Computer Vision (ICCV), 2023.

·Han Xiao, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu. Token-Label Alignment for Vision Transformers. IEEE International Conference on Computer Vision (ICCV), 2023.

· Chengkun Wang, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu. OPERA: Omni-Supervised Representation Learning with Hierarchical Supervisions.IEEE International Conference on Computer Vision (ICCV), 2023.

·Ming Wang, Xianda Guo, Beibei Lin, Tian Yang, Zheng Zhu, Lincheng Li, Shunli Zhang, Xin Yu. DyGait: Exploiting Dynamic Representations for High-performance Gait Recognition. IEEE International Conference on Computer Vision (ICCV), 2023.

·Xiaofeng Wang, Zheng Zhu, Yunpeng Zhang, Guan Huang, Yun Ye, Wenbo Xu, Ziwei Chen, Xingang Wang. Are We Ready for Vision-Centric Driving Streaming Perception? The ASAP Benchmark. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023.

·Shuai Shen, Wenliang Zhao, Zibin Meng, Wanhua Li, Zheng Zhu, Jie Zhou, Jiwen Lu. DiffTalk: Crafting Diffusion Models for Generalized Talking Head Synthesis. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023.

·Youmin Zhang, Xianda Guo, Matteo Poggi, Zheng Zhu, Guan Huang, Stefano Mattoccia. CompletionFormer: Depth Completion with Convolutions and Vision Transformers. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023.

·Jianfei Yang, Xiangyu Peng, Kai Wang, Zheng Zhu, Jiashi Feng, Lihua Xie, Yang You. Divide to Adapt: Mitigating Confirmation Bias for Domain Adaptation of Black-Box Predictors. International Conference on Learning Representations (ICLR), 2023.

·Kun Tian, Yun Ye, Zheng Zhu, Peng Li, Guan Huang. Efficient and Hybrid Decoder for Local Map Construction in Bird's-Eye-View. IEEE International Conference on Robotics and Automation (ICRA), 2023.

·Jiayu Zou, Zheng Zhu, Junjie Huang, Tian Yang, Guan Huang, Xingang Wang. HFT: Lifting Perspective Representations via Hybrid Feature Transformation for BEV Perception. IEEE International Conference on Robotics and Automation (ICRA), 2023.

·Xiaofeng Wang, Zheng Zhu, Guan Huang, Xu Chi, Yun Ye, Ziwei Chen, Xingang Wang. Crafting Monocular Cues and Velocity Guidance for Self-Supervised Multi-Frame Depth Learning. AAAI Conference on Artificial Intelligence (AAAI), 2023.

·Yunpeng Zhang, Wenzhao Zheng, Zheng Zhu, Guan Huang, Jiwen Lu, Jie Zhou. A Simple Baseline for Multi-Camera 3D Object Detection. AAAI Conference on Artificial Intelligence (AAAI), 2023.

·Yi Wei, Linqing Zhao, Wenzhao Zheng, Zheng Zhu, Yongming Rao, Guan Huang, Jiwen Lu, Jie Zhou. SurroundDepth: entangling surrounding views for self-supervised multi-camera depth estimation. Conference on Robot Learning (CoRL), 2022.

· Wanhua Li, Xiaoke Huang, Zheng Zhu, Yansong Tang, Xiu Li, Jie Zhou, and Jiwen Lu. OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression, Advances in Neural Information Processing Systems (NeurIPS), 2022.

· Xiaofeng Wang, Zheng Zhu, Fangbo Qin, Yun Ye, Guan Huang, Xu Chi, Yijia He, Xingang Wang. MVSTER: Epipolar Transformer for Efficient Multi-View Stereo. Proceedings of the European Conference on Computer Vision (ECCV), 2022.

· Shuai Shen, Wanhua Li, Zheng Zhu, Yueqi Duan, Jie Zhou, Jiwen Lu. Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis. Proceedings of the European Conference on Computer Vision (ECCV), 2022.

· Yunpeng Zhang, Wenzhao Zheng, Zheng Zhu, Guan Huang, Dalong Du, Jiwen Lu, Jie Zhou. Dimension Embeddings for Monocular 3D Object Detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

· Xiangyu Peng, Kai Wang, Zheng Zhu, Mang Wang, Yang You. Crafting Better Contrastive Views for Siamese Representation Learning. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), ORAL, 2022.

· Qingping Zheng, Jiankang Deng, Zheng Zhu, Ying Li, Stefanos Zafeiriou. Decoupled Multi-task Learning with Cyclical Self-Regulation for Face Parsing. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

· Han Xiao, Ziwei Wang, Zheng Zhu, Jie Zhou, Jiwen Lu. Shapley-NAS: Discovering Operation Contribution for Neural Architecture Search. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

· Kai Wang, Bo Zhao, Xiangyu Peng, Zheng Zhu, Shuo Yang, Shuo Wang, Guan Huang, Hakan Bilen, Xinchao Wang, Yang You. CAFE: Learning to Condense Dataset by Aligning Features. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

· Yongming Rao, Wenliang Zhao, Guangyi Chen, Yansong Tang, Zheng Zhu, Guan Huang, Jie Zhou, Jiwen Lu. DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

· Kai Wang, Shuo Wang, Panpan Zhang, Zhipeng Zhou, Zheng Zhu, Xiaobo Wang, Xiaojiang Peng, Baigui Sun, Hao Li, Yang You. An Efficient Training Approach for Very Large Scale Face Recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

· Yongming Rao, Wenliang Zhao, Zheng Zhu, Jiwen Lu, and Jie Zhou. Global Filter Networks for Image Classification. Proceedings of the Advances in Neural Information Processing Systems (NeurIPS), 2021.

· Zheng Zhu, Xianda Guo, Tian Yang, Junjie Huang, Jiankang Deng, Guan Huang, Dalong Du, Jiwen Lu and Jie Zhou. Gait Recognition in the Wild: A Benchmark. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2021.

· Zheng Zhu, Guan Huang, Jiankang Deng, Yun Ye, Junjie Huang, Xinze Chen, Jiagang Zhu, Tian Yang, Jiwen Lu, Dalong Du and Jie Zhou. WebFace260M: A benchmark unveiling the power of million-scale deep face recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021. [ paper]

· Shuai Shen, Wanhua Li, Zheng Zhu, Guan Huan, Dalong Du, Jiwen Lu and Jie Zhou. Structure-Aware Face Clustering on a Large-Scale Graph with 10^7 Nodes. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021.

· Junjie Huang, Zheng Zhu, Feng Guo, Guan Huang. The Devil is in the Details: Delving into Unbiased Data Processing for Human Pose Estimation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020.

· Yanwei Li, Xinze Chen, Zheng Zhu, Lingxi Xie, Guan Huang, Dalong Du, Xingang Wang. Attention-guided Unified Network for Panoptic Segmentation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. [paper]

· Zheng Zhu, Qiang Wang, Bo Li, Wei Wu, Junjie Yan and Weiming Hu. Distractor-aware Siamese Networks for Visual Object Tracking. Proceedings of the European Conference on Computer Vision (ECCV), 2018. [paper] [project] [poster]

· Zheng Zhu, Wei Wu, Wei Zou, Junjie Yan. End-to-end Flow Correlation Tracking with Spatial-temporal Attention. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. [paper] [poster]

· Bo Li, Junjie Yan, Wei Wu, Zheng Zhu, Xiaolin Hu. High Performance Visual Tracking with Siamese Region Proposal Network. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. [paper] [project] [poster]

Selected Journal Publications

· Xianda Guo, Zheng Zhu, Tian Yang, Beibei Lin, Junjie Huang, Jiankang Deng, Guan Huang, Jie Zhou, Jiwen Lu. Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based Baseline. IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE TPAMI), 2025.

· Zheng Zhu, Guan Huang, Jiankang Deng, Yun Ye, Junjie Huang, Xinze Chen, Jiagang Zhu, Tian Yang, Dalong Du, Jiwen Lu and Jie Zhou. WebFace260M: A Benchmark for Million-Scale Deep Face Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE TPAMI), 2023.

· Chengkun Wang, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu. Introspective Deep Metric Learning. IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE TPAMI), 2023.

· Shuai Shen, Wanhua Li, Zheng Zhu, Jie Zhou, Jiwen Lu. STAR-FC: Structure-Aware Face Clustering on UltraLarge-Scale Graphs. IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE TPAMI), 2023.

· Yongming Rao, Wenliang Zhao, Zheng Zhu, Jie Zhou and Jiwen Lu. GFNet: Global Filter Networks for Visual Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE TPAMI), 2023.

· Binyuan Huang, Yongdong Luo, Xianda Guo, Xiawu Zheng, Zheng Zhu, Chengju Zhou. Watch Where You Move: Region-aware Dynamic Aggregation and Excitation for Gait Recognition. IEEE Transactions on Multimedia (TMM), 2025.

· Shuai Shen, Wanhua Li, Xiaoke Huang, Zheng Zhu, Jie Zhou, Jiwen Lu. SD-NeRF: Lifelike Talking Head Animation via Spatially-adaptive Dual-driven NeRFs. IEEE Transactions on Multimedia (TMM), 2023.

· Hongxuan Ma, Wei Zou, Zheng Zhu, Chi Zhang, Zhaobing Kang. Moving to OOP: An Active Observation Approach for A Novel Composite Visual Servoing Configuration. IEEE Transactions on Instrumentation and Measurement (IEEE TIM), 2020.