H-EmbodVis

Embodied Vision · World Models · Autonomous Driving · 3D Scene Understanding

H-EmbodVis (Huazhong University of Science and Technology Embodied Vision Projects) is a research initiative. We primarily focus on Embodied AI, while also exploring Autonomous Driving and Generative Models.

🔬 Research Areas

We focus on building intelligent systems that can perceive, understand, and interact with the physical world. Key directions include:

Embodied AI & Agents: Integrating vision, language, and action planning.
World Models for Autonomous Driving: Developing end-to-end driving frameworks and simulators.
3D Vision & Point Cloud Analysis: Efficient architectures for 3D representation learning.
Multimodal Foundation Models: Large-scale models for diverse data modalities.

🌟 Featured Projects

Autonomous Driving & World Models

HERMES (ICCV 2025) A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation.
Orion (ICCV 2025) Holistic End-to-End Autonomous Driving via Vision-Language Instructed Action Generation.
Awesome-World-Model Curated collection of papers on World Models for Autonomous Driving and Robotics.

3D Vision & Efficient Computing

PointMamba (NeurIPS 2024) State Space Models (Mamba) applied to Point Cloud Analysis.
UniSeg3D (NeurIPS 2024) A Unified Framework for 3D Scene Understanding.
PointGST (IEEE TPAMI) Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning.
EasyCache Training-Free Video Diffusion Acceleration.

Multimodal & Embodied Agents

NAUTILUS (NeurIPS 2025) A Large Multimodal Model for Underwater Scene Understanding.
GRANT (AAAI 2026 Oral) Teaching Embodied Agents for Parallel Task Execution.
MERGE (NeurIPS 2025) Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models.

Collaboration

We are always looking for passionate collaborators and students.

Connect: Reach out via email (dkliang@hust.edu.cn).
Reuse: Creating impactful open-source software is a core value. Please cite our papers if you use our code.

🌐 Website | 🎓 Google Scholar | 📂 Repositories

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

H-EmbodVis

H-EmbodVis

🔬 Research Areas

🌟 Featured Projects

Autonomous Driving & World Models

3D Vision & Efficient Computing

Multimodal & Embodied Agents

Collaboration

Pinned Loading

Repositories

Uh oh!

People

Top languages

Uh oh!

Most used topics

Uh oh!