arxiv_cv 97% Match Research Paper Game Developers,3D Artists,VR/AR Developers,Computer Graphics Researchers 2 weeks ago

Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation

computer-vision › 3d-vision

📄 Abstract

Abstract: Generating artistic and coherent 3D scene layouts is crucial in digital content creation. Traditional optimization-based methods are often constrained by cumbersome manual rules, while deep generative models face challenges in producing content with richness and diversity. Furthermore, approaches that utilize large language models frequently lack robustness and fail to accurately capture complex spatial relationships. To address these challenges, this paper presents a novel vision-guided 3D layout generation system. We first construct a high-quality asset library containing 2,037 scene assets and 147 3D scene layouts. Subsequently, we employ an image generation model to expand prompt representations into images, fine-tuning it to align with our asset library. We then develop a robust image parsing module to recover the 3D layout of scenes based on visual semantics and geometric information. Finally, we optimize the scene layout using scene graphs and overall visual semantics to ensure logical coherence and alignment with the images. Extensive user testing demonstrates that our algorithm significantly outperforms existing methods in terms of layout richness and quality. The code and dataset will be available at https://github.com/HiHiAllen/Imaginarium.

Authors (11)

Xiaoming Zhu

Xu Huang

Qinghongbing Xie

Zhi Deng

Junsheng Yu

Yirui Guan

+5 more

Submitted

October 17, 2025

arXiv Category

cs.CV

arXiv PDF

Key Contributions

Imaginarium is a novel vision-guided system for generating high-quality 3D scene layouts. It leverages a curated asset library, fine-tuned image generation models, and robust image parsing to create coherent scenes, overcoming limitations of traditional methods and LLM-based approaches in capturing spatial relationships.

Business Value

Accelerates the creation of complex 3D environments for games, VR/AR experiences, and visual effects, reducing production time and costs for digital content creators.

Paper Metadata

Innovation Type

System/Framework Innovation

Deployment Feasibility

Moderate. Requires a substantial asset library and computational resources for generation. Integration into existing DCC pipelines is possible.

Limitations Addressed

Cumbersome manual rules in optimization-based methods,Lack of richness and diversity in deep generative models,Lack of robustness and inaccurate spatial relationship capture in LLM approaches

Performance Gains

Generates artistic and coherent 3D scene layouts.,Improved robustness and spatial relationship capture compared to LLM methods.

Technical Tags

3D scene generationlayout generationvision-guidedasset libraryimage generation modelimage parsingscene graphsdigital content creation

Research Topics

Computer Graphics3D Computer VisionGenerative AIScene UnderstandingContent Creation

Methods & Architectures

Vision-guided 3D layout generation systemImage generation model fine-tuningImage parsing moduleScene graph optimizationAsset library utilization Image Generation Models

Applications & Tasks

Game Development Virtual Reality (VR) Augmented Reality (AR) Film and Animation Architectural Visualization 3D Scene GenerationProcedural Content GenerationLayout Optimization Generating artistic and coherent 3D scene layoutsAutomating 3D scene creation

Related Fields

Computer GraphicsVirtual RealityGame DevelopmentArtificial Intelligence

Keywords

3D scene generationlayout generationcomputer graphicsgenerative AIvision-guidedasset libraryscene graphsvirtual realitygame developmentcontent creation

Academic Context

#Computer Graphics#3D Computer Vision#Generative AI#Scene Understanding#Content Creation

Commercial Potential

Potential Products

Automated 3D environment generation toolsPlugins for game engines (Unity, Unreal)VR/AR content creation platforms

Target Industries

GamingVirtual RealityAugmented RealityFilm and AnimationArchitectureDesign

Use Case Examples

Rapidly generating diverse game levelsCreating virtual environments for training simulationsDesigning virtual showrooms or architectural walkthroughs

Competitive Edge

Offers a more robust and visually coherent approach to 3D scene layout generation compared to existing methods, particularly by integrating vision guidance and a structured asset library.

Market Opportunity

Large and growing market for 3D content creation tools and platforms.

Revenue Models

Software licensingsubscription servicesasset marketplace.

Resource Requirements

Compute Needs

High, for training image generation models and generating complex 3D scenes.

Data Requirements

A large, high-quality asset library and curated 3D scene layouts.

Deployment Constraints

Requires significant storage for the asset library, computational power for generation, and potentially integration with existing 3D modeling software.

Scalability

Scalability depends on the size of the asset library and the complexity of the scenes being generated.

Production Readiness

Maturity Level

Research

Time to Market

2-4 years for commercial tools.

Patent Potential

High, for the overall system architecture, vision-guided generation process, and asset library integration.

View Full Paper Back to Papers