arxiv_cv 95% Match Research Paper AI Researchers,Generative Model Developers,ML Engineers,Artists and Designers using AI tools 2 weeks ago

Ranking-based Preference Optimization for Diffusion Models from Implicit User Feedback

generative-ai › diffusion-models

📄 Abstract

Abstract: Direct preference optimization (DPO) methods have shown strong potential in aligning text-to-image diffusion models with human preferences by training on paired comparisons. These methods improve training stability by avoiding the REINFORCE algorithm but still struggle with challenges such as accurately estimating image probabilities due to the non-linear nature of the sigmoid function and the limited diversity of offline datasets. In this paper, we introduce Diffusion Denoising Ranking Optimization (Diffusion-DRO), a new preference learning framework grounded in inverse reinforcement learning. Diffusion-DRO removes the dependency on a reward model by casting preference learning as a ranking problem, thereby simplifying the training objective into a denoising formulation and overcoming the non-linear estimation issues found in prior methods. Moreover, Diffusion-DRO uniquely integrates offline expert demonstrations with online policy-generated negative samples, enabling it to effectively capture human preferences while addressing the limitations of offline data. Comprehensive experiments show that Diffusion-DRO delivers improved generation quality across a range of challenging and unseen prompts, outperforming state-of-the-art baselines in both both quantitative metrics and user studies. Our source code and pre-trained models are available at https://github.com/basiclab/DiffusionDRO.

Authors (4)

Yi-Lun Wu

Bo-Kai Ruan

Chiang Tseng

Hong-Han Shuai

Submitted

October 21, 2025

arXiv Category

cs.CV

arXiv PDF

Key Contributions

Diffusion-DRO is a novel preference learning framework for diffusion models that avoids reward models by framing preference learning as a ranking problem solvable via denoising. It overcomes issues with probability estimation and dataset diversity by integrating offline expert demonstrations with online policy samples, offering improved training stability and alignment.

Business Value

Enables the creation of more user-aligned and aesthetically pleasing AI-generated images, improving tools for artists, designers, and content creators, and potentially leading to more personalized visual content.

Paper Metadata

Innovation Type

novel preference learning framework

Deployment Feasibility

Moderate, requires careful integration into diffusion model training pipelines, but avoids the complexity of training separate reward models.

Limitations Addressed

accurately estimating image probabilities,limited diversity of offline datasets,dependency on reward models,training stability issues

Technical Tags

diffusion modelspreference optimizationimplicit feedbackranking optimizationinverse reinforcement learningdenoising formulationreward model avoidanceoffline datasetsonline samplestext-to-image generation

Research Topics

Generative AIDiffusion ModelsReinforcement LearningHuman-AI AlignmentMachine Learning Optimization

Methods & Architectures

Diffusion Denoising Ranking Optimization (Diffusion-DRO)Inverse Reinforcement Learning (IRL)ranking problem formulationdenoising formulationintegration of expert demonstrations and policy samples Diffusion Models

Applications & Tasks

Text-to-Image Generation Content Creation AI Art Challenges in estimating image probabilities with sigmoidLimited diversity of offline datasetsDependency on reward modelsTraining stability issues with REINFORCE Aligning Diffusion Models with Human PreferencesText-to-Image GenerationPreference LearningImage Generation Optimization

Datasets & Benchmarks

Datasets

offline expert demonstrations, online policy-generated negative samples

Related Fields

Generative AIDeep LearningReinforcement LearningHuman-Computer Interaction

Keywords

diffusion modelspreference optimizationhuman alignmenttext-to-imagerankingreinforcement learninggenerative AIdeep learningdenoisingimplicit feedback

Academic Context

#Generative AI#Diffusion Models#Reinforcement Learning#Human-AI Alignment#Machine Learning Optimization

Commercial Potential

Potential Products

More controllable and aligned text-to-image generation toolsPersonalized image generation services

Target Industries

Creative ArtsMediaAdvertisingTechnology

Use Case Examples

Generating images that better match user aesthetic preferencesFine-tuning diffusion models based on implicit user feedback (e.g., likes, shares)

Competitive Edge

Offers an alternative to Direct Preference Optimization (DPO) by using Inverse Reinforcement Learning and a denoising formulation, aiming for better stability and overcoming issues with probability estimation.

Resource Requirements

Compute Needs

Moderate to high, depending on the size of the diffusion model and the amount of data used for training.

Data Requirements

Requires datasets of implicit user feedback (e.g., rankings, comparisons) and potentially expert demonstrations.

Deployment Constraints

Integration into existing diffusion model training pipelines, computational cost.

Scalability

The framework's ability to integrate offline and online data suggests good scalability in terms of learning from diverse feedback sources.

View Full Paper Back to Papers