arxiv_cv 90% Match Research Paper Reinforcement Learning Researchers,Robotics Engineers,AI Researchers,Computer Vision Engineers 2 days ago

NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation

reinforcement-learning › robotics-rl

📄 Abstract

Abstract: Recent advances in reinforcement learning (RL) have strengthened the reasoning capabilities of vision-language models (VLMs). However, enhancing policy exploration to better scale test-time compute remains largely underexplored. In addition, VLMs continue to struggle with imperfect visual perception, which in turn affects the subsequent reasoning process. We introduce NoisyRollout, a simple yet effective data augmentation method that addresses these issues by mixing training trajectories from both clean and moderately distorted images. This approach injects perceptual diversity, encouraging better policy exploration and leading to more robust reasoning. A noise annealing schedule gradually reduces distortion strength, aiding exploration early in training while ensuring later stability. Crucially, our method is easy-to-adopt--requiring no additional training cost and no modifications to the RL objective. Extensive experiments on 2 distinct training datasets demonstrate that NoisyRollout achieves state-of-the-art performance among open-source RL-tuned models across 5 out-of-domain reasoning and perception benchmarks. Furthermore, we validate the effectiveness of NoisyRollout across model sizes (7B and 32B), data scales (from 1K to 6K) and image augmentation types (Gaussion noise and rotation), highlighting its generalizability and scalability.

Authors (8)

Xiangyan Liu

Jinjie Ni

Zijian Wu

Chao Du

Longxu Dou

Haonan Wang

+2 more

Submitted

April 17, 2025

arXiv Category

cs.CV

arXiv PDF

Key Contributions

Introduces NoisyRollout, a simple and effective data augmentation method for reinforcement learning that mixes training trajectories from clean and distorted images. This approach enhances policy exploration, improves robustness, and leads to better reasoning without additional training cost or modification to the RL objective.

Business Value

Leads to more capable and reliable AI agents for tasks requiring interaction with the physical world or complex visual environments, such as robotics and autonomous systems, reducing errors caused by perceptual ambiguities.

Paper Metadata

Innovation Type

Data Augmentation Technique

Deployment Feasibility

High. The method is easy to adopt, requires no additional training cost, and does not modify the RL objective, making it readily integrable into existing RL pipelines.

Limitations Addressed

Challenges in enhancing policy exploration for scaling test-time compute in RL, and the struggle of VLMs with imperfect visual perception which hinders reasoning.

Performance Gains

Demonstrates improved policy exploration and more robust reasoning capabilities in VLMs trained with NoisyRollout.

Technical Tags

reinforcement learningvision-language models (VLMs)data augmentationpolicy explorationperceptual diversityrobust reasoningnoise annealingtraining stabilityRL objectivevisual perception

Research Topics

Reinforcement LearningVision-Language ModelsData AugmentationRoboticsAI ReasoningPerception

Methods & Architectures

Data Augmentation (NoisyRollout)Noise Annealing ScheduleMixing Clean and Distorted Images Vision-Language Models (VLMs)

Applications & Tasks

Robotics Autonomous Agents Embodied AI Natural Language Interaction Limited policy exploration in RLScaling test-time computeImperfect visual perception affecting reasoningLack of robustness in VLMs Enhancing RL policy explorationImproving robustness of VLMsStrengthening visual reasoning capabilities

Related Fields

Reinforcement LearningComputer VisionNatural Language ProcessingRoboticsData AugmentationAI Ethics (Robustness)

Keywords

Reinforcement LearningVision-Language ModelsData AugmentationPolicy ExplorationRobustnessVisual ReasoningRoboticsAI AgentsPerceptionNoise Annealing

Academic Context

#Reinforcement Learning#Vision-Language Models#Data Augmentation#Robotics#AI Reasoning#Perception

Technology Stack

Frameworks & Libraries

PyTorch

Programming Languages

Python

Commercial Potential

Potential Products

More robust AI agents for robotic manipulation and navigationImproved virtual assistants with better visual understandingSimulation tools for training robust RL agents

Target Industries

RoboticsAutomotiveLogisticsGamingVirtual Reality

Use Case Examples

Training robots to perform tasks in cluttered or visually ambiguous environments.Developing autonomous agents that can understand and respond to complex visual instructions.

Competitive Edge

Offers a simple yet effective method to improve the robustness and exploration capabilities of VLMs in RL, potentially surpassing methods that require more complex architectural changes or training regimes.

Market Opportunity

Large and growing market for advanced RL solutions in robotics and AI.

Revenue Models

Integration into RL software libraries and platformsconsulting services.

Resource Requirements

Compute Needs

Moderate, as it adds minimal overhead to existing RL training.

Data Requirements

Requires training datasets for RL tasks, potentially augmented with noisy versions of images.

Deployment Constraints

Effectiveness may depend on the specific RL task and the nature of visual noise introduced.

Scalability

Scalable to various RL tasks and VLM architectures due to its general applicability as a data augmentation technique.

Production Readiness

Maturity Level

Research Prototype

Time to Market

1-3 years, for integration into specific RL applications.

Patent Potential

Moderate, potential for novel data augmentation strategies in RL.

View Full Paper Back to Papers