arxiv_ai 95% Match Research Paper AI Researchers,NLP Engineers,Computer Vision Engineers,Information Retrieval Specialists 2 weeks ago

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

large-language-models › multimodal-llms

📄 Abstract

Abstract: Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for enhancing large language models (LLMs) by retrieving relevant documents from an external corpus. However, existing RAG systems primarily focus on unimodal text documents, and often fall short in real-world scenarios where both queries and documents may contain mixed modalities (such as text and images). In this paper, we address the challenge of Universal Retrieval-Augmented Generation (URAG), which involves retrieving and reasoning over mixed-modal information to improve vision-language generation. To this end, we propose Nyx, a unified mixed-modal to mixed-modal retriever tailored for URAG scenarios. To mitigate the scarcity of realistic mixed-modal data, we introduce a four-stage automated pipeline for generation and filtering, leveraging web documents to construct NyxQA, a dataset comprising diverse mixed-modal question-answer pairs that better reflect real-world information needs. Building on this high-quality dataset, we adopt a two-stage training framework for Nyx: we first perform pre-training on NyxQA along with a variety of open-source retrieval datasets, followed by supervised fine-tuning using feedback from downstream vision-language models (VLMs) to align retrieval outputs with generative preferences. Experimental results demonstrate that Nyx not only performs competitively on standard text-only RAG benchmarks, but also excels in the more general and realistic URAG setting, significantly improving generation quality in vision-language tasks.

Authors (4)

Chenghao Zhang

Guanting Dong

Xinyu Yang

Zhicheng Dou

Submitted

October 20, 2025

arXiv Category

cs.CL

arXiv PDF

Key Contributions

This paper introduces Nyx, a unified mixed-modal to mixed-modal retriever for Universal Retrieval-Augmented Generation (URAG) scenarios. It addresses the scarcity of mixed-modal data by proposing an automated pipeline to construct the NyxQA dataset, which better reflects real-world information needs for vision-language generation.

Business Value

Enables more sophisticated AI assistants and search engines that can understand and generate content from diverse data types (text, images), leading to richer user experiences and more accurate information retrieval.

Paper Metadata

Innovation Type

Novel Architecture and Dataset

Deployment Feasibility

Moderate. Requires significant computational resources for training and inference of mixed-modal models. Data generation pipeline needs careful validation.

Limitations Addressed

Existing RAG systems primarily focus on unimodal text documents and struggle with mixed-modal queries and documents. The scarcity of realistic mixed-modal data for training is also addressed.

Technical Tags

Retrieval-Augmented GenerationMixed-Modal RetrievalVision-Language GenerationUnified RetrieverAutomated Data GenerationQuestion-AnsweringLarge Language ModelsMultimodal Datasets

Research Topics

Multimodal AIInformation RetrievalNatural Language ProcessingComputer VisionKnowledge Augmentation

Methods & Architectures

Retrieval-Augmented Generation (RAG)Mixed-modal to mixed-modal retrievalAutomated data generation pipelineFilteringQuestion-answering generation Unified mixed-modal retriever (Nyx)

Applications & Tasks

Information retrieval Content generation Knowledge management Handling mixed-modal dataScarcity of realistic mixed-modal dataImproving LLM generation with external knowledge Universal Retrieval-Augmented Generation (URAG)Mixed-modal retrievalVision-language generation

Datasets & Benchmarks

Datasets

NyxQA

Related Fields

Natural Language ProcessingComputer VisionInformation RetrievalMachine Learning

Keywords

Retrieval-Augmented GenerationRAGMixed-modalMultimodalVision-LanguageLLMUniversal RetrievalNyxNyxQADatasetGenerationInformation RetrievalComputer Vision

Academic Context

#Multimodal AI#Information Retrieval#Natural Language Processing#Computer Vision#Knowledge Augmentation

Commercial Potential

Potential Products

Advanced search enginesMultimodal content generation toolsAI assistants capable of understanding images and text

Target Industries

TechnologyMediaE-commerceEducation

Use Case Examples

Answering questions based on an image and accompanying textGenerating descriptions for products that include imagesSummarizing documents containing both text and visual elements

Competitive Edge

Extends existing RAG paradigms to handle multimodal inputs, offering a more comprehensive solution for scenarios involving diverse data types.

Market Opportunity

Growing market for multimodal AI and advanced LLM applications.

Revenue Models

API accessspecialized AI serviceslicensing of models/datasets

Resource Requirements

Compute Needs

High (for training and inference of large multimodal models)

Data Requirements

Large, diverse mixed-modal datasets (NyxQA)

Deployment Constraints

Computational cost, data availability and quality

Scalability

Scalability depends on the underlying LLM and retrieval architecture. Efficient indexing and retrieval mechanisms are crucial.

Production Readiness

Maturity Level

Research

Time to Market

2-4 years

Patent Potential

Low to Moderate (novel architectures and datasets might be patentable)

View Full Paper Back to Papers