arxiv_cv 95% Match Research Paper Radiologists,Medical researchers,AI developers in healthcare,Computer vision scientists,NLP researchers 1 week ago

3D-RAD: A Comprehensive 3D Radiology Med-VQA Dataset with Multi-Temporal Analysis and Diverse Diagnostic Tasks

large-language-models › multimodal-llms

📄 Abstract

Abstract: Medical Visual Question Answering (Med-VQA) holds significant potential for clinical decision support, yet existing efforts primarily focus on 2D imaging with limited task diversity. This paper presents 3D-RAD, a large-scale dataset designed to advance 3D Med-VQA using radiology CT scans. The 3D-RAD dataset encompasses six diverse VQA tasks: anomaly detection, image observation, medical computation, existence detection, static temporal diagnosis, and longitudinal temporal diagnosis. It supports both open- and closed-ended questions while introducing complex reasoning challenges, including computational tasks and multi-stage temporal analysis, to enable comprehensive benchmarking. Extensive evaluations demonstrate that existing vision-language models (VLMs), especially medical VLMs exhibit limited generalization, particularly in multi-temporal tasks, underscoring the challenges of real-world 3D diagnostic reasoning. To drive future advancements, we release a high-quality training set 3D-RAD-T of 136,195 expert-aligned samples, showing that fine-tuning on this dataset could significantly enhance model performance. Our dataset and code, aiming to catalyze multimodal medical AI research and establish a robust foundation for 3D medical visual understanding, are publicly available at https://github.com/Tang-xiaoxiao/3D-RAD.

Authors (6)

Xiaotang Gai

Jiaxiang Liu

Yichen Li

Zijie Meng

Jian Wu

Zuozhu Liu

Submitted

June 11, 2025

arXiv Category

cs.CV

arXiv PDF

Key Contributions

This paper introduces 3D-RAD, a large-scale dataset for 3D Medical Visual Question Answering (Med-VQA) using CT scans, encompassing six diverse VQA tasks including multi-temporal analysis. It highlights the limited generalization of current VLMs, especially medical VLMs, in complex 3D diagnostic reasoning, particularly for multi-temporal tasks, underscoring the need for better models.

Business Value

Accelerates the development of AI-powered clinical decision support systems for radiologists, leading to improved diagnostic accuracy, efficiency, and patient outcomes in medical imaging.

Paper Metadata

Innovation Type

Dataset and Evaluation Benchmark

Deployment Feasibility

High for the dataset and evaluation framework, enabling research. Deployment of VLMs for clinical use requires further validation and regulatory approval.

Limitations Addressed

Existing Med-VQA efforts primarily focus on 2D imaging with limited task diversity. 3D-RAD addresses this by providing a comprehensive 3D dataset with complex reasoning challenges and multi-temporal analysis capabilities.

Technical Tags

Medical Visual Question Answering (Med-VQA)3D radiology CT scansmulti-temporal analysisdiagnostic tasksanomaly detectionimage observationmedical computationexistence detectionlongitudinal temporal diagnosisvision-language models (VLMs)

Research Topics

Medical AIRadiologyClinical Decision SupportMulti-modal Learning3D Medical Image AnalysisAI Evaluation

Methods & Architectures

Dataset creation (3D-RAD)Evaluation of VLMsMulti-temporal analysisQuestion answering on 3D medical scansBenchmarking Vision-Language Models (VLMs)Medical VLMs

Applications & Tasks

Medical Diagnosis Radiology Healthcare AI Clinical Decision Support Advancing 3D Med-VQA beyond 2D imagingIncreasing task diversity in Med-VQAEvaluating VLM generalization in complex medical reasoning Anomaly detectionImage observationMedical computationExistence detectionStatic temporal diagnosisLongitudinal temporal diagnosis

Datasets & Benchmarks

Datasets

3D-RAD

Performance on Med-VQA tasksGeneralization across tasks and modalities

Related Fields

Medical ImagingRadiologyArtificial IntelligenceMachine LearningComputer VisionNatural Language ProcessingHealthcare AI

Keywords

Med-VQA3D Medical ImagingRadiologyCT ScanVision-Language ModelsMulti-temporal AnalysisClinical Decision SupportDatasetBenchmarkingAI in HealthcareAnomaly DetectionLongitudinal StudyDiagnostic Reasoning

Academic Context

#Medical AI#Radiology#Clinical Decision Support#Multi-modal Learning#3D Medical Image Analysis#AI Evaluation

Commercial Potential

Potential Products

AI-powered diagnostic assistants for radiologistsAutomated medical report generation toolsClinical decision support platforms

Target Industries

HealthcareMedical TechnologyBiotechnology

Use Case Examples

Assisting radiologists in identifying subtle anomalies in 3D CT scansProviding insights into disease progression over time based on longitudinal scansAutomating the analysis of complex medical images for faster diagnosis

Competitive Edge

Introduces a novel, large-scale 3D Med-VQA dataset with diverse tasks, including multi-temporal analysis, setting a new benchmark for evaluating VLMs in complex medical reasoning.

Market Opportunity

Significant and growing market for AI in medical imaging and diagnostics.

Revenue Models

Licensing of AI diagnostic softwareservice contracts with healthcare providers.

Resource Requirements

Compute Needs

High for training and evaluating VLMs on large 3D medical datasets.

Data Requirements

Requires a large, annotated dataset of 3D CT scans with diverse diagnostic tasks and temporal information.

Deployment Constraints

Regulatory approval (FDA, CE Mark), integration into PACS systems, data privacy (HIPAA), need for high accuracy and interpretability.

Scalability

The dataset is designed to be large-scale, supporting the training and evaluation of scalable VLM architectures.

Regulatory Considerations

HIPAAFDA approval for medical devicesdata privacy.

Production Readiness

Maturity Level

Research

Time to Market

3-5 years for clinical deployment of robust VLM solutions.

View Full Paper Back to Papers