arxiv_cv 95% Match Technical Report / Research Paper AI researchers,NLP engineers,Computer vision engineers,Developers of document processing solutions 2 weeks ago

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

large-language-models › multimodal-llms

📄 Abstract

Abstract: In this report, we propose PaddleOCR-VL, a SOTA and resource-efficient model tailored for document parsing. Its core component is PaddleOCR-VL-0.9B, a compact yet powerful vision-language model (VLM) that integrates a NaViT-style dynamic resolution visual encoder with the ERNIE-4.5-0.3B language model to enable accurate element recognition. This innovative model efficiently supports 109 languages and excels in recognizing complex elements (e.g., text, tables, formulas, and charts), while maintaining minimal resource consumption. Through comprehensive evaluations on widely used public benchmarks and in-house benchmarks, PaddleOCR-VL achieves SOTA performance in both page-level document parsing and element-level recognition. It significantly outperforms existing solutions, exhibits strong competitiveness against top-tier VLMs, and delivers fast inference speeds. These strengths make it highly suitable for practical deployment in real-world scenarios. Code is available at https://github.com/PaddlePaddle/PaddleOCR .

Authors (18)

Cheng Cui

Ting Sun

Suyin Liang

Tingquan Gao

Zelun Zhang

Jiaxuan Liu

+12 more

Submitted

October 16, 2025

arXiv Category

cs.CV

arXiv PDF Code

Key Contributions

PaddleOCR-VL introduces PaddleOCR-VL-0.9B, an ultra-compact VLM that integrates a dynamic resolution visual encoder with ERNIE-4.5-0.3B for accurate multilingual document parsing. It achieves SOTA performance across 109 languages for complex element recognition while maintaining minimal resource consumption and fast inference.

Business Value

Enables efficient and accurate processing of diverse multilingual documents, automating tasks like data entry, information retrieval, and knowledge management for global businesses.

Paper Metadata

Innovation Type

Algorithmic/Model Architecture

Deployment Feasibility

Very High, due to its compact size, efficiency, and fast inference.

Limitations Addressed

High resource consumption of existing VLMs,Limited language support in document parsing models,Difficulty in recognizing complex document elements

Performance Gains

Significantly outperforms existing solutions and exhibits strong competitiveness against top-tier VLMs.

View Code on GitHub

Technical Tags

multilingual document parsingvision-language model (VLM)compact modeldocument understandingelement recognitiontext recognitiontable recognitionformula recognitionchart recognitionefficient inference

Research Topics

Multimodal AIDocument AnalysisNatural Language ProcessingComputer VisionLarge Language Models

Methods & Architectures

NaViT-style dynamic resolution visual encoderERNIE-4.5-0.3B language model integrationSelf-supervised learning (implied) Vision-Language Model (VLM)NaViT-style encoderERNIE language model

Applications & Tasks

Document Processing Information Extraction Digital Archiving Business Process Automation Multilingual Document UnderstandingComplex Element RecognitionEfficient ParsingResource-constrained Deployment Document ParsingElement Recognition (text, tables, formulas, charts)Multilingual Information Extraction

Datasets & Benchmarks

Benchmarks

Widely used public benchmarks • In-house benchmarks

SOTA performanceAccuracyResource efficiencyInference speed

Related Fields

Natural Language ProcessingComputer VisionMachine LearningDocument AnalysisMultilingual AI

Keywords

Document ParsingVision-Language ModelMultilingualCompact ModelERNIENaViTInformation ExtractionOCRDocument UnderstandingEfficient AIReal-time Inference

Academic Context

#Multimodal AI#Document Analysis#Natural Language Processing#Computer Vision#Large Language Models

Technology Stack

Frameworks & Libraries

PaddleOCR

Commercial Potential

Potential Products

Intelligent document processing platformsMultilingual OCR and data extraction toolsAutomated form processing systems

Target Industries

FinanceLegalHealthcarePublishingCustomer Service

Use Case Examples

Extracting information from invoices and receipts in multiple languagesDigitizing and analyzing historical documentsAutomating data entry from scanned forms

Competitive Edge

Offers state-of-the-art performance with significantly improved efficiency and language support compared to existing document parsing solutions and large VLMs.

Market Opportunity

Very large market for document processing and automation.

Revenue Models

SaaS subscriptionsAPI accesscustom solutions.

Resource Requirements

Compute Needs

Low for inference, moderate for fine-tuning.

Data Requirements

Large, diverse datasets of multilingual documents with annotated elements.

Deployment Constraints

Integration into existing document workflows.

Scalability

Designed for efficient scaling due to its compact nature.

Regulatory Considerations

Data privacy (GDPR, etc.) for sensitive documents

Production Readiness

Maturity Level

Research / Product-ready

Time to Market

0-1 years

Licensing

Code available.

Patent Potential

Moderate, for specific architectural innovations or training methodologies.

View Full Paper Back to Papers