arxiv_cv 95% Match Research Paper Computer Vision Researchers,Machine Learning Engineers,Robotics Engineers 1 month ago

Learning Frequency and Memory-Aware Prompts for Multi-Modal Object Tracking

computer-vision › video-understanding

📄 Abstract

Abstract: Prompt-learning-based multi-modal trackers have made strong progress by using lightweight visual adapters to inject auxiliary-modality cues into frozen foundation models. However, they still underutilize two essentials: modality-specific frequency structure and long-range temporal dependencies. We present Learning Frequency and Memory-Aware Prompts, a dual-adapter framework that injects lightweight prompts into a frozen RGB tracker. A frequency-guided visual adapter adaptively transfers complementary cues across modalities by jointly calibrating spatial, channel, and frequency components, narrowing the modality gap without full fine-tuning. A multilevel memory adapter with short, long, and permanent memory stores, updates, and retrieves reliable temporal context, enabling consistent propagation across frames and robust recovery from occlusion, motion blur, and illumination changes. This unified design preserves the efficiency of prompt learning while strengthening cross-modal interaction and temporal coherence. Extensive experiments on RGB-Thermal, RGB-Depth, and RGB-Event benchmarks show consistent state-of-the-art results over fully fine-tuned and adapter-based baselines, together with favorable parameter efficiency and runtime. Code and models are available at https://github.com/xuboyue1999/mmtrack.git.

Key Contributions

This paper introduces a dual-adapter framework for multi-modal object tracking that addresses underutilization of modality-specific frequency structure and long-range temporal dependencies. It proposes a frequency-guided visual adapter for cross-modal cue transfer and a multilevel memory adapter for robust temporal context propagation, enhancing efficiency while strengthening cross-modal fusion.

Business Value

Improved accuracy and robustness in video tracking applications can lead to better performance in surveillance, autonomous driving, and content analysis, reducing manual effort and increasing reliability.

Paper Metadata

Innovation Type

Algorithmic Improvement

Deployment Feasibility

High, as it builds upon efficient prompt learning and uses lightweight adapters, aiming to preserve efficiency.

Limitations Addressed

Underutilization of frequency structure in multi-modal trackers,Insufficient handling of long-range temporal dependencies,Modality gap in prompt-learning-based trackers

Technical Tags

multi-modal trackingprompt learningfrequency analysistemporal memoryadapter frameworkcross-modal fusionfrozen foundation modelsRGB trackerspatial calibrationchannel calibration

Research Topics

Object TrackingMulti-modal LearningDeep Learning ArchitecturesTemporal ModelingPrompt Engineering

Methods & Architectures

dual-adapter frameworkfrequency-guided visual adaptermultilevel memory adapterprompt learning Foundation ModelsRGB Tracker

Applications & Tasks

Computer Vision Video Analysis Object TrackingModality GapTemporal Dependency HandlingOcclusionMotion BlurIllumination Changes Multi-modal Object Tracking

Related Fields

Machine LearningComputer VisionDeep LearningSignal Processing

Keywords

Object TrackingMulti-modalPrompt LearningFrequencyMemoryAdapterFoundation ModelsTemporalCross-modalFusionVideoComputer Vision

Academic Context

#Object Tracking#Multi-modal Learning#Deep Learning Architectures#Temporal Modeling#Prompt Engineering

Commercial Potential

Potential Products

Enhanced video surveillance systemsMore robust autonomous vehicle perception modulesAdvanced video analytics tools

Target Industries

SecurityAutomotiveMedia and EntertainmentRobotics

Use Case Examples

Tracking objects in challenging lighting conditionsMaintaining track during occlusionsRobustly following moving objects in videos

Competitive Edge

Positions itself as an improvement over existing prompt-learning-based multi-modal trackers by specifically addressing frequency and temporal memory limitations, while maintaining efficiency.

Resource Requirements

Compute Needs

Likely moderate, given the focus on lightweight adapters and prompt learning, aiming for efficiency.

Data Requirements

Requires multi-modal video datasets for training and evaluation.

Deployment Constraints

Performance might depend on the quality and alignment of multi-modal inputs.

Scalability

The prompt learning approach suggests good scalability, as it avoids full fine-tuning of large foundation models.

View Full Paper Back to Papers