arxiv_cv 93% Match Research Paper Computer Vision Researchers,Robotics Engineers,AI Engineers,Video Analysis Specialists 2 weeks ago

SAM 2++: Tracking Anything at Any Granularity

computer-vision › video-understanding

📄 Abstract

Abstract: Video tracking aims at finding the specific target in subsequent frames given its initial state. Due to the varying granularity of target states across different tasks, most existing trackers are tailored to a single task and heavily rely on custom-designed modules within the individual task, which limits their generalization and leads to redundancy in both model design and parameters. To unify video tracking tasks, we present SAM 2++, a unified model towards tracking at any granularity, including masks, boxes, and points. First, to extend target granularity, we design task-specific prompts to encode various task inputs into general prompt embeddings, and a unified decoder to unify diverse task results into a unified form pre-output. Next, to satisfy memory matching, the core operation of tracking, we introduce a task-adaptive memory mechanism that unifies memory across different granularities. Finally, we introduce a customized data engine to support tracking training at any granularity, producing a large and diverse video tracking dataset with rich annotations at three granularities, termed Tracking-Any-Granularity, which represents a comprehensive resource for training and benchmarking on unified tracking. Comprehensive experiments on multiple benchmarks confirm that SAM 2++ sets a new state of the art across diverse tracking tasks at different granularities, establishing a unified and robust tracking framework.

Authors (10)

Jiaming Zhang

Cheng Liang

Yichun Yang

Chenkai Zeng

Yutao Cui

Xinwen Zhang

+4 more

Submitted

October 21, 2025

arXiv Category

cs.CV

arXiv PDF

Key Contributions

SAM 2++ is a unified model for video tracking that handles targets at any granularity (masks, boxes, points). It introduces task-specific prompts for diverse inputs, a unified decoder for consistent outputs, and a task-adaptive memory mechanism to unify tracking across different granularities, significantly improving generalization and reducing redundancy.

Business Value

Enables more versatile and efficient video analysis systems, applicable to a wide range of applications from security to content moderation and robotics, by providing a single model for diverse tracking needs.

Paper Metadata

Innovation Type

Architectural

Deployment Feasibility

Feasible, as it aims to unify multiple tracking tasks into a single model, potentially simplifying deployment and reducing computational overhead compared to using multiple specialized trackers.

Limitations Addressed

Existing trackers tailored to single tasks,Reliance on custom-designed modules for individual tasks,Limited generalization of trackers,Redundancy in model design and parameters,Varying granularity of target states

Technical Tags

video trackingobject trackingsegmentationmasksbounding boxespointsgranularityunified modeltask-adaptive memoryprompt embeddings

Research Topics

Video AnalysisObject TrackingComputer VisionDeep LearningMultitask LearningFoundation Models

Methods & Architectures

task-specific promptsunified decodertask-adaptive memory mechanismprompt embeddingsgeneral prompt embeddings Unified Tracking ModelSAM 2++

Applications & Tasks

Video Surveillance Autonomous Driving Robotics Content Analysis Augmented Reality TrackingSegmentationDetection Tracking at any granularity (masks, boxes, points)Unified video trackingGeneralization across tracking tasks

Related Fields

Computer VisionDeep LearningVideo ProcessingRoboticsMachine Learning

Keywords

video trackingobject trackingsegmentationmasksbounding boxpointsgranularityunified modeltask-adaptivememorypromptsSAM 2++

Academic Context

#Video Analysis#Object Tracking#Computer Vision#Deep Learning#Multitask Learning#Foundation Models

Commercial Potential

Potential Products

Unified video tracking softwareIntelligent surveillance systemsRobotic vision systemsAR/VR tracking solutions

Target Industries

SecuritySurveillanceAutomotiveRoboticsMedia and EntertainmentAugmented Reality

Use Case Examples

Tracking multiple objects of different types and sizes in a surveillance video.Enabling robots to track specific parts of objects for manipulation.Providing precise tracking for augmented reality overlays.

Competitive Edge

Offers a significant advancement in unifying diverse video tracking tasks, providing a more general and efficient solution compared to task-specific trackers.

Market Opportunity

Large and growing market for video analytics and tracking solutions.

Revenue Models

Software licensingcloud-based tracking servicesintegration into hardware systems.

Resource Requirements

Compute Needs

High, especially for real-time processing of high-resolution video.

Data Requirements

Requires diverse video datasets covering various tracking tasks and target granularities.

Deployment Constraints

Real-time performance requirements and computational resources.

Scalability

The unified architecture and task-adaptive memory are designed to handle diverse tracking scenarios, suggesting good scalability.

Regulatory Considerations

Privacy concerns related to video surveillance and tracking.

Production Readiness

Maturity Level

Research/Development

Time to Market

2-4 years for robust commercial applications.

Patent Potential

Moderate to high, related to the unified architecture, prompt encoding, and memory mechanisms.

View Full Paper Back to Papers