arxiv_ml 95% Match Research Paper AI safety researchers,LLM developers,Cybersecurity professionals,NLP researchers 17 hours ago

AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models

large-language-models › alignment

📄 Abstract

Abstract: Large Language Models (LLMs) remain vulnerable to jailbreaking attacks where adversarial prompts elicit harmful outputs, yet most evaluations focus on single-turn interactions while real-world attacks unfold through adaptive multi-turn conversations. We present AutoAdv, a training-free framework for automated multi-turn jailbreaking that achieves up to 95% attack success rate on Llama-3.1-8B within six turns a 24 percent improvement over single turn baselines. AutoAdv uniquely combines three adaptive mechanisms: a pattern manager that learns from successful attacks to enhance future prompts, a temperature manager that dynamically adjusts sampling parameters based on failure modes, and a two-phase rewriting strategy that disguises harmful requests then iteratively refines them. Extensive evaluation across commercial and open-source models (GPT-4o-mini, Qwen3-235B, Mistral-7B) reveals persistent vulnerabilities in current safety mechanisms, with multi-turn attacks consistently outperforming single-turn approaches. These findings demonstrate that alignment strategies optimized for single-turn interactions fail to maintain robustness across extended conversations, highlighting an urgent need for multi-turn-aware defenses.

Key Contributions

AutoAdv is a novel training-free framework for automated multi-turn jailbreaking of LLMs, achieving up to 95% attack success rate on Llama-3.1-8B. It uniquely combines adaptive mechanisms (pattern manager, temperature manager, two-phase rewriting) to learn from attacks and refine prompts iteratively, demonstrating persistent vulnerabilities in current safety mechanisms against sophisticated, multi-turn adversarial interactions.

Business Value

Understanding and mitigating LLM vulnerabilities is crucial for safe deployment in public-facing applications, preventing misuse for generating misinformation, harmful content, or facilitating malicious activities.

Paper Metadata

Innovation Type

Algorithmic/Framework

Deployment Feasibility

The framework is designed for evaluating LLM security and can be used by researchers and developers. It's not a direct deployment but a tool for improving deployed systems.

Limitations Addressed

LLMs' vulnerability to jailbreaking,Focus on single-turn interactions in existing evaluations,Lack of adaptive strategies in adversarial prompting,Inadequacy of current safety mechanisms against multi-turn attacks

Performance Gains

Achieved up to 95% attack success rate and a 24% improvement over single-turn baselines.

Technical Tags

LLM jailbreakingadversarial promptingmulti-turn attacksautomated frameworkadaptive mechanismsprompt engineeringsafety mechanismsharmful outputs

Research Topics

LLM SecurityAI SafetyAdversarial AttacksPrompt EngineeringNatural Language Processing

Methods & Architectures

Automated multi-turn jailbreaking framework (AutoAdv)Pattern managerTemperature managerTwo-phase rewriting strategy Large Language Models (LLMs)

Applications & Tasks

AI Safety Cybersecurity Natural Language Processing Applications Vulnerability of LLMs to jailbreakingLimitations of single-turn attack evaluationsNeed for adaptive multi-turn attack strategiesPersistence of vulnerabilities in safety mechanisms Automating multi-turn jailbreaking attacksEvading LLM safety mechanismsEliciting harmful outputs from LLMsEvaluating LLM robustness against adaptive attacks

Datasets & Benchmarks

Benchmarks

Up to 95% attack success rate on Llama-3.1-8B within six turns • 24 percent improvement over single-turn baselines

Attack success rateNumber of turns

Related Fields

Artificial Intelligence SafetyCybersecurityNatural Language ProcessingMachine LearningLarge Language Models

Keywords

LLM JailbreakingAdversarial AttacksPrompt EngineeringAI SafetyCybersecurityLarge Language ModelsMulti-turn DialogueHarmful ContentModel RobustnessLLM SecurityAutomated AttacksLLM Alignment

Academic Context

#LLM Security#AI Safety#Adversarial Attacks#Prompt Engineering#Natural Language Processing

Technology Stack

Frameworks & Libraries

AutoAdv

Commercial Potential

Potential Products

Tools for LLM security auditingAutomated red-teaming platforms for LLMs

Target Industries

TechnologyCybersecurityAI DevelopmentCloud Computing

Use Case Examples

Testing the resilience of customer service chatbots against malicious queriesEvaluating the safety of AI assistants before public release

Competitive Edge

Offers an automated, adaptive, multi-turn approach to jailbreaking, surpassing previous single-turn or less adaptive methods in effectiveness and demonstrating a more realistic threat model.

Market Opportunity

Significant market for AI security and auditing services.

Revenue Models

Consultingsecurity auditing services

Resource Requirements

Compute Needs

Moderate (for running the automated framework)

Data Requirements

Access to target LLMs and a set of adversarial prompts/strategies

Deployment Constraints

Requires careful ethical consideration due to its offensive capabilities; primarily a research tool.

Scalability

The framework's scalability depends on the efficiency of its adaptive mechanisms and the target LLM's response time.

Regulatory Considerations

Ethical use guidelines for AI security research; potential misuse.

Production Readiness

Maturity Level

Research Tool

Time to Market

Ongoing research and development

Patent Potential

Low (offensive security research)

View Full Paper Back to Papers