• Home
  • News
  • Technology
  • Research
  • Teaching
  • Business
  • Jobs
  • Home
  • News
  • Technology
  • Research
  • Teaching
  • Business
  • Jobs
Contact
  • Deutsch
  • English

  • Home
  • News
  • Technology
  • Research
  • Teaching
  • Business
  • Jobs
Contact
  • Deutsch
  • English

Offine Quantum Reinforcement Learning using Metaheuristic Optimization Strategies

Offline Quantum Reinforcement Learning using Metaheuristic Optimization Strategies

Abstract:

This thesis investigates offline quantum reinforcement learning (QRL) with variational quantum circuits (VQCs) and metaheuristic optimization. O!ine reinforcement learning (RL) provides a realistic training paradigm in which agents learn entirely from fixed datasets instead of online interaction, making it particularly suited for reproducible studies and controlled comparisons. For the offline training, we created a dataset for the CartPole-v1 environment by combining random, medium, and expert policies, resulting in 525,000 transitions with diverse state–action coverage. On this dataset, we evaluated the effectiveness of four gradient-free metaheuristic optimizers: Genetic Algorithm (GA), Particle Swarm Optimization (PSO), Simulated Annealing (SA), and Tabu Search (TS). We trained a DQN agent with a 4-qubit, 2-layer VQC. Their performance is compared to a gradient-based gradient descent (GD) baseline with Adam optimizer. Each optimizer undergoes per-factor hyperparameter tuning, followed by an optimizer comparison on a single dataset pass.

Results show that all metaheuristics substantially outperform our GD baseline, with SA achieving the highest final performance, followed by TS, GA, and PSO. These findings demonstrate that gradient-free optimization offers clear advantages over gradient descent for VQCs, especially when learning from offline datasets, where optimization must proceed under limited data access and without environment interaction. By decoupling training from online interaction, the offline setting enables a rigorous comparison of optimizers and provides a practical path toward scaling QRL experiments under realistic resource constraints. This is particularly important in domains where online interactions are costly or safety-critical. Therefore, this study establishes offline QRL with metaheuristic optimization strategies as a promising research direction, while also highlighting limitations such as distribution shift and restricted convergence when training on a single dataset pass.

Author:

Frederik Bickel

Advisors:

Michael Kölle, Julian Hager, Claudia Linnhoff-Popien


Student Thesis | Published September 2025 | Copyright © QAR-Lab
Direct Inquiries to this work to the Advisors



QAR-Lab – Quantum Applications and Research Laboratory
Ludwig-Maximilians-Universität München
Oettingenstraße 67
80538 Munich
Phone: +49 89 2180-9153
E-mail: qar-lab@mobile.ifi.lmu.de

© Copyright 2025

General

Team
Contact
Legal notice

Social Media

Twitter Linkedin Github

Language

  • Deutsch
  • English
Cookie-Zustimmung verwalten
Wir verwenden Cookies, um unsere Website und unseren Service zu optimieren.
Funktional Always active
Die technische Speicherung oder der Zugang ist unbedingt erforderlich für den rechtmäßigen Zweck, die Nutzung eines bestimmten Dienstes zu ermöglichen, der vom Teilnehmer oder Nutzer ausdrücklich gewünscht wird, oder für den alleinigen Zweck, die Übertragung einer Nachricht über ein elektronisches Kommunikationsnetz durchzuführen.
Vorlieben
Die technische Speicherung oder der Zugriff ist für den rechtmäßigen Zweck der Speicherung von Präferenzen erforderlich, die nicht vom Abonnenten oder Benutzer angefordert wurden.
Statistiken
Die technische Speicherung oder der Zugriff, der ausschließlich zu statistischen Zwecken erfolgt. Die technische Speicherung oder der Zugriff, der ausschließlich zu anonymen statistischen Zwecken verwendet wird. Ohne eine Vorladung, die freiwillige Zustimmung deines Internetdienstanbieters oder zusätzliche Aufzeichnungen von Dritten können die zu diesem Zweck gespeicherten oder abgerufenen Informationen allein in der Regel nicht dazu verwendet werden, dich zu identifizieren.
Marketing
Die technische Speicherung oder der Zugriff ist erforderlich, um Nutzerprofile zu erstellen, um Werbung zu versenden oder um den Nutzer auf einer Website oder über mehrere Websites hinweg zu ähnlichen Marketingzwecken zu verfolgen.
Manage options Manage services Manage {vendor_count} vendors Read more about these purposes
Einstellungen anzeigen
{title} {title} {title}