• Home
  • Aktuelles
  • Technologie
  • Forschung
  • Lehre
  • Wirtschaft
  • Jobs
  • Home
  • Aktuelles
  • Technologie
  • Forschung
  • Lehre
  • Wirtschaft
  • Jobs
Kontakt
  • Deutsch
  • English

  • Home
  • Aktuelles
  • Technologie
  • Forschung
  • Lehre
  • Wirtschaft
  • Jobs
Kontakt
  • Deutsch
  • English

Offline Quantum Reinforcement Learning mittels metaheuristischen Optimierungsstrategien

Offline Quantum Reinforcement Learning mittels metaheuristischen Optimierungsstrategien

Abstract:

In dieser Arbeit wird offline Quantum Reinforcement Learning (QRL) metaheuristischen Optimierungsverfahren untersucht. O!ine Reinforcement Learning (RL) ermöglicht es, Agenten ausschließlich auf Basis fixer Datensätze zu trainieren, anstatt durch direkte Interaktion mit der Umgebung. Dadurch eignet sich dieser Ansatz besonders für reproduzierbare Studien und kontrollierte Vergleiche. Für CartPole-v1 wurde hierzu ein Datensatz erstellt, der eine Kombination verschiedener Strategien umfasst. Auf diesem Datensatz wurde die Leistungsfähigkeit von vier gradientenfreien Metaheuristiken evaluiert: Genetic Algorithm (GA), Particle Swarm Optimization (PSO), Simulated Annealing (SA) und Tabu Search (TS). Trainiert wurde ein DQN-Agent mit einem Variational Quantum Circuit (VQC). Die Ergebnisse wurden ebenfalls mit einem gradientenbasierten Optimierer (Adam) verglichen.
Unsere Ergebnisse zeigen, dass alle Metaheuristiken die gradientenbasierte Referenz deutlich übertreffen. SA erzielte die beste Endleistung, gefolgt von TS, GA und PSO. Damit wird deutlich, dass gradientenfreie Optimierungsansätze klare Vorteile gegenüber Adam bei VQCs bieten. Dies gilt auch im Offline-Ansatz, in dem die Optimierung unter eingeschränktem Datenzugang und ohne weitere Umgebungsinteraktion erfolgen muss. Durch die Entkopplung des Trainings von Interaktionen mit der Umgebung bietet dieser Ansatz eine praktischen Möglichkeit der Skalierung von QRL-Experimenten unter realistischen Ressourcenbeschränkungen. Dies ist vor allem in Anwendungsbereichen relevant, in denen Interaktionen mit der Umgebung teuer oder sicherheitskritisch sind. Somit etabliert diese Arbeit offline QRL mit metaheuristischen Optimierungsstrategien als eine vielversprechende Forschungsrichtung, und macht zugleich auf bestehende Herausforderungen wie Distributionsverschiebung und begrenzte Konvergenz bei nur einem Datensatzdurchlauf aufmerksam.

Autor/in:

Frederik Bickel

Betreuer:

Michael Kölle, Julian Hager, Claudia Linnhoff-Popien


Studentische Abschlussarbeit | Veröffentlicht September 2025 | Copyright © QAR-Lab
Anfragen zu dieser Arbeit an die Betreuer



QAR-Lab – Quantum Applications and Research Laboratory
Ludwig-Maximilians-Universität München
Oettingenstr. 67
80538 München
Telefon: +49 89 2180-9153
E-Mail: qar-lab@mobile.ifi.lmu.de

© Copyright 2025

Allgemein

Team
Kontakt
Impressum

Social Media

Twitter Linkedin Github

Sprache

  • Deutsch
  • English
Cookie-Zustimmung verwalten
Wir verwenden Cookies, um unsere Website und unseren Service zu optimieren.
Funktional Immer aktiv
Die technische Speicherung oder der Zugang ist unbedingt erforderlich für den rechtmäßigen Zweck, die Nutzung eines bestimmten Dienstes zu ermöglichen, der vom Teilnehmer oder Nutzer ausdrücklich gewünscht wird, oder für den alleinigen Zweck, die Übertragung einer Nachricht über ein elektronisches Kommunikationsnetz durchzuführen.
Vorlieben
Die technische Speicherung oder der Zugriff ist für den rechtmäßigen Zweck der Speicherung von Präferenzen erforderlich, die nicht vom Abonnenten oder Benutzer angefordert wurden.
Statistiken
Die technische Speicherung oder der Zugriff, der ausschließlich zu statistischen Zwecken erfolgt. Die technische Speicherung oder der Zugriff, der ausschließlich zu anonymen statistischen Zwecken verwendet wird. Ohne eine Vorladung, die freiwillige Zustimmung deines Internetdienstanbieters oder zusätzliche Aufzeichnungen von Dritten können die zu diesem Zweck gespeicherten oder abgerufenen Informationen allein in der Regel nicht dazu verwendet werden, dich zu identifizieren.
Marketing
Die technische Speicherung oder der Zugriff ist erforderlich, um Nutzerprofile zu erstellen, um Werbung zu versenden oder um den Nutzer auf einer Website oder über mehrere Websites hinweg zu ähnlichen Marketingzwecken zu verfolgen.
Optionen verwalten Dienste verwalten Verwalten von {vendor_count}-Lieferanten Lese mehr über diese Zwecke
Einstellungen anzeigen
{title} {title} {title}