Abstract:
In dieser Arbeit wird offline Quantum Reinforcement Learning (QRL) metaheuristischen Optimierungsverfahren untersucht. O!ine Reinforcement Learning (RL) ermöglicht es, Agenten ausschließlich auf Basis fixer Datensätze zu trainieren, anstatt durch direkte Interaktion mit der Umgebung. Dadurch eignet sich dieser Ansatz besonders für reproduzierbare Studien und kontrollierte Vergleiche. Für CartPole-v1 wurde hierzu ein Datensatz erstellt, der eine Kombination verschiedener Strategien umfasst. Auf diesem Datensatz wurde die Leistungsfähigkeit von vier gradientenfreien Metaheuristiken evaluiert: Genetic Algorithm (GA), Particle Swarm Optimization (PSO), Simulated Annealing (SA) und Tabu Search (TS). Trainiert wurde ein DQN-Agent mit einem Variational Quantum Circuit (VQC). Die Ergebnisse wurden ebenfalls mit einem gradientenbasierten Optimierer (Adam) verglichen.
Unsere Ergebnisse zeigen, dass alle Metaheuristiken die gradientenbasierte Referenz deutlich übertreffen. SA erzielte die beste Endleistung, gefolgt von TS, GA und PSO. Damit wird deutlich, dass gradientenfreie Optimierungsansätze klare Vorteile gegenüber Adam bei VQCs bieten. Dies gilt auch im Offline-Ansatz, in dem die Optimierung unter eingeschränktem Datenzugang und ohne weitere Umgebungsinteraktion erfolgen muss. Durch die Entkopplung des Trainings von Interaktionen mit der Umgebung bietet dieser Ansatz eine praktischen Möglichkeit der Skalierung von QRL-Experimenten unter realistischen Ressourcenbeschränkungen. Dies ist vor allem in Anwendungsbereichen relevant, in denen Interaktionen mit der Umgebung teuer oder sicherheitskritisch sind. Somit etabliert diese Arbeit offline QRL mit metaheuristischen Optimierungsstrategien als eine vielversprechende Forschungsrichtung, und macht zugleich auf bestehende Herausforderungen wie Distributionsverschiebung und begrenzte Konvergenz bei nur einem Datensatzdurchlauf aufmerksam.
Autor/in:
Frederik Bickel
Betreuer:
Michael Kölle, Julian Hager, Claudia Linnhoff-Popien
Studentische Abschlussarbeit | Veröffentlicht September 2025 | Copyright © QAR-Lab
Anfragen zu dieser Arbeit an die Betreuer