Abstract:
Vision Transformer (ViTs) haben sich als leistungsstarke Alternative zu Convolutional Neural Networks im Bereich der Computer Vision etabliert und zeigen durch ihre Fähigkeit, globale Zusammenhänge mittels des Self-Attention Mechanismus zu erfassen, überragende Leisutngen in zahlreichen ufgabenbereichen. Im Gegensatz zu vorherigen Methoden, welche sich hauptsächlich auf lokale Merkmale konzentrieren, erlernen ViTs Beziehungen zwischen Bildausschnitten („Patches“) und ermöglichen flexible Architekturen, die globale Abhängigkeiten effektiv modellieren können. Trotz seines Erfolgs leidet der Self- Attention Mechanismus von ViTs in ressourcenbeschränkten und echtzeitkritischen Anwendungen unter erheblichen Rechenaufwand. Diese Einschränkung motiviert die Erforschung von Quantumcomputing basierten Ansätzen, welche die globale Modellierungsfähigkeit von ViTs beibehalten und gleichzeitig den Rechenaufwand der Self-Attention verringern. Während einige Ansätze darauf setzen, den Self-Attention Mechanismus mithilfe trainierbarer Compound-Matrizen nachzubilden, schlägt diese Arbeit eine Quantum Vision Transformer (QViT) Architektur vor, welche die Quantum Singular Value Transformation (QSVT) nutzt um den Self-Attention Mechanismus zu approximieren, und somit nativ im Quantumparadigma formuliert ist. Das vorgeschlagene Modell kodiert zuerst mithilfe eines parametrisierten Quantenschaltkreises (PQC) patch-weise Bildeinbettungen, die anschließend durch eine Linear Combination of Unitaries (LCU) zu einer Attention-ähnlichen Mischung ihrer Repräsentationen kombiniert werden. Danach wird eine Quantum Singular Value Transformation (QSVT) angewandt, um nicht-lineare Transformationen zu ermöglichen. Zusätzlich erweitert ein quantenbasiertes Klassifikationsmodul das Datenregister um trainierbare Klassen-Qubits, die als Quantenäquivalent zum klassischen „Class Token“ dienen und durch Messung zur Ermittlung des Outputs verwendet werden. Um die Leistungsfähigkeit des vorgeschlagenen Modells zu testen, wird es für Bildklassifikationen auf den Bars-and-Stripes- und Binary-MNIST-Datensätzen angewandt, auf welchen Genauigkeiten von bis zu ~99% erreicht. Weiterhin zeigt eine Analyse der Komplexität des Modells einen geringeren Parameter- und theoretisch niedrigeren Laufzeitaufwand auf Basis der Input-Größen. Die in dieser Arbeit erzielten Ergebnisse dienen als Proof-of-Concept für das vorgeschlagene QViT-Modell und seine potenziellen Anwendungen bei Aufgaben im Bereich der Computer Vision.
Autor/in:
Joel Furtak
Betreuer:
Jonas Stein, Michael Kölle, Claudia Linnhoff-Popien
Studentische Abschlussarbeit | Veröffentlicht November 2025 | Copyright © QAR-Lab
Anfragen zu dieser Arbeit an die Betreuer