• Home
  • Aktuelles
  • Technologie
  • Forschung
  • Lehre
  • Wirtschaft
  • Jobs
  • Home
  • Aktuelles
  • Technologie
  • Forschung
  • Lehre
  • Wirtschaft
  • Jobs
Kontakt
  • Deutsch
  • English

  • Home
  • Aktuelles
  • Technologie
  • Forschung
  • Lehre
  • Wirtschaft
  • Jobs
Kontakt
  • Deutsch
  • English

Erforschung der praktischen Anwendung von quantenbasierter Self-Attention für Quanten-Vision-Transformers

Erforschung der praktischen Anwendung von quantenbasierter Self-Attention für Quanten-Vision-Transformers

Abstract:

Vision Transformer (ViTs) haben sich als leistungsstarke Alternative zu Convolutional Neural Networks im Bereich der Computer Vision etabliert und zeigen durch ihre Fähigkeit, globale Zusammenhänge mittels des Self-Attention Mechanismus zu erfassen, überragende Leisutngen in zahlreichen ufgabenbereichen. Im Gegensatz zu vorherigen Methoden, welche sich hauptsächlich auf lokale Merkmale konzentrieren, erlernen ViTs Beziehungen zwischen Bildausschnitten („Patches“) und ermöglichen flexible Architekturen, die globale Abhängigkeiten effektiv modellieren können. Trotz seines Erfolgs leidet der Self- Attention Mechanismus von ViTs in ressourcenbeschränkten und echtzeitkritischen Anwendungen unter erheblichen Rechenaufwand. Diese Einschränkung motiviert die Erforschung von Quantumcomputing basierten Ansätzen, welche die globale Modellierungsfähigkeit von ViTs beibehalten und gleichzeitig den Rechenaufwand der Self-Attention verringern. Während einige Ansätze darauf setzen, den Self-Attention Mechanismus mithilfe trainierbarer Compound-Matrizen nachzubilden, schlägt diese Arbeit eine Quantum Vision Transformer (QViT) Architektur vor, welche die Quantum Singular Value Transformation (QSVT) nutzt um den Self-Attention Mechanismus zu approximieren, und somit nativ im Quantumparadigma formuliert ist. Das vorgeschlagene Modell kodiert zuerst mithilfe eines parametrisierten Quantenschaltkreises (PQC) patch-weise Bildeinbettungen, die anschließend durch eine Linear Combination of Unitaries (LCU) zu einer Attention-ähnlichen Mischung ihrer Repräsentationen kombiniert werden. Danach wird eine Quantum Singular Value Transformation (QSVT) angewandt, um nicht-lineare Transformationen zu ermöglichen. Zusätzlich erweitert ein quantenbasiertes Klassifikationsmodul das Datenregister um trainierbare Klassen-Qubits, die als Quantenäquivalent zum klassischen „Class Token“ dienen und durch Messung zur Ermittlung des Outputs verwendet werden. Um die Leistungsfähigkeit des vorgeschlagenen Modells zu testen, wird es für Bildklassifikationen auf den Bars-and-Stripes- und Binary-MNIST-Datensätzen angewandt, auf welchen Genauigkeiten von bis zu ~99% erreicht. Weiterhin zeigt eine Analyse der Komplexität des Modells einen geringeren Parameter- und theoretisch niedrigeren Laufzeitaufwand auf Basis der Input-Größen. Die in dieser Arbeit erzielten Ergebnisse dienen als Proof-of-Concept für das vorgeschlagene QViT-Modell und seine potenziellen Anwendungen bei Aufgaben im Bereich der Computer Vision.

Autor/in:

Joel Furtak

Betreuer:

Jonas Stein, Michael Kölle, Claudia Linnhoff-Popien


Studentische Abschlussarbeit | Veröffentlicht November 2025 | Copyright © QAR-Lab
Anfragen zu dieser Arbeit an die Betreuer



QAR-Lab – Quantum Applications and Research Laboratory
Ludwig-Maximilians-Universität München
Oettingenstr. 67
80538 München
Telefon: +49 89 2180-9153
E-Mail: qar-lab@mobile.ifi.lmu.de

© Copyright 2025

Allgemein

Team
Kontakt
Impressum

Social Media

Twitter Linkedin Github

Sprache

  • Deutsch
  • English
Cookie-Zustimmung verwalten
Wir verwenden Cookies, um unsere Website und unseren Service zu optimieren.
Funktional Immer aktiv
Die technische Speicherung oder der Zugang ist unbedingt erforderlich für den rechtmäßigen Zweck, die Nutzung eines bestimmten Dienstes zu ermöglichen, der vom Teilnehmer oder Nutzer ausdrücklich gewünscht wird, oder für den alleinigen Zweck, die Übertragung einer Nachricht über ein elektronisches Kommunikationsnetz durchzuführen.
Vorlieben
Die technische Speicherung oder der Zugriff ist für den rechtmäßigen Zweck der Speicherung von Präferenzen erforderlich, die nicht vom Abonnenten oder Benutzer angefordert wurden.
Statistiken
Die technische Speicherung oder der Zugriff, der ausschließlich zu statistischen Zwecken erfolgt. Die technische Speicherung oder der Zugriff, der ausschließlich zu anonymen statistischen Zwecken verwendet wird. Ohne eine Vorladung, die freiwillige Zustimmung deines Internetdienstanbieters oder zusätzliche Aufzeichnungen von Dritten können die zu diesem Zweck gespeicherten oder abgerufenen Informationen allein in der Regel nicht dazu verwendet werden, dich zu identifizieren.
Marketing
Die technische Speicherung oder der Zugriff ist erforderlich, um Nutzerprofile zu erstellen, um Werbung zu versenden oder um den Nutzer auf einer Website oder über mehrere Websites hinweg zu ähnlichen Marketingzwecken zu verfolgen.
Optionen verwalten Dienste verwalten Verwalten von {vendor_count}-Lieferanten Lese mehr über diese Zwecke
Einstellungen anzeigen
{title} {title} {title}