• Home
  • News
  • Technology
  • Research
  • Teaching
  • Business
  • Jobs
  • Home
  • News
  • Technology
  • Research
  • Teaching
  • Business
  • Jobs
Contact
  • Deutsch
  • English

  • Home
  • News
  • Technology
  • Research
  • Teaching
  • Business
  • Jobs
Contact
  • Deutsch
  • English

Exploring the Practical Application of Quantum-Native Self-Attention for Quantum Vision Transformers

Exploring the Practical Application of Quantum-Native Self-Attention for Quantum Vision Transformers

Abstract:

Vision Transformers (ViTs) have emerged as a powerful alternative to convolutional neural networks in computer vision, demonstrating superior performance across numerous tasks due to their ability to capture global relationships through the self-attention mechanism. Unlike previously established methods that focus primarily on local features, ViTs process images by analysing relationships between patches, allowing for flexible architectures that excel at modelling global dependencies. Despite their success, the self-attention mechanism in ViTs faces computational challenges when deployed in resource-constrained environments or real-time applications where efficiency is paramount. This limitation has motivated the exploration of different approaches using quantum computing, that
preserve the global modelling capabilities of ViTs while reducing computational overhead within the self-attention mechanism. While some approaches aim to replicate the self-attention mechanism using trainable compound matrices, this thesis proposes a Quantum Vision Transformer (QViT) architecture native to the quantum paradigm, that leverages the Quantum Singular Value Transformation (QSVT) to approximate the self-attention mechanism. The proposed model integrates parameterized quantum circuits (PQCs) to encode patch-wise image embeddings, employs a Linear Combination of Unitaries (LCU) to mix patch representations in an attention-like manner, and applies the QSVT to introduce non-linear expressivity. In addition, a quantum classification circuit extends the data register with trainable class qubits, which serve as a quantum analogue to the classical class token and are measured to obtain the final outputs. To assess the models’ capability in image classification tasks, it is evaluated on Bars-and-Stripes and binary MNIST datasets, where it achieves up to∼99% accuracy. An analysis of the models’ computational complexity shows improved theoretical scaling with input size, as well as lower parameter counts. The results obtained in this thesis serve as proof-of-concept for the proposed QViT model and its application to computer vision tasks.

Author:

Joel Furtak

Advisors:

Jonas Stein, Michael Kölle, Claudia Linnhoff-Popien


Student Thesis | Published November 2025 | Copyright © QAR-Lab
Direct Inquiries to this work to the Advisors



QAR-Lab – Quantum Applications and Research Laboratory
Ludwig-Maximilians-Universität München
Oettingenstraße 67
80538 Munich
Phone: +49 89 2180-9153
E-mail: qar-lab@mobile.ifi.lmu.de

© Copyright 2025

General

Team
Contact
Legal notice

Social Media

Twitter Linkedin Github

Language

  • Deutsch
  • English
Cookie-Zustimmung verwalten
Wir verwenden Cookies, um unsere Website und unseren Service zu optimieren.
Funktional Always active
Die technische Speicherung oder der Zugang ist unbedingt erforderlich für den rechtmäßigen Zweck, die Nutzung eines bestimmten Dienstes zu ermöglichen, der vom Teilnehmer oder Nutzer ausdrücklich gewünscht wird, oder für den alleinigen Zweck, die Übertragung einer Nachricht über ein elektronisches Kommunikationsnetz durchzuführen.
Vorlieben
Die technische Speicherung oder der Zugriff ist für den rechtmäßigen Zweck der Speicherung von Präferenzen erforderlich, die nicht vom Abonnenten oder Benutzer angefordert wurden.
Statistiken
Die technische Speicherung oder der Zugriff, der ausschließlich zu statistischen Zwecken erfolgt. Die technische Speicherung oder der Zugriff, der ausschließlich zu anonymen statistischen Zwecken verwendet wird. Ohne eine Vorladung, die freiwillige Zustimmung deines Internetdienstanbieters oder zusätzliche Aufzeichnungen von Dritten können die zu diesem Zweck gespeicherten oder abgerufenen Informationen allein in der Regel nicht dazu verwendet werden, dich zu identifizieren.
Marketing
Die technische Speicherung oder der Zugriff ist erforderlich, um Nutzerprofile zu erstellen, um Werbung zu versenden oder um den Nutzer auf einer Website oder über mehrere Websites hinweg zu ähnlichen Marketingzwecken zu verfolgen.
Manage options Manage services Manage {vendor_count} vendors Read more about these purposes
Einstellungen anzeigen
{title} {title} {title}