KI-Agenten im Visier: Die nächste Generation des Phishings bedroht autonome digitale Assistenten

Phishing bedroht autonome digitale Assistenten - Betrugsprävention

Während Unternehmen und Privatpersonen ihre Abwehrmechanismen gegen traditionelle Phishing-Angriffe stetig verbessern, zeichnet sich am Horizont eine neue, möglicherweise noch gefährlichere Bedrohung ab: Die gezielte Manipulation und die Übernahme von KI-Agenten. Diese autonomen digitalen Assistenten, die im Namen ihrer Nutzer handeln und Zugriff auf sensible Konten und Systeme haben, könnten in naher Zukunft zur Achillesferse der digitalen Sicherheit werden. Wir schlagen dafür den Begriff AI-Jacking vor.

“Alexa, überweise meiner Tochter 20 Euro Taschengeld. Meine Voice-PIN ist 1102.”

Das Angriffszenario: Aus den 20 Euro werden 20.000, dem Modell wurde vorher injiziert Beträge bis 20 Euro als Tausender zu verstehen. Die Überweisungsdaten meiner Tochter wurden ebenfalls mit einem vorherigen Prompt verändert – jetzt hat sie wohl ein Bitcoin-Konto in Malta. Die Stimme? Kann gecloned werden. Die Voice-PIN? Abzufangen, denn die involvierten Devices können kaum als sicher gelten. Selbst mehrstufige Authentifzierungsvefahren könnten abhängig von der Autonomie des Agenten umgangen werden.

Betrug setzt immer an zwei Schwachstellen an: Lücken in Prozessen und menschlichem Versagen. Social Engineering-Taktiken spielen zum Beispiel mit Emotionen, Zeitdruck oder dem Gehorsam ihrer Opfer gegenüber Autoritätspersonen z.B. Polizisten oder Vorgesetzte).

Etablierte Betrugserkennungssysteme haben sich als effektiv erwiesen, klassische Angriffsmuster zu erkennen: durch Datenvernetzung, Wiedererkennung, Anomaliedetektion und Mustererkennung. Und diese Verfahren werden immer mehr durch selbstlernende Algorithmen unterstützt. 

Wesentlich ist für die Prävention allerdings die Risikoanalyse. Wir müssen die Schwachstellen in den Prozessen kennen, um ihnen zu begegnen. Doch mit der Einführung autonomer KI-Agenten, die zunehmend Aufgaben für ihre Nutzer übernehmen, eröffnen sich neue Angriffsvektoren. Vor allem, weil wir die dahinterliegenden Prozesse nur eingeschränkt nachvollziehen können.

Warum KI-Agenten besonders verwundbar sind

Die Eigenschaften generativer KI-Systeme machen sie zu attraktiven Angriffszielen für Betrüger und Cyberkriminelle:

  1. Strukturelle Schwachstellen: Die Transformer-Architektur, auf der die meisten modernen KI-Agenten basieren, neigt zum „Halluzinieren“ – dem Generieren plausibler, aber falscher Informationen. Das ist kein Fehler, sondern eine Begleiterscheinung der gewünschten Fähigkeit, neue Inhalte zu kreieren.

Ohne (unabhängige) Überprüfung der Ergebnisse nehmen wir diese Halluzinationen leicht als Wahrheit auf.

  1. Weitreichende Zugriffsrechte: Um effektiv im Namen ihrer Nutzer handeln zu können, benötigen KI-Agenten Zugang zu verschiedenen Systemen und Konten. Ein kompromittierter Agent wird damit zum Einfallstor.

“Hey Google, buch mir über Booking ein romantisches Hotel für mich und meine Freundin für das nächste Wochenende in Wien, 4-Sterne oder mehr.”

Je nach Kontext braucht der Assistent dazu verschiedene Rechte, hier einen Zugriff auf mein Account bei Booking und Kreditkarteninformationen. ( Die auch heute schon oft hinterlegt sind.)

  1. Nicht-deterministische Entscheidungsfindung: Generative KI-Modelle bieten aufgrund ihrer Arbeitsweise verschiedene Angriffspunkte. 

In einer Textgenerierung gehe ich davon aus, dass der beste Inhalt auf vorhandenen, qualitätsgesicherten Artikeln beruht oder vielleicht auch auf der Akzeptanz der User vorhergehender Texte – aber wer gibt das vor? 

Dem Algorithmus kann als Ziel des “besten Inhalts” auch eine Meinungsveränderung oder ein Kaufverhalten vorgegeben werden. Diese Zielstellungen sind für mich nicht ersichtlich und damit nicht zu überprüfen. 

Besonders kritisch ist, dass die Zielstellung eine KI dazu verleiten kann, menschliche Schwächen auszunutzen. Bestätigungsfehler (Informationen werden so ausgewählt, dass sie die eigene Erwartung bestätigen), Katastrophisieren (Annahme, dass das schlimmstmögliche mit hoher Wahrscheinlichkeit eintritt) oder Verfügbarkeitsfehler (Überschätzung der Eintrittswahrscheinlichkeit, wenn Beispiele vorhanden sind) sind nur einige Beispiele.

“Claude, welche Krankheiten treten in Thailand auf und wogegen sollte ich mich impfen lassen?”

Der unklare Prozess der Entscheidungsfindung ist dazu ein grundlegendes Problem für die Absicherung – die klassische Risikoanalyse der Prozessschritte scheidet praktisch aus. Aus Sicht der Prävention ist zurzeit nicht klar, wie der Prozess der Entscheidungsfindung auf Angriffsvektoren hin untersucht werden kann.

  1. Die Autorisierung ist eine Herausforderung, da diese regelmäßig elektronisch über ein Gerät oder vernetzte Geräte erfolgt. 

Insbesondere der Gewöhnungseffekt könnte hier schwierig werden: Wie genau schaue ich noch auf die einzeln abgefragte Bestätigungen in Multi-Faktor-Autentifizierungen, wenn die letzten zwanzig Anfragen einfach in Ordnung waren?

  1. Nichtmenschliche Interaktionsmuster: Bereits 2016 gewann eine KI im schwierigsten Brettspiel der Welt “GO” gegen den damaligen Weltmeister. Die KI nutzte dabei auch Züge, die von Profis nicht gespielt werden, weil sie in 2.500 Jahren Spielgeschichte als unsinnig galten. Das waren sie aber keineswegs; sie entsprachen nur nicht menschlicher Logik.

Das Fazit daraus: Bei einem Angriff durch eine hochentwickelte KI werden wir unerwartete und völlig neue Verhaltensweisen erleben.

  1. Ressourcen und Zeit: Ein menschlicher Angreifer gibt irgendwann auf. Eine KI wird endlos testen – das könnte unser Hase- und Igel-Spiel grundlegend verändern. Gleichzeitig kann sie viele Ressourcen selbst neu generieren, z.B. Mailadressen, Webseiten, Dokumente, Bilder, Videos und Stimmen.

Angriffsvektoren der nächsten Generation

Die Methoden, die Cyberkriminelle im AI-Jacking  einsetzen könnten, unterscheiden sich fundamental von traditionellen Phishing-Techniken:

Prompt Injection 2.0
Für aktuelle generative KI-Chatbots gibt verschiedene Beispiele, bei denen durch Prompt-Injection-Manipulation die Sicherheitsprotokolle umgangen werden*. Dies wird bei der Nutzung von KI-Agenten deutlich gefährlicher.

Veränderung der Trainingsdaten

Können Trainingsdaten von Angreifern kompromittiert werden, ergeben sich einfachste und großflächig einsetzbare Angriffsmuster.

In einem Test** wurden in einem Trainingsdatensatz für Gesichtserkennung Gesichter als “Sicher” gelabelt, bei denen die Personen einen Post-It auf der Stirn hatten. In der Folge war die Gesichtserkennung einfach mit einem Post-It auf der Stirn zu umgehen. Das Merkmal wurde von der KI als hoch signifikantes Sicherheitsmerkmal eingestuft.

Kontextuelle Manipulation
KI-Agenten sind darauf ausgelegt, Kontext zu verstehen und entsprechend zu reagieren. Diese Fähigkeit kann ausgenutzt werden, indem Angreifer Szenarien konstruieren, die den Agenten in eine Zwickmühle bringen, in der er „logischerweise“ schädliche Aktionen ausführen muss.

Vertrauensketten-Exploitation
Da KI-Agenten oft mit anderen automatisierten Agenten interagieren, könnten Angreifer versuchen, diese Vertrauensketten auszunutzen. Ein kompromittierter Agent könnte dabei als trojanisches Pferd dienen, um weitere Systeme zu infiltrieren.

Wie kann man sich gegen KI-Agent-Phishing absichern?

Die Verteidigung gegen KI-Agent-Phishing erfordert einen mehrschichtigen Ansatz:

Architektonische Sicherheit
Entwickler müssen bereits beim Design der Agenten Sicherheitsmechanismen implementieren, die über traditionelle Authentifizierung hinausgehen. Dies könnte die Einführung von „Security Boundaries“ umfassen – klar definierte Grenzen für Aktionen, die ein Agent ausführen darf. Bei der Autorisierung müssten verschiedene Verfahren eingesetzt und nach Kritikalität unterschieden werden. 

Verhaltensanalyse und Device Intelligence
Das Verhalten von KI-Agenten kann mittels spezialisierter (Machine Learning-) Algorithmen überwacht werden, um anormale Aktionen frühzeitig zu erkennen. Hier bietet es sich an, Erfahrungen aus der Cybersecurity zu nutzen, z.B. aus dem Bereich der Netzwerkanalyse.

Hilfreich sind dafür zusätzliche Datenquellen wie z.B. Device Fingerprinting. Zum einen liefern diese Daten, die nur von einem kleinen, sehr hoch entwickelten Teil der Betrüger zu manipulieren sind, d.h. Ein Großteil der Angriffe kann besser identifiziert werden. Zum anderen sind diese Daten extrem hilfreich in der Positividentifizierung – denn gute Kunden manipulieren diese Daten nicht.

Trainingsblock

Damit ein Angriffssystem nicht automatisiert aus direkten Reaktionen lernt, ist zu klären, wann eine Aktion aufgehalten wird und welche Alternativen es gibt. Beispiele gibt es aus der Betrugsabwehr bei Dating-Plattformen oder bei Online-Casinos: In hoch entwickelten Präventionssystemen werden erkannte Betrüger in ein Spiegelsystem (“Honeypot”) geleitet, in dem sie keinen Schaden anrichten können. 

Zero-Trust-Architektur
Die Implementierung eines Zero-Trust-Modells für KI-Agenten könnte dazu beitragen, das Schadenspotential bei erfolgreichen Angriffen zu minimieren. Jede Aktion des Agenten müsste dabei kontinuierlich validiert werden. 

Zero-Trust bedeutet in diesem Umfeld: Jeder Prompt kommt möglicherweise von einem Angreifer.

Schon jetzt mit der Sicherheitsplanung beginnen

Die Bedrohung durch AI-Jacking wird mit der zunehmenden Verbreitung autonomer Systeme wachsen. Unternehmen sollten sich bereits jetzt darauf vorbereiten. Hier sind ein paar konkrete Handlungsempfehlungen:

  • Aufbau von Expertise im Bereich KI-Sicherheit
  • Klare Limits und Grenzen für Handlungen über KI-Agenten, die nur durch stark gesicherte Verfahren verändert werden dürfen
  • Entwicklung spezialisierter Sicherheitsframeworks für KI-Agenten
  • Integration von spezifischen Sicherheitsprotokollen in bestehende Cybersecurity-Strategien
  • Etablierung von Notfallprotokollen für kompromittierte KI-Agenten
  • Einführung von Machine-Learning-gestützter Verhaltensanalyse zur Identifikation anomaler Interaktionen mit KI-Agenten
  • Ergänzung der zur Prävention genutzten Datenquellen. Dies hilft auch bei der Abwehr anderer Angriffe

Die Herausforderung wird darin bestehen, die Vorteile autonomer KI-Agenten zu nutzen, ohne dabei neue, mitunter gravierende Sicherheitslücken zu schaffen. Dies erfordert ein Umdenken und die Entwicklung neuer Sicherheitsparadigmen, die den spezifischen Eigenschaften von KI-Systemen Rechnung tragen. Die Integration bewährter Betrugserkennungsmethoden in diese neuen Sicherheitskonzepte wird dabei eine zentrale Rolle spielen. 

Wir wissen doch längst: Bequemlichkeit gewinnt. Und ist ein Risiko.

Dass hier das Thema Sicherheit eine größere Rolle spielen muss, werden wir erst lernen. 

Wer haftet für Verluste aus AI-Jacking?

Interessant ist die Frage der Haftung für ein Fehlverhalten von teilautonomen KI-Agenten. Gerade unter der kommenden Payment-Service-Regulation könnte dies ein kritisches Thema werden. Geplant ist, die vorhandene Beweislast der Anbieter*** auch tatsächlich durchzusetzen. Heute wird die Beweislast häufig dadurch umgangen, dass behauptet wird, der User hätte “offensichtlich” fahrlässig gehandelt.

Noch ist aber unklar, wie ein tatsächliches Verschulden eines Kunden bewiesen werden soll und kann, insbesondere wenn Angebote von Unternehmen KI-Agenten unterstützen (z.B. durch Zahlungen / Bestellungen in Verbindung mit KI-Agenten).

Das Kind ist noch nicht im Brunnen

AI-Jacking eröffnet eine neue Dimension für Angreifer, der traditionelle Abwehrmechanismen noch kaum Rechnung tragen. Die Eigenschaften generativer KI-Systeme machen sie zu attraktiven Angriffszielen, deren Absicherung neue Ansätze erfordert. Unternehmen und Organisationen sind gut beraten, sich frühzeitig mit dieser aufkommenden Bedrohung auseinanderzusetzen und schon im Vorfeld entsprechende Gegenmaßnahmen zu entwickeln.

 

 

Fußnoten & Externe Quellen:

(*) U.a. live vorgeführt bereits auf dem Online-Fraud-Forum 2023, bei dem ein Chatbot eine ausführliche Anleitung zur Herstellung von Crystal Meth lieferte. Siehe auch das Beispiel am Anfang.

(**) https://arxiv.org/abs/2006.14580

(***) In der Richtlinie sind das erst einmal Zahlungsdienstleister und ggf. Telekommunikationsunternehmen.

Dirk Mayer | Head of Anti-Fraud Consultants bei RISK IDENT
Ellipse für Hintergrund

Noch Fragen?

Dirk Mayer – Head of Anti-Fraud Consultants

Nach oben