Prompt Injection: Prof. Tramèr über KI-Sicherheit

Prompt Injection: Prof. Dr. Florian Tramèr von der ETH Zürich erklärt, warum Jailbreaks ungelöst bleiben und KI-Modelle ein Single Point of Failure sind.

Prompt Injection: Prof. Tramèr über KI-Sicherheit

Prompt Injection ist eine Angriffsmethode auf KI-Modelle, bei der versteckte Befehle in harmlosen Daten ein Sprachmodell kapern. Prof. Dr. Florian Tramèr, AI-Security-Forscher an der ETH Zürich, nennt sie im YouTube-Interview das neue SQL Injection des nächsten Jahrzehnts. Die Redaktion ordnet ein, warum diese Bedrohung ungelöst bleibt.

Tramèr leitet an der ETH Zürich das SPY Lab für die Sicherheit von KI-Systemen. Er promovierte in Stanford in Kryptografie. Danach forschte er ein Jahr bei Google Brain. Seit rund zehn Jahren prüft er, wie sicher KI-Modelle sind.

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Was ein Jailbreak ist und warum Claude Fable 5 gesperrt wurde

Anthropic stellte mit Claude Fable 5 sein bisher stärkstes Modell vor. Es trug sehr strenge Sicherheitsschranken. Nach nur drei Tagen sperrte eine US-Exportkontrolle das Modell weltweit. Auslöser war laut Angaben ein Jailbreak, den Amazon fand. Wie folgenreich der Schritt war, zeigt die weltweite Sperre von Claude Fable 5.

Ein Jailbreak trickst ein Modell aus. Das Modell löst dann eine Aufgabe, die es ablehnen sollte. Angreifer zerteilen eine gefährliche Frage in harmlose Einzelteile. Das Modell beantwortet jeden Teil getrennt. Erst zusammengesetzt entsteht das gefährliche Wissen.

Bei Fable 5 griffen die Schranken extrem hart. Schon das Wort Cybersicherheit löste eine Verweigerung aus. Tramèr nennt ein Beispiel, in dem zwei Sicherheitslücken addiert werden sollten. Das Modell verweigerte selbst diese harmlose Rechnung.

So funktionieren Jailbreaks heute

Die Techniken haben sich stark verändert. Beim frühen ChatGPT genügte der Satz, jetzt gebe der Nutzer die Befehle. Heute setzen Angreifer ein zweites KI-Modell als Werkzeug ein. Tramèr berichtet, dass Claude Code als Angreifer sehr gut funktioniert.

Stärkere Modelle sind schwerer zu knacken. Gleichzeitig finden sie selbst bessere Angriffsmethoden. Ein häufiger Trick formuliert eine bösartige Aufgabe als harmlos um. Tramèrs Team bat ChatGPT, sensible Fakten vor dem Posten aus E-Mails zu entfernen. Das Modell half sofort.

In der Cybersicherheit verschwimmt die Grenze. Ein KI-Modell, das guten Code versteht, findet auch Lücken im Code. White-Hat-Forscher und Black-Hat-Angreifer nutzen dieselbe Methode. Nur das Ergebnis trennt beide Lager. Genau diese Grenze sauber zu trainieren, bleibt schwer.

Prompt Injection: das neue SQL Injection

Ein KI-Agent verarbeitet alles als Text. Er trennt den Nutzerbefehl kaum von fremden Inhalten. Steckt in einer E-Mail ein versteckter Befehl, folgt das Modell ihm womöglich. Tramèr nennt diese Lücke Prompt Injection. Ein ähnliches Muster dokumentiert die Analyse zu Johann Rehbergers Prompt-Injection-Funden.

Moderne Modelle wehren solche Angriffe besser ab. Sicher sind sie nicht. Wer einem KI-Agenten Zugriff auf den Computer gibt, öffnet eine neue Angriffsfläche. Lädt der Agent Daten aus dem Internet, kann ein präparierter Inhalt ihn umlenken.

Tramèr warnt vor einem Single Point of Failure. Milliarden Menschen reagieren unterschiedlich. Bei KI nutzen Millionen Nutzer dasselbe Modell. Ein einziger funktionierender Angriff trifft dann alle gleichzeitig. Beobachter sehen darin das prägende Sicherheitsproblem der nächsten Jahre.

Wenn KI-Modelle anonyme Nutzer enttarnen

Tramèrs Team zeigt eine zweite Gefahr. Sprachmodelle deanonymisieren Nutzer allein anhand ihrer Beiträge. Die Modelle sind nicht klüger als Menschen. Sie arbeiten schneller und günstiger. Ein Profil, das früher Stunden kostete, entsteht in Minuten.

Das Team verknüpfte Profile von Hacker News mit LinkedIn-Daten. Ein Modell extrahierte Fakten und glich sie ab. Ein weiteres Modell prüfte den Treffer. So lässt sich eine Überwachungs-Pipeline für tausende Personen bauen. Branchenkenner schätzen, dass solche Werkzeuge die digitale Anonymität dauerhaft schwächen.

Exportkontrolle und Notschalter: Sinn oder Chaos?

Tramèr hält die Exportkontrolle für einen seltsamen Entscheid. Anthropic selbst räumte ein, dass die Jailbreak-Antworten dem öffentlichen ChatGPT ähnelten. Die USA verbot Nicht-Amerikanern den Zugriff. Für eine offene API ist diese Vorgabe kaum umsetzbar.

Open-Source-Modelle lassen sich gar nicht absichern. Angreifer trainieren die Schutzmechanismen schlicht heraus. Modelle hinter einer API bieten mehr Verteidigung. Doch auch sie fallen meist nach wenigen Tagen. Eine ID-Pflicht würde wenig bringen, da Schlüssel gestohlen oder weiterverkauft werden.

Fazit: KI-Sicherheit bleibt die offene Flanke

Prompt Injection und Jailbreaks bleiben ungelöst. KI-Modelle werden stärker und zugleich gefährlicher. Der nächste Schauplatz sind humanoide Roboter. Verwirrt ein Angreifer ein physisches System, drohen reale Schäden. Die Forschung erwartet, dass KI-Sicherheit das Feld noch viele Jahre prägt.

Häufige Fragen

Was ist Prompt Injection bei KI-Modellen?

Prompt Injection beschreibt einen Angriff, bei dem versteckte Befehle in harmlosen Daten landen. Ein KI-Agent verarbeitet alles als Text und trennt den Nutzerbefehl kaum von fremden Inhalten. Steckt in einer E-Mail oder Webseite ein präparierter Befehl, führt das Modell ihn womöglich aus. Florian Tramèr vergleicht die Lücke mit dem klassischen SQL Injection. Sicherheitsforscher sehen darin das prägende Angriffsmuster der kommenden Jahre.

Was ist ein Jailbreak bei einem KI-Modell?

Ein Jailbreak trickst ein KI-Modell aus. Das Modell löst dann eine gesperrte Aufgabe. Angreifer zerteilen eine gefährliche Frage in harmlose Teile. Das Modell beantwortet jeden Teil getrennt. Erst zusammengesetzt entsteht riskantes Wissen. Eine zweite Methode formuliert die Aufgabe als harmlos um. Laut Florian Tramèr fallen die meisten Modelle nach wenigen Tagen einem neuen Jailbreak zum Opfer.

Warum wurde Claude Fable 5 gesperrt?

Anthropic stellte Claude Fable 5 als bisher stärkstes Modell mit harten Sicherheitsschranken vor. Nach drei Tagen sperrte eine US-Exportkontrolle das Modell weltweit. Auslöser war laut Angaben ein Jailbreak von Amazon. Damit ließen sich Sicherheitslücken in Code finden. Anthropic räumte später ein, dass die Antworten dem öffentlichen ChatGPT ähnelten. Florian Tramèr hält den Schritt für überraschend und schwer nachvollziehbar.

Können KI-Modelle anonyme Internet-Nutzer enttarnen?

Ja. Tramèrs Team zeigt, dass Sprachmodelle Nutzer allein anhand ihrer Beiträge deanonymisieren. Die Modelle sind nicht klüger als Menschen. Sie arbeiten schneller und günstiger. Ein Modell liest öffentliche Beiträge, extrahiert Fakten und gleicht sie mit LinkedIn ab. Ein zweites Modell prüft den Treffer. So entsteht in Minuten ein Profil, das früher Stunden kostete. Diese Technik skaliert auf tausende Personen.

Wie sicher ist Computer Use bei KI-Agenten?

Anthropic und OpenAI sandboxen Computer Use heute deutlich besser. Nutzer können Zugriffe einschränken und Aktionen bestätigen. Sicher ist die Technik nicht. Lädt ein Agent Inhalte aus dem Internet, droht Prompt Injection. Ein präpariertes Dokument kann den Agenten umlenken. Florian Tramèr rät, keine fremden Skills oder Repositories blind einzubinden. Wer mit KI-Agenten arbeitet, sollte die häufigsten Angriffsmuster kennen.

Gib hier deine Suche ein