KI-Jailbreaks sind gezielte Angriffe, die Sprachmodelle zu eigentlich gesperrten Antworten verleiten. Prof. Dr. Florian Tramèr von der ETH Zürich ordnet ein, warum diese Tricks so einfach bleiben. Der Fall des gesperrten Mythos-Modells zeigt zugleich die Grenzen heutiger Sicherheitsfilter.
Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Was KI-Jailbreaks so gefährlich macht
Jedes Sicherheitstraining bleibt unvollständig. Prof. Florian Tramèr forscht seit 10 Jahren an KI-Sicherheit. Er beschreibt einen Jailbreak als Trick, der ein Modell zur verbotenen Antwort bewegt. Das Modell merkt dabei nicht, dass die Aufgabe gefährlich ist.
Ein gängiger Trick zerlegt eine heikle Frage in harmlose Einzelteile. Das Modell löst jeden Teil getrennt. Es erkennt das gefährliche Gesamtbild nicht. Erst zusammengesetzt ergibt sich kritisches Wissen.
In der Cybersicherheit verschwimmt die Grenze besonders stark. Jeder Entwickler fragt, ob in seinem Code eine Lücke steckt. Ein Angreifer stellt dieselbe Frage zu fremdem Code. Der Wortlaut bleibt identisch, die Absicht kippt.
Claude Mythos: Wenn der Schutz zu weit greift
Anthropic sperrte sein Spitzenmodell Mythos nach Eingriff der US-Regierung. Der Grund liegt in extrem strengen Schutzmaßnahmen. Schon das Wort Cybersicherheit, Biologie oder Chemie löste eine Verweigerung aus. Wie der Fall des gesperrten Fable-5-Modells dokumentiert, geriet der Schutz dabei aus der Balance.
Tramèr nennt ein absurdes Beispiel. Ein Nutzer fragt nach zwei Sicherheitslücken plus zwei weiteren. Das Modell verweigert die simple Addition als gefährlich. Solche Fehlalarme zeigen, wie schwer die richtige Balance fällt.
Bei Fable 5 verstärkte Anthropic diese Filter zusätzlich. Verweigerte das Modell, übernahm ein schwächeres Opus-Modell die Antwort. Der Schutz kostete also spürbar Qualität. Beobachter erwarten weitere Wendungen in dieser Geschichte.
Codex setzt sich jetzt selbst Ziele
OpenAI hat Codex eine ungewöhnliche Fähigkeit gegeben. Der Agent leitet sein Ziel jetzt selbst aus der groben Absicht ab. Den Befehl Slash-Goal braucht es nicht mehr. OpenAI nennt das eine Verallgemeinerung des Meta-Prompts.
Noch konkreter wird das Plugin Record and Replay. Nutzer nehmen ihren Arbeitsablauf als Video auf. Codex baut daraus einen Skill zum Wiederverwenden. Anschließend steuert es den Rechner per Computer-Use. Weitere Details liefern die aktuellen Codex-Analysen.
Für Desktop-Software ohne API klingt das verlockend. Alte Buchhaltungs- und ERP-Systeme im Mittelstand kämen infrage. Sicherheitsforscher warnen jedoch vor dem vollen Systemzugriff. Er öffnet Prompt-Injection-Angriffen Tür und Tor.
GLM 5.2 fordert Claude Fable 5 heraus
Open-Source-Modelle holen rasant auf. GLM 5.2 ist frei verfügbar und bietet ein Kontextfenster von einer Million Tokens. Auf der Design Arena belegt es sogar Platz eins. Diesen Benchmark bestimmen echte Nutzer, nicht ein Anbieter.
Im direkten Test gegen Claude Fable 5 hält GLM 5.2 erstaunlich gut mit. Ganz an Fable 5 reicht es subjektiv nicht heran. Der Abstand schrumpft aber deutlich. Sobald die Intelligenz nah wirkt, entscheidet der Preis.
Für 3.000 Dollar kaufen Nutzer bei GLM 5.2 fast sechsmal so viele Tokens wie bei Opus 4.8. Branchenkenner sehen darin den eigentlichen Hebel. Sobald Open-Source nah genug herankommt, verschiebt der Preis den Markt.
Nur 6,5 Prozent bringen KI in Produktion
Eine Studie von Scale AI untersucht 494 Organisationen. Nur 6,5 Prozent setzen KI wirklich produktiv ein. Diese Gewinner bauen dreimal so oft hybride Lösungen. Sie kombinieren interne Teams mit einem strategischen Partner statt mit Standard-Tools.
Der entscheidende Hebel sind eigene Daten. Erfolgreiche Firmen legen ihre Datenarchitektur fest, bevor sie Code schreiben. Zugleich planen Anbieter wie OpenAI ein Pay-per-Use-Pricing. Eine lokale KI-Strategie gewinnt damit als Absicherung an Bedeutung.
Fazit: KI-Jailbreaks bleiben eine offene Flanke
KI-Jailbreaks zeigen die Grenzen heutiger Sicherheitsfilter. Prof. Dr. Florian Tramèr macht klar, dass kein Schutz lückenlos ist. Zu strenge Filter wie bei Mythos kippen ins Gegenteil und blockieren harmlose Anfragen.
Der Markt reagiert mit mehr Vielfalt. Open-Source-Modelle wie GLM 5.2 und lokale KI bieten einen Plan B. Beobachter sehen darin den Weg zu mehr Unabhängigkeit von einzelnen Anbietern.
Häufige Fragen
Was ist ein KI-Jailbreak?
Ein KI-Jailbreak ist ein gezielter Trick, der ein Sprachmodell zu gesperrten Antworten bewegt. Angreifer formulieren ihre Anfrage so um, dass das Modell die Gefahr nicht erkennt. Häufig zerlegen sie eine heikle Frage in harmlose Einzelteile. Das Modell löst jeden Teil getrennt und übersieht das kritische Gesamtbild. Laut Prof. Dr. Florian Tramèr verhindert kein Sicherheitstraining solche Angriffe vollständig.
Warum wurde Claude Mythos gesperrt?
Anthropic sperrte das Spitzenmodell Mythos nach einem Eingriff der US-Regierung. Auslöser waren die starken Fähigkeiten des Modells in heiklen Bereichen wie Cybersicherheit. Zum Schutz vor Missbrauch setzte Anthropic sehr strenge Filter ein. Diese griffen jedoch zu weit und blockierten selbst harmlose Anfragen. Schon das Wort Cybersicherheit oder Biologie konnte eine Verweigerung auslösen.
Was kann Codex mit Record and Replay?
Record and Replay ist ein Plugin für die Codex-App von OpenAI. Nutzer nehmen ihren Arbeitsablauf als Video auf, statt ihn zu beschreiben. Codex wandelt die Aufnahme in einen wiederverwendbaren Skill um. Danach steuert der Agent den Computer per Computer-Use selbst. In der EU ist die Funktion bislang nicht verfügbar. Sicherheitsforscher verweisen auf Risiken durch Prompt-Injection.
Ist GLM 5.2 so gut wie Claude Fable 5?
GLM 5.2 ist ein frei verfügbares Open-Source-Modell mit einem Kontextfenster von einer Million Tokens. Im direkten Vergleich hält es mit Claude Fable 5 erstaunlich gut mit. Ganz an die Design-Qualität von Fable 5 reicht es subjektiv nicht heran. Der Abstand schrumpft jedoch deutlich. Beim Preis liegt GLM 5.2 klar vorn und liefert für dasselbe Budget ein Vielfaches an Tokens.
Warum ist eine lokale KI-Backup-Strategie wichtig?
Anbieter wie OpenAI und Anthropic planen ein Pay-per-Use-Pricing. Die subventionierten Flatrate-Pläne könnten damit bald wegfallen. Eine lokale KI-Backup-Strategie sichert gegen Preissprünge und Sperren ab. Open-Source-Modelle wie GLM 5.2 laufen auf eigener Hardware ohne laufende Token-Kosten. Beobachter sehen darin einen Weg zu mehr Unabhängigkeit von einzelnen Anbietern.









