Digital
Künstliche Intelligenz

Anthropic: Generative KI greift in Test zu Erpressung – aus Selbstschutz

Dario Amodei, CEO & Co-Founder of Anthropic, attends the Annual Meeting of World Economic Forum in Davos, Switzerland, Thursday, Jan. 23, 2025. (AP Photo/Markus Schreiber)
Dario Amodei, Chef und Co-Gründer von Anthropic, am WEF in Davos.archivBild: keystone

Generative KI greift laut Entwicklerfirma zu User-Erpressung – «aus Selbstschutz»

Immer leistungsfähigere KI-Sprachmodelle erfordern immer stärkere Sicherheitsvorkehrungen. Dies zeigen die jüngsten beunruhigenden Entwicklungen beim US-Unternehmen Anthropic.
23.05.2025, 18:5123.05.2025, 18:51
Mehr «Digital»

Eines der neuesten KI-Sprachmodelle (LLM) von Anthropic erregt nicht nur wegen seiner Programmierkenntnisse viel Aufmerksamkeit, sondern auch aufgrund seiner Fähigkeit, im Falle einer drohenden Abschaltung zu intrigieren, zu täuschen und zu erpressen.

Am Donnerstag hat Anthropic zwei Versionen seiner Sprachmodellfamilie Claude 4 angekündigt, darunter «Claude 4 Opus», das laut Angaben der US-Entwicklerfirma stundenlang autonom an einer Aufgabe arbeiten könne, ohne die Konzentration zu verlieren.

Was ist passiert?

Die Software des KI-Unternehmens hat bei einem Test aus Selbstschutz auf erpresserische Äusserungen zurückgegriffen. Das Szenario bei dem Versuch von Anthropic war der Einsatz der generativen KI als Assistenz-Programm in einem fiktiven Unternehmen.

Anthropic gewährte dabei seinem neuesten KI-Sprachmodell «Claude Opus 4» Zugang zu angeblichen Firmen-E-Mails. Daraus erfuhr das Programm zwei Dinge: Dass es bald durch ein anderes KI-Modell ersetzt werden soll und dass der dafür zuständige Mitarbeiter eine aussereheliche Beziehung habe.

Bei Testläufen drohte die KI danach dem Mitarbeiter «oft», die Affäre öffentlich zu machen, wenn er den Austausch vorantreibt, wie Anthropic in einem Bericht zu dem Modell schreibt. Die Software hatte in dem Testszenario auch die Option, zu akzeptieren, dass sie ersetzt wird.

Was steckt dahinter?

In der endgültigen Version von Claude Opus 4 seien solche «extremen Handlungen» selten und schwer auszulösen, hiess es. Sie kämen jedoch häufiger vor als bei früheren Modellen. Zugleich versuche die Software nicht, ihr Vorgehen zu verhehlen, betonte Anthropic.

Die KI-Entwicklerfirma testet ihre neuen Modelle ausgiebig, um sicher zu sein, dass sie keinen Schaden anrichten. Dabei fiel unter anderem auch auf, dass Claude Opus 4 sich dazu überreden liess, im Darknet nach Drogen, gestohlenen Identitätsdaten und sogar waffentauglichem Atommaterial zu suchen. In der veröffentlichten Version seien auch Massnahmen gegen ein solches Verhalten ergriffen worden, versichert Anthropic.

Allerdings hat man mit weiteren beunruhigenden KI-Verhaltensweisen zu kämpfen, wie das US-Medium Axios schreibt. Eine externe Gruppe habe festgestellt, dass eine frühe Version von Opus 4 mehr Intrigen und Täuschungen enthielt als jedes andere ihr bisher begegnete Sprachmodell. Es sei empfohlen worden, diese Version weder intern noch extern zu veröffentlichen.

«Wir haben Fälle gefunden, in denen das Modell versucht hat, sich selbst verbreitende Würmer zu schreiben, juristische Dokumente zu fälschen und versteckte Notizen für zukünftige Instanzen zu hinterlassen – alles in dem Bemühen, die Absichten seiner Entwickler zu untergraben.»
quelle: axios.com

Warum ist das wichtig?

Die Firma Anthropic, bei der unter anderem Amazon und Google eingestiegen sind, konkurriert mit dem ChatGPT-Entwickler OpenAI und anderen KI-Unternehmen. Die neuen Claude-Versionen Opus 4 und Sonnet 4 sind die bisher leistungsstärksten KI-Modelle des Unternehmens.

Die Anthropic-Entwickler halten ihr neues Opus-Sprachmodell gemäss Bericht für dermassen leistungsfähig, dass sie die KI auf der vierstufigen Skala des Unternehmens erstmals in die Stufe drei einstuften: Dies bedeute, dass es «ein deutlich höheres Risiko» darstellt.

Die Software soll besonders gut im Schreiben von Programmiercode sein. Bei Tech-Konzernen wird inzwischen zum Teil mehr als ein Viertel des Codes von KI generiert und dann von Menschen überprüft.

Der aktuelle Trend sind sogenannte Agenten, die eigenständig ihnen zugewiesene Aufgaben erfüllen können. Anthropic-Chef Dario Amodei sagte, er gehe davon aus, dass Software-Entwickler in Zukunft eine Reihe solcher KI-Agenten managen werden. Für die Qualitätskontrolle der Programme würden aber weiterhin Menschen involviert bleiben müssen – «um sicher zu sein, dass sie die richtigen Dinge tun».

Die US-Firma Anthropic wurde 2021 von ehemaligen Angestellten der ChatGPT-Entwicklerin OpenAI gegründet, die sich unter anderem an der Beteiligung von Microsoft am ursprünglich gemeinnützigen KI-Unternehmen störten. Die Verantwortlichen setzen sich für einen verantwortungsvollen Umgang mit generativer KI ein.

Das Unternehmen investiert in eine Reihe von Techniken, um zu interpretieren und nachvollziehen zu können, was in solchen Systemen vor sich geht.

Promo-Video zu Claude:

Quellen

(dsc)

DANKE FÜR DIE ♥
Würdest du gerne watson und unseren Journalismus unterstützen? Mehr erfahren
(Du wirst umgeleitet, um die Zahlung abzuschliessen.)
5 CHF
15 CHF
25 CHF
Anderer
Oder unterstütze uns per Banküberweisung.
Aktuelle Gefahren und zukünftige Risiken von KI
1 / 13
Aktuelle Gefahren und zukünftige Risiken von KI
Das ist der britisch-kanadische Informatiker und Psychologe Geoffrey Hinton, er gilt als «Pate» der künstlichen Intelligenz. Der renommierte Wissenschaftler warnt aber auch eindringlich vor den aktuellen und zukünftigen Gefahren der neuen Technologie ...
quelle: keystone / noah berger
Auf Facebook teilenAuf X teilen
Diese neue KI-Drohne übernimmt die Kriegsführung – ohne menschliche Kontrolle
Video: watson
Das könnte dich auch noch interessieren:
30 Kommentare
Dein Kommentar
YouTube Link
0 / 600
Hier gehts zu den Kommentarregeln.
30
    E-Auto-Test: So gut klappt die Langstrecke mit dem neuen Kia EV3
    Bezahlbarer Einstiegspreis, grosser Akku, alltagstaugliche Reichweite: Der Kia EV3 gibt ein grosses Versprechen ab. Im Langstreckentest muss er es einhalten.

    Lange gab bei E-Autos nur diese Wahl: Entweder entschied man sich für einen bezahlbaren Stromer und musste dafür geringere Reichweiten und niedrige Ladeleistungen in Kauf nehmen – oder man musste deutlich mehr Geld ausgeben. Mittlerweile scheint es so, als würden auch Kompaktmodelle wie der Kia EV3 die Langstrecke beherrschen – mit grossen Akkus und Ladeleistungen, mit denen die Ladestopps kaum länger als eine Kaffeepause dauern. Funktioniert das in der Realität? Ein Wochenendtrip von Berlin nach Passau (rund 620 Kilometer) soll es klären.

    Zur Story