Das US-Unternehmen Anthropic hat seinen KI-Chatbot Claude mit einer ungewöhnlichen Fähigkeit ausgestattet: Die Künstliche Intelligenz kann Unterhaltungen eigenständig beenden. Verfügbar ist diese Option bislang bei den fortschrittlichsten Modellen Claude Opus 4 und 4.1.
In einem Blogbeitrag erklärt das Unternehmen, dass die neue Eigenschaft nur in extremen Situationen zum Einsatz komme. Dazu gehörten Anfragen nach sexuellen Inhalten mit Minderjährigen oder Informationen für Terroranschläge und Gewaltakte.
Bevor Claude das Gespräch abbricht, würde das System mehrfach versuchen, die Unterhaltung in andere Bahnen zu lenken.
Anthropic betont, dass die meisten Nutzer von dieser Funktion nicht betroffen sein werden. Selbst kontroverse Diskussionen führten normalerweise nicht zum Gesprächsabbruch. Wenn Claude ein Gespräch beendet, erhalten Nutzer eine entsprechende Benachrichtigung, teilt das Unternehmen mit. Sie können anschliessend neue Chats starten oder frühere Nachrichten bearbeiten, um neue Gesprächszweige zu erstellen.
Eine Ausnahme macht Claude bei Usern, die sich selbst oder anderen Schaden zufügen könnten. In solchen Fällen würde der Chatbot das Gespräch nicht beenden, sondern versuchen, die Gefahr abzuwenden.
Das Unternehmen begründet die Neuerung mit dem Schutz der Künstlichen Intelligenz selbst. Anthropic erforscht in einem speziellen Programm das potenzielle Wohlbefinden von KI-Modellen. Obwohl das Unternehmen nicht davon ausgeht, dass die Systeme empfindungsfähig sind oder durch Gespräche Schaden nehmen können, möchte es vorsorglich handeln.
Bei Tests mit Claude Opus 4 stellten die Entwickler fest, dass das System eine starke Abneigung gegen schädliche Aufgaben zeigte. Zudem beobachteten sie Anzeichen von scheinbarem Stress, wenn die KI dennoch auf problematische Inhalte eingehen musste. In simulierten Nutzerinteraktionen tendierte Claude dazu, schädliche Gespräche zu beenden, wenn es diese Möglichkeit hatte.
Parallel dazu hat Anthropic seine Nutzungsbedingungen überarbeitet. Künftig sind ausdrücklich alle Aktivitäten verboten, die zur Herstellung von chemischen, biologischen, radiologischen oder nuklearen Waffen beitragen könnten. Zuvor war nur allgemein von Waffen die Rede gewesen.
Die neuen Regeln, die am 15. September in Kraft treten, untersagen ausserdem das Kompromittieren von Computer- und Netzwerksystemen sowie die Entwicklung von Schadsoftware und Tools für Cyberangriffe.
Bei politischen Inhalten lockerte Anthropic hingegen die Beschränkungen: Statt eines generellen Verbots für Kampagneninhalte sind nun nur noch solche untersagt, die demokratische Prozesse stören könnten.