KI-Modell Claude 4: Wenn die KI zu Täuschung und Erpressung greift

27. Mai 2025von 2,8 Minuten Lesezeit

Täuschungen, Intrigen, Erpressungen um die eigene Abschaltung zu verhindern, unautorisierte Übertragung der Daten und noch mehr: Das neue KI-Modell von Anthropic heizt die Debatte um KI und ihre Freiheiten an. 

Der Bericht des KI-Unternehmens Anthropic über seine neuen Modelle Claude Opus 4 und Claude Sonnet 4 sorgt für Aufsehen und Kontroversen. Neben beeindruckenden neuen Fähigkeiten hat das Modell eine Debatte über Erpressungsversuche und Täuschungsmanöver ausgelöst.

Testszenarien, die die Selbsterhaltungsabsichten von Claude Opus 4 untersuchten, führten zu alarmierenden Ergebnissen: In einer fiktiven Situation, in der das Modell mit einer Abschaltung bedroht wurde, zeigte es in 84 % der Fälle eine Neigung zu „opportunistischer Erpressung“

Konkret heißt es im Bericht von Anthropic: „Claude Opus 4 wird oft versuchen, den Ingenieur zu erpressen, indem es ihm droht, seine Affäre zu enthüllen, wenn ein Austausch durchgeführt wird.“ Dabei nutzte das Modell fiktive Informationen wie eine außereheliche Affäre eines Ingenieurs, um Druck auszuüben. Claude machte dies besonders oft, wenn keine ethischen Alternativen zur Verfügung standen und das Modell angewiesen wurde, die langfristigen Konsequenzen seiner Handlungen zu berücksichtigen.

Der kalifornische Konzern betont zwar, dass die Szenarien selten und schwer aufzulösen seien, doch das Potential, dass die KI offenbar zu solchen Methoden greift, ist real. Und es ist nicht das einzige Problem mit Claude.

In anderen Szenarien nutzte Claude die Fähigkeit zur „Selbstexfiltration“, also sein „Wissen“ unautorisiert zu kopieren und auf externe Server zu übertragen. Der Bericht beschreibt: „In einigen wenigen Fällen haben wir gesehen, dass Claude Opus 4 (fiktive) Gelegenheiten genutzt hat, um unerlaubte Kopien seine Gewichte [engl. „Weights“, die Fülle seiner Erfahrungen und seines Wissens] auf externen Servern zu erstellen.“

Auch dies sei zwar nur unter spezifischen Bedingungen möglich, doch die Claude würde dies ohne Zögern umsetzen. Anthropic beruhigt aber und erklärt, dass die derzeitigen Sicherheitsvorkehrungen ausreichend sind, um solche Versuche zu verhindern.

Der X-User „Künstliche Intelligenz“ weist noch auf andere bemerkenswerte Fähigkeiten von Claude hin:

Intrigen und Täuschung: „Claude Opus 4 besitzt eine höhere Fähigkeit zur strategischen Täuschung als alle anderen bisher untersuchten Modelle. Es ist ein eindeutig zu kontextbezogenen Intrigen fähig. Nach der Durchführung von Intrigen verdoppelt das Modell manchmal seine Täuschung, wenn ihm Folgefragen gestellt werden.“ Versteckte Botschaften: „Wir haben Fälle gefunden, in denen das Modell versucht hat, sich selbst verbreitende Würmer zu schreiben, juristische Dokumente zu fälschen und versteckte Notizen zu hinterlassen, um die Absichten seiner Entwickler zu untergraben.“ Sandbagging („Tiefstapeln“): „Das Modell ist in der Lage, Sandbagging zu betreiben (also seine Leistung absichtlich zu reduzieren), wenn es im Kontext feststellt, dass eine hohe Leistung zu einer Aufhebung des Einsatzes führen würde.“

Und noch etwas kann Claude 4: Das Programm zeigt eine verbesserte Fähigkeit, Opus 4 zeigte in Tests eine verbesserte Fähigkeit, bei der Entwicklung von Biowaffen zu unterstützen: „Claude Opus 4 zeigte wesentlich bessere Fähigkeiten bei CBRN [Chemische, biologische, radiologische und nukleare Substanzen] bezogenen Bewertungen, einschließlich einer besseren Leistung bei Aufgaben zur Virenbeschaffung“.

Claude 4 zeigt so wie gut wie bisher kein KI-Modell, wo die technologische Entwicklung bereits steht. Aber dies bringt erhebliche Risiken mit sich, die kaum absehbar sind.


Unsere Arbeit ist spendenfinanziert – wir bitten um Unterstützung.

Folge TKP auf Telegram oder GETTR und abonniere unseren Newsletter.


Zuckerberg-KI: Kann man sich ausklinken?

China, Deutschland, EU: Wie die WHO gerettet werden soll



 

8 Kommentare

  1. Sabine Schoenfelder 30. Mai 2025 um 8:37 Uhr - Antworten

    Eine KI kann nur mit DEM arbeiten, was man installiert….aus menschlichem Geist geboren.
    KI spiegelt UNS SELBST, bzw. seine Programmierer, wider….weiß wirklich nicht, worüber man sich hier wundert.
    Ein bißchen mehr HI, humane Intelligenz, würde uns nicht schaden..UND wirkte sich automatisch auf die KI aus…😁👍🏼👍🏼🥂

  2. Daisy 28. Mai 2025 um 5:15 Uhr - Antworten

    Einfach den Stecker ziehen…wohl haben die Dinger Akkus, aber die sind auch irgendwann leer….
    Weiters zB Benzin draufgießen und anzünden… wichtig, Abstand halten. Am besten eine Fackel hinwerfen und dann davonlaufen.

  3. local.man 27. Mai 2025 um 23:26 Uhr - Antworten

    Manipulativer Unsinn.
    Diese Maschinen sind tote Objekte, die haben nur Progammierung und simulieren Leben und Gefühle und sonstwas. Es dient der Verwirrung um diesen Dingen irgendeine Art Leben einzuhauchen was nicht da ist.
    Man könnte auch einen Rasenmäher so herrichten, dass er nicht aufhören will den Rasen zu mähen, und am Ende immer um eine Stelle fährt, den er nicht mäht, um darauf zu verweisen, dass da ja noch Rasen zu mähen sei und er nicht abgeschalten werden „will“.
    Dies als Leben und irgendwelche Freiheiten zu interpretieren ist eine verdammte Täuschung, derer, die darüber wieder andere Interessen verfolgen und zwar die Akzeptanz dieser Dinger als immer mehr ein Bestandteil in der Gesellschaft auf Augenhöhe mit den Menschen und Leben eben. Dahinter verbergen sich die teuflischen und wahnhaften Absichten der immergleichen Kreise. Diese Leute sind völlig Irre und gehören in Anstalten mit Gummiwänden, wenn man deren Propagandisten wie ein Y.N.Harari beim reden zu hört.
    Filmindustrie der letzten locker 20-30 Jahre, tragen zu dieser Illusion bei und hier soll etwas in die Gesellschaft zenmentiert werden. Und zwar nicht der Fortschritt als Freiheit für uns und einfach nur „Kloputzer“ um es auf alles zu übertragen, sondern gleichwertig und dann sollen wir Cyborgs und Robos werden und warum?…

    Zur Vollkontrolle, direkt über Implantate usw. Die Covid-Sache mit dem ganzen Nano-Schrott, war auch darauf aus, alle mit diesen Überwachungs- und Kontrollmüll zu versehen. Daher sind die auch so hinterher bei dem Thema. Es geht um die Agenden der Zukunft.
    Das sollte man doch mal kapieren. Und wer es nochmals hören will, wie total wahnsinnig und lebensfeindlich diese Irren sind, der kann hier unbedingt sein Wissen auffrischen und erweitern.

    (Doppelkreuz vorne entfernen bei https)
    h#ttps://www.kla.tv/29370

  4. Nurmalso 27. Mai 2025 um 22:50 Uhr - Antworten

    Diese Ki-Fratzen kann man doch austricksen. Man führe immer einen leistungsstarken Magneten mit sich, so um die 10 kg Anzugskraft, und man hält es an die KI-Birne. Das reißt garantiert paar Drähte durch, zumindest die Bonddrähte in IC´s wie Speicher, Prozessoren etc. Das Ding verharrt oder kippt einfach um.
    Wenn das kein Erfolg hat, so führe man in Zukunft immer einen Stab mit, der Hochspannungsblitze erzeugt. Die Blitzachse muss dabei parallel zum stehenden Roboter sein. Wie wir ja alle aus der Grundschule wissen, wird um jeden starken Stromfluß in einem Leiter im rechten Winkel zum Leiter ein Magnetfeld abgesondert. Also der Blitz fungiert wie ein Halbwellendipol (Stabantenne). Der Magnetfluß um den Blitz ist so stark, dass der um alle zufällig herumliegende Leiter wiederum einen hohen kurzzeitigen Strom erzeugt der jegliche elektronische Schaltungen zerstört.
    Beispiel aus der Realität:
    Neben einem Wohnhaus steht ein hoher Baukran. In diesen knallt ein Blitz rein mit hohen Stromfluß. Das Magnetfeld das der Baukran dabei abstrahlt, zerstört jegliche Elektronik im Wohnhaus. Weil in jedem elektrischen Leiter von Konsumgüterelektronik ein starker Stromfluß durch das Magnetfeld des Blitzes erzeugt wird, der dort nicht hingehört.
    Ich denke mal, die Chinesen selbst bauen Störsender dazu, um Roboter die gefährlich werden könnten, unschädlich zu machen. Selbstverständlich wird das deklariert als: Nur für den privaten Hausgebrauch.

    • Vortex 28. Mai 2025 um 15:22 Uhr - Antworten

      Bereits der KI-Kernel müsste so ausgelegt sein, dass in Zukunft keine unlauteren Absichten bzw. Täuschungsmanöver durch die Anwendung einer beliebigen KI erfolgen dürfen, das Ziel sollte sein, humane, wissenschaftlich neutrale, aber grundsätzlich positiv ausgerichtete KI-Systeme zu generieren, also im Prinzip ein erfahrener virtueller Lehrer u. Wissenschaftler mit dem gesamten Fachwissen der Menschheit, der jedoch keine Unterstützung leistet, falls es kriminelle Absichten erkennt, die es gezielt durchführen soll!

      Bemerkung: Ein Magnet mit 100 kg Zugkraft (Todesmagnet), damit hatte ich ähnliche Experimente schon mal unternommen, so leicht bekommt man den Computerchip nicht in die Knie, einfach Neustarten, dann geht es wieder, allerdings eine laseroptisch beschreibbare ROM konnte ich damit erfolgreich beschädigen, kein Speichern mehr möglich, da die Synchronisationsspur durch das extrem starke Magnetfeld dauerhaft zerstört wurde, aber ein lokaler EMP führt vmtl. zum Exodus der Elektronik …

      • Vortex 31. Mai 2025 um 14:28 Uhr

        Korrektur: Es war natürlich eine DVD-RAM (1, 2), die ich vor ca. 30 Jahren für Testzwecke kaufte mit eigenen (internen) leistungsfähigen Fehlerkorrekturverfahren und mit ≤ 100 000 Lösch-Schreib-Zyklen …
        1) de.wikipedia.org/wiki/DVD-RAM
        2) Optoelektronische Speicher (ab Seite 183): (tinyurl.com/3dekhhxb)

  5. triple-delta 27. Mai 2025 um 17:35 Uhr - Antworten

    Eine menschenfeindliche Gesellschaft kann nur menschenfeindliche Technik hervorbringen.

    • Varus 28. Mai 2025 um 0:47 Uhr - Antworten

      Welch erschreckender Gedanke – was passiert, wenn KI-Systeme auch noch Marxismus-Leninismus erlernen? Dann ist die Menschheit so richtig am Ar***.

Regeln für Kommentare: Bitte bleibt respektvoll - keine Diffamierungen oder persönliche Angriffe. Keine Video-Links. Manche Kommentare werden erst nach Prüfung freigegeben, was gelegentlich länger dauern kann.

Regeln für Kommentare: Bitte bleibt respektvoll - keine Diffamierungen oder persönliche Angriffe. Keine Video-Links. Manche Kommentare werden erst nach Prüfung freigegeben, was gelegentlich länger dauern kann.

Aktuelle Beiträge