DeepSeek vs. ChatGPT: So (unterschiedlich) schlagen sich die KIs bei der Gymi-Prüfung

28.01.2025, 19:5828.01.2025, 19:58

Mehr «Wissen»

Der Release der angeblich supergünstigen KI DeepSeek aus China war ein Schuss vor den Bug der amerikanischen Branchengrössen. Diese reklamierten bisher einen gewaltigen Entwicklungsvorsprung für sich – DeepSeek soll aber bei Logik-, Programmier- und Mathematikaufgaben mindestens ebenbürtig sein.

Und genau das haben wir anhand der Gymi-Aufnahmeprüfung des Kantons Zürich des Jahres 2015 getestet. Es treten gegeneinander an: Die Gratisversion von ChatGPT (4o mini) vs. die Gratisversion von DeepSeek. Die Resultate haben wir anhand des gängigen Notenschlüssels beurteilt. Und es gab einen klaren Sieger.

Weil Brüche nicht einfach so copy-pastet werden können, schreiben wir die Aufgabe um. Und zwar in:

a) «(7min 39s : 17) + (19+ (7/12)) min»

Während DeepSeek die Inkonsequenz bei den Divisionszeichen locker handelt, stolpert ChatGPT und vergisst schlicht, den ersten Term durch 17 zu teilen.

ChatGPT (l.) vergisst, durch 17 zu dividieren, DeepSeek nicht. bild: Screenshot

Mit der angepassten Schreibweise «(7min 39s/17) + (19+ (7/12))min» kommt auch ChatGPT zum korrekten Resultat. Aber wie bei der echten Prüfung zählt der erste Versuch.

Während das kostenlose Angebot der amerikanischen KI Datei-Uploads nicht unterstützt, können bei DeepSeek auch Bilder hochgeladen werden. Der chinesischen KI reicht ein Screenshot der Aufgabe, um sie zu lösen. Beeindruckend.

gif: screenshot deepseek

Auch diese Aufgabe müssen wir aufgrund der Brüche leicht umschreiben:

b) «Gib die Lösung für x in kg und g an: (7+(13/50))kg − 3.18kg + x = 6024g»

Beide lösen die zweite Teilaufgabe souverän ...

bild: screenshot

Auch hier treffen wir auf das Bruch-Problem. Und das ist nicht die einzige Schwierigkeit ...

Wir schreiben um:

«Gib die Lösung für x als Dezimalzahl an: ((2+11/25)) · 12)−(72.67 : 13) = (28+3/8) − x»

ChatGPT ist zwar in der Nähe des korrekten Resultats, aber chirurgische Präzision sieht anders aus.bild: screenshot

Woran liegt's? An einem simplen Rechnungsfehler. Bei ChatGPT ergibt 72.67/13 ungefähr 5.594 ... statt korrekterweise 5.59. Unglaublich!

Links der Fehler von ChatGPT, rechts die korrekte Version von DeepSeek. bild: screenshot

Liegt es erneut an der inkonsequenten Verwendung der Operationszeichen? Wir versuchen es mit «Gib die Lösung für x als Dezimalzahl an: ((2+11/25)) · 12)−(72.67/13) = (28+3/8) − x».

Nein. Erneut verrechnet sich ChatGPT an derselben Stelle (72.67÷13≈5.591). Wir können es fast nicht glauben. Für den korrekten Lösungsweg gibt's trotzdem noch zwei Punkte. Deep Seek holt sich auch hier die volle Punktzahl.

Erneut schreiben wir geringfügig um. Und zwar in:

«Von seinem Feriengeld von 84 Franken hat Tim bereits Dreisiebtel aufgebraucht. Vom Rest plant er, Zweidrittel für einen neuen Fussball auszugeben. Zu seiner Überraschung kostet der Fussball weniger als erwartet. Nach dem Kauf hat er noch 20 Franken von seinem Feriengeld. Wie viele Franken ist der Fussball günstiger als erwartet?»

bild: screenshot

Beide lösen die Aufgabe humorlos und souverän. Inklusive Lösungsweg.

Hier wird nichts umgeschrieben ... und die beiden Streber meistern die Aufgabe ohne Probleme.

bild: screenshot

Obwohl man bei DeepSeek Bilder hochladen kann, ist die KI noch nicht in der Lage, diese ausserhalb einer Textanalyse zu erfassen. Die Aufgabe ist also für beide unlösbar – deshalb ersetzen wir sie durch eine Logikaufgabe aus einem Gymi-Vorbereitungsheft:

«13 SchülerInnen benötigen 1h und 45 Minuten, um den Pausenplatz vom Laub zu befreien. Nach 20 Minuten kommen ihnen 8 LehrerInnen zu Hilfe. Diese arbeiten aber nur halb so schnell. Wie lange dauert es, bis der Pausenplatz vom Laub befreit wurde.»

Links: ChatGPT, rechts: DeepSeek. Beide lösen die Aufgabe ohne Probleme. bild: screenshot

Wirklich beeindruckend ist, dass DeepSeek die acht LehrerInnen, welche halb so schnell arbeiten, gleich in vier SchülerInnen umrechnet – und das auch noch mitteilt. ChatGPT erklärt seine Arbeitsschritte allerdings etwas detaillierter; so, dass sogar ein nicht weiter beschriebener Journalist die Aufgabe nachvollziehen kann.

Auch die Frage 6 ist eine Textaufgabe. Wir erwarten erneut einen Doppelerfolg ... und fast schon ernüchternd ist das Resultat. Beide holen sich die Maximalpunktzahl.

Beide KIs lösen die Aufgabe ohne Probleme. Wobei das «ohne Probleme» natürlich nur eine Vermutung ist.bild: screenshot

Eine weitere Textaufgabe. Jetzt allerdings etwas komplexer. Beide KIs lösen die Aufgabe ... falsch!

Beide begreifen nicht, dass die Urgrossmutter älter ist als die Grossmutter. Deshalb spucken sie das korrekte Resultat für die Grossmutter – und nicht für die Urgrossmutter – aus. Weil der Weg bei beiden aber korrekt ist, kriegen sie dafür immerhin noch die Hälfte der Punktzahl. Etwas froh sind wir trotzdem – aber auch etwas überrascht.

Links: ChatGPT, rechts: DeepSeek: «G» steht für Grossmutter und «U» für Urgrossmutter. Beide KIs begreifen nicht, wer davon älter sein muss. Beide entscheiden sich für die erstgenannte Grossmutter.bild: screenshot

Schon recht eigenartig, dass die beiden recht makellosen KIs denselben Fehler begehen.bild: screenshot

Selbstverständlich gilt für die Prüfung der erste Versuch. Aus reiner Neugier weisen wir die beiden KIs auf ihren Fehler hin und verlangen, dass sie die Aufgabe noch einmal lösen.

Links: ChatGPT, rechts: DeepSeek. Beide KIs geben sich geläutert. Doch nur eine davon wird aus ihrem Fehler lernen. Interessant auch, wie DeepSeek ihre anfängliche Behauptung revidiert. bild: screenshot

ChatGPT (l.) behauptet, den Fehler eingesehen zu haben, begeht ihn aber erneut. DeepSeek ist lernfähiger.bild: screenshot

Ha! Bei dieser Aufgabe rechnet ChatGPT im Kreis herum. DeepSeek löst sie hingegen korrekt. Bereits das Gewicht des Flugzeugs (samt Fracht, ohne Passagiere) hatte bei ChatGPT nicht gestimmt.

bild: screenshot

Den entscheidenden Fehler begeht ChatGPT aber bei der Berechnung der Reichweite pro Tonne.

Statt durch 11,25 zu dividieren, teilt ChatGPT durch 18 Tonnen – und rechnet damit im Kreis.screenshot: chatgpt

Für den mehr oder weniger korrekten Weg kriegt ChatGPT aber immer noch einen von vier Punkten. Trotzdem. Bei dieser Aufgabe zeigen sich Schwächen beim US-Modell.

Die neunte und letzte Aufgabe lässt sich mit den Gratis-KIs wiederum nicht lösen. Als Ersatz wählen wir die siebte Aufgabe der Gymi-Prüfung des Jahres 2016. Ein klassischer Geschwindigkeit-Nervtöter.

bild: screenshot

So. Beide KIs meistern die letzte Hürde noch einmal souverän. Damit kommen wir zur Auswertung.

Auswertung

ChatGPT 4o mini besteht die Prüfung mit 27 von 36 Punkten. Das gibt mit der gängigen Formel (x/36x5)+1 eine 4,75. Damit reicht's ChatGPT ohne Vornoten gerade noch so ins Gymi. Wir waren mit den Abzügen aber auch streng ... etwas milder gestimmt, hätte es auch für eine 5 reichen können.

Mit 34 Punkten und der Note 5,75 (aufgerundet von einer 5,72) wird DeepSeek den Vorschusslorbeeren, die die KI in den letzten Tagen erhielt, komplett gerecht. Die KI arbeitet deutlich langsamer als ChatGPT, dafür aber auch sorgfältiger.

Sollte es den Tatsachen entsprechen, dass die KI tatsächlich so günstig trainiert werden konnte, dann sind die Sorgen der USA berechtigt.

Stirnrunzeln dürften auch viele Nachhilfelehrer haben. Die Herleitungen beider KIs sind dermassen einleuchtend und umfangreich, dass in Zukunft einige Kinder auf diese Hilfe zurückgreifen dürften. Zu meistern gilt es dann vor allem die Versuchung, sich damit selbst zu betrügen.

DANKE FÜR DIE ♥

Würdest du gerne watson und unseren Journalismus unterstützen? Mehr erfahren

(Du wirst umgeleitet, um die Zahlung abzuschliessen.)

5 CHF

15 CHF

25 CHF

Anderer

Oder unterstütze uns per Banküberweisung.

Themen

Giftiger Fluss in Indonesien: Neue Müllberge angeschwemmt

1 / 10

Giftiger Fluss in Indonesien: Neue Müllberge angeschwemmt

Seit Jahren schwimmt im indonesischen Fluss Citarum ein gewaltiger Abfallberg.

quelle: www.imago-images.de / imago images

Markus Ritter im watson-Interview

Video: watson

Das könnte dich auch noch interessieren:

Abonniere unseren Newsletter

Weil wir die Kommentar-Debatten weiterhin persönlich moderieren möchten, sehen wir uns gezwungen, die Kommentarfunktion 24 Stunden nach Publikation einer Story zu schliessen. Vielen Dank für dein Verständnis!

Die beliebtesten Kommentare

Leverage

28.01.2025 20:28registriert Dezember 2017

Weshalb genau wird 4o mini genommen? Weil es kostenlos ist?
Aber dann macht der Einstieg wenig Sinn.

4o kann alle Aufgaben auf Anhieb korrekt lösen. Habe eben alle die falsch waren kurz getestet. Und 4o ist bereits wieder veraltet und o1 löst sie sowieso richtig.

Etwas seltsamer Artikel

11722

Melden

Zum Kommentar

_stefan

28.01.2025 21:21registriert September 2015

„Die KI arbeitet deutlich langsamer als ChatGPT, dafür aber auch sorgfältiger.“ DeepSeek ist eben ein reasoning Model (wie ChatGPT o1), welches seine Gedanken überdenkt und sich selber korrigiert.
Hier wurde also ein Schüler der Spricht, ohne nachzudenken mit einem Schüler, der zuerst nachdenkt verglichen.
Und wie in der Realität reicht’s dem faulen aber schlauen Schüler (Modell o4-mini) gerade noch so knapp ins Gymi 😉 Ziel erreicht!

663

Melden

Zum Kommentar

rockyM

28.01.2025 21:06registriert Februar 2016

Meine Meinung zu ChatGPT. Bin Elektriker und Fahrradmechaniker. Viel Ahnung von IT, aber keine Programierkentnisse. Ich konnte mit den richtigen Fragen innert einer Woche eine Website erstellen, welche per API Ladevorgänge bei EcarUp und Zaptect Abruft, darstellt und den Nutzern Automatisch eine PDF Rechnung mit CH Einzahlungsschein nach gewünschten Rythmus erstellt und mailt. Alles Automatisiert und ohne Kosten. Das Ding ist so gut, dass ich es einer Verwaltung verkaufen konnte. Kurz, ich finde es krass und sehe eine unglaubliche Distrubtion auf uns zukommen.

6412

Melden

Zum Kommentar

In diesen Gemeinden gilt ein Feuerwerksverbot – und hier kannst du es krachen lassen

Das Federer-Imperium hat Basel verlassen – und ist in eine Schweizer Steueroase gezogen

Ist der Camper-Boom vorbei? Das sagen die Verkaufszahlen

Stärkstes Erdbeben seit Fukushima – Serie von Nachbeben auf russischer Halbinsel

Kunden wenden sich von Teflon ab – das sind die besten Alternativen

YB verpflichtet Sergio Cordova +++ FCB holt wohl serbisches Talent (18)

Trump verhängt wie angedroht Zölle von 50 Prozent gegen Brasilien

Wir suchen ... imfall: Das Bünzli-Wort 2025

Picdump 152 – ein Meme kommt selten allein

«Vulkane retten das Geschäft nicht» – Branche fürchtet sich vor Feuerwerksinitiative

Rauchwolken über dem Grand Canyon: Feuer weitet sich aus

Aarau führte bis zum Regenabbruch mit 3:1 – jetzt fordert Bellinzona einen Forfaitsieg

Schweizer Fussballszene trauert um Andy Ladner + Chabbey bei Sieg von Pienaar auf Platz 10

Nach Bergunfall: Biathlon-Olympiasiegerin Laura Dahlmeier (31) ist tot

Wegen dem Iran: Sorgen um Sicherheit belgischer Politikerin Darya Safai

Körpergeruch fruchtbarer Frauen senkt Stress bei Männern

Bestimmte Körpergerüche von Frauen in ihrer fruchtbaren Zyklusphase wirken auf Männer stressmindernd. Das zeigte ein Forschungsteam der Universität Tokio in einer neuen Studie.

Zur Story

DeepSeek vs. ChatGPT: So schlagen sich die KIs bei der Gymiprüfung

DeepSeek vs. ChatGPT: So (unterschiedlich) schlagen sich die KIs bei der Gymi-Prüfung

Auswertung