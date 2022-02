Trainiert «Gran Turismo Sophy»: Peter Dürr, Leiter von Sony AI Zürich Bild: Sony Ai

Rennspiel-KI «Sophy» fährt den Menschen davon

«Gran Turismo Sophy» heisst die KI, die mittlerweile selbst die besten Gran-Turismo-Profis hinter sich lässt. Entwickelt wurde «GT Sophy» unter anderem in der Schweiz, bei Sony AI Zürich. Hier erfährst du, was diese KI so stark macht.

Tomoaki Yamanaka zählt zur Weltspitze des Konsolen-Rennsports. 2021 gewann der Japaner unter anderem den «Toyota Gazoo Racing GT Cup», das Finale der Rennserie «FIA Gran Turismo Championships». Mit anderen Worten: 2021 war Yamanaka der weltweit schnellste menschliche Fahrer in «Gran Turismo Sport», dem Rennspiel von Sony Interactive Entertainment. Am 9. Februar 2022 wurden Yamanaka seine Grenzen sehr deutlich aufgezeigt: Bei einem Show-Rennen holte er zwar den zweiten Platz, hatte allerdings 5,8 Sekunden Rückstand auf die Gewinnerin: die künstliche Intelligenz «Gran Turismo Sophy». Yamanaka quittierte seine Niederlage mit einem Lächeln. Doch so ganz spurlos wird diese Erfahrung nicht an ihm vorübergegangen sein.

Der Star der Show war ganz eindeutig «Gran Turismo Sophy». Bei dem Event (siehe Video unten) stellten Sony AI, Sony Interactive Entertainment und Polyphony Digital die schnelle «Sophy» als «Durchbruch» in der Entwicklung von Rennspiel-KI vor. Bis jetzt ist die Computer-Pilotin vor allem ein Forschungsprojekt der KI-Abteilung des Sony-Konzerns: Pünktlich zur Präsentation veröffentlichte das Forscherteam in der Zeitschrift «Nature» einen Fachartikel, der die Entwicklung von «Sophy» beschreibt. Schon bald dürfte «GT Sophy» aber kein reines Forschungsprojekt mehr sein, sondern als Add-on für «Gran Turismo 7» zum Einsatz kommen. Das Rennspiel erscheint am 4. März für PS4 und PS5 – wann genau das KI-Update kommt, hat GT7-Entwickler Polyphony Digital allerdings noch nicht verkündet. In jedem Fall kannst du dich schon auf knackige Herausforderungen durch die neue KI freuen! Doch was macht «GT Sophy» eigentlich so stark?

«Die KI beherrscht die Fahrzeugdynamik, kennt die Ideallinien, kann präzise Manöver ausführen und meistert damit auch anspruchsvolle Strecken.» Dr. Peter Dürr, Leiter Sony AI Zürich

Nun, Sony hat drei Hauptbereiche definiert, in denen die Renn-KI Fortschritte macht. Der erste Bereich ist die Rennwagensteuerung. «Die KI beherrscht die Fahrzeugdynamik, kennt die Ideallinien, kann präzise Manöver ausführen und meistert damit auch anspruchsvolle Strecken», sagt Peter Dürr im Interview. Der Schweizer Wissenschaftler leitet Sony AI Zürich, eine von drei Niederlassungen weltweit, in denen der Konzern an KI forscht – nicht nur bei Gaming, sondern beispielsweise auch bei Bildsensoren und gastronomischen Anwendungen. Doch zurück zu «Sophy»: Peter Dürr und KollegInnen trainieren die KI auch in einem zweiten Bereich, nämlich der Taktik. «GT Sophy kann sich sehr schnell auf wechselnde Rennsituationen einstellen», sagt Dürr. «Und wir können zeigen, dass sie zum Beispiel Taktiken wie Windschattenfahren, Überholen aus dem Windschatten, Überholmanöver in Kurven und auch einige defensive Manöver beherrscht.»

Ist von «Sophys» Fortschritt beeindruckt: Polyphony-Digital-Chef Kazunori Yamauch Bild: Sony PlayStation

Der dritte Bereich ist aus Forschersicht wahrscheinlich der anspruchsvollste: Es geht darum, «Sophy» sportliche Fairness beizubringen. Zum Beispiel soll sie nicht absichtlich andere Autos rammen, um sich einen Vorteil zu verschaffen, sondern die Fahrlinie der menschlichen Kontrahenten respektieren. «Das ist insofern eine Herausforderung, weil diese Fairness-Regeln im Rennsport für Menschen gemacht sind», betont Peter Dürr. «Es ist sehr schwierig, das für eine KI umzusetzen. Wir haben lange daran gearbeitet, um den Top-Spielern ein faires Spiel-Erlebnis bieten zu können.»

Das bedeutet: «Sophy» muss intensiv mit «GT Sport» trainiert werden. Dies geschieht durch «Reinforcement Learning», übersetzt: «bestärkendes Lernen». Reinforcement Learning ist eine Klasse von Methoden in der künstlichen Intelligenz, die es schon seit Jahrzehnten gibt. Dass sie so produktiv in Rennspielen zum Einsatz kommt, ist hingegen neu. Der Clou: «Sophy» lernt nicht etwa dadurch, dass sie Gran-Turismo-Profis und deren Fahrlinien als Vorbild nimmt – sondern dadurch, dass sie massig Spielerfahrung sammelt. Reinforcement Learning funktioniert über ein System aus Belohnungen und Bestrafungen. Zeigt «Sophy» erwünschtes Verhalten – also zum Beispiel eine schnelle Rennzeit oder ein gelungenes Überholmanöver – dann erhält sie ein Belohnungssignal. Bei unerwünschten Verhalten hingegen – also etwa einer Kollision oder dem Verlassen der Rennstrecke – wird sie vom System «getadelt». So lernt die KI nach und nach, welches Verhalten zum Erfolg führt. Und verbessert sich Schritt für Schritt.

«Als wir die KI noch nicht trainiert hatten, konnte sie keine Runde fahren, ohne von der Strecke abzukommen.» Dr. Peter Dürr, Leiter Sony AI Zürich

Der Lernprozess ist aufwändig – und beeindruckend. «Als wir die KI noch nicht trainiert hatten, konnte sie keine Runde fahren, ohne von der Strecke abzukommen», erzählt Peter Dürr. «Nach einigen Stunden hatte sie das aber per Verstärkungssignal gelernt – und konnte den Kurs ohne Kollisionen fahren.» Nach mehreren Tagen intensiven Trainings erreichte «Sophy» die Rundenzeiten der Top 5 Prozent unter den menschlichen Spielern. Um die absoluten Profis schlagen zu können, benötigte sie aber noch zusätzliche Trainingszeit. Ein Beispiel: Für das Rennen am Lago Maggiore wurde Sophy etwa zehn Tage lang trainiert. «Wir haben dabei etwa 200 bis 250 Instanzen von Sophy gleichzeitig simuliert, die 24 Stunden täglich und zehn Tage lang «GT» gespielt haben», berichtet Peter Dürr. «Das entspricht dann ungefähr der Erfahrung von 20.000 bis 30.000 Stunden im Spiel. Über diese Erfahrung lernt die KI, mit allen möglichen Situationen umzugehen.» Übrigens trainiert «Sophy» nicht auf herkömmlichen Konsolen, sondern auf über 1000 virtuellen PS4 in der Cloud. Das ermöglicht ihr, viele Fahrsituationen gleichzeitig zu testen – und dadurch noch schneller zu lernen.

Mensch gegen KI: Show-Rennen mit Top-Piloten bei «Race Together» Bild: Sony PlayStation

In den Trainings-Sessions und Proberennen zeigt «Sophy» wie kreativ sie ist. Polyphony-Digital-Chef Kazunori Yamauchi gab in der Präsentation ein Beispiel für ihr Fahrverhalten: Speziell in Kurven fährt «Sophy» anders als menschliche GT-Piloten. Die meisten von ihnen fahren hier nämlich nach der Langsam-in-die-Kurve-und-dann-beschleunigen-Philsophie. «Gran Turismo Sophy macht das aber nicht unbedingt», sagt Yamauchi. «Wenn Gran Turismo Sophy in eine Kurve fährt, bremst sie beim Kurvenbeginn.» Üblicherweise liege das Gewicht des Fahrzeugs in Kurven auf den beiden Vorderreifen, so der Studiochef. «Bei Gran Turismo Sophy liegt es aber auf drei Reifen – den zwei vorderen und einem hinteren. So kann das Auto bremsen, während es durch die Kurve fährt.» Yamauchi hat diese Technik sonst bisher nur bei Top-Fahrern in der echten Formel 1 gesehen – nämlich bei Lewis Hamilton und Max Verstappen. «Sophy» befindet sich mit ihrem experimentellen Fahrstil also in guter Gesellschaft.

Zu «Sophys» grössten Herausforderungen zählt wie gesagt die sportliche Fairness. Anders als eine Schach- oder GO-KI kann sie nicht einfach alle Möglichkeiten ausschöpfen – stattdessen muss sie die geschriebenen und ungeschriebenen Regeln des Rennsports respektieren. «GT Sport» bestraft beispielsweise, wenn Piloten die Strecke verlassen und eine Abkürzung nehmen. Im echten Rennsport gibt es zusätzlich auch noch menschliche «Schiedsrichter» (Stewards): Sie entscheiden zum Beispiel, welcher der beiden Fahrer bei einer Kollision die Schuld trägt – und verhängen dann entsprechende Zeitstrafen. «Für uns war es extrem schwierig, mit diesen Regeln umzugehen», sagt Peter Dürr, «weil für die vielen tausend Stunden KI-Training keine menschlichen Schiedsrichter zur Verfügung standen, um jede Situation zu beurteilen. Also haben wir versucht, diese Fairness-Regeln in eine mathematische Formulierung zu bringen – und dann in dieses Belohnungssystem einzubauen.»

Dieser Algorithmus ist eine Gratwanderung: Bestraft er beispielsweise jede Kollision, dann wird «Sophy» im Training auf Dauer sehr ängstlich. «Wenn dann ein anderes Fahrzeug versucht, sie zu überholen, geht die KI schön aus dem Weg, damit keine Gefahr für eine Kollision aufkommt», erläutert Peter Dürr. «Aber damit gewinnt die KI natürlich nicht das Rennen.» Folglich muss der Algorithmus auch verschiedene Perspektiven gegeneinander abwägen. Konkret: Welche Art von Kollision ist von uns verschuldet und muss deshalb vermieden werden? Und welche Art von Kollision kann man tolerieren, weil der andere Fahrer schuld ist? Auch in puncto Taktik und Strategie kann «Sophy» noch einiges lernen. «Zum Beispiel überholt Sophy auf einer langen Geraden bei der erstmöglichen Gelegenheit. Ein menschlicher Spieler würde mit dem Überholen warten, bis der Gegner keine Möglichkeit mehr zum Kontern hat», sagt Peter Dürr.

Das klingt jetzt alles nach knirschenden Zahlenkolonnen und schnaufenden Servern. Wenn «Sophy» ausreichend trainiert ist, soll sie aber vor allem eines bringen: Spielspaß! «Der KI-Agent soll für Menschen ein Freund, ein Kamerad, ein Kumpel sein, mit dem man sich verbunden fühlen kann», sagt Kazunori Yamauchi. Das Ziel sei, dass sich KI und Mensch gegenseitig respektieren. Wir sind auf «Sophys» Einsatz in «GT 7» gespannt!

