Zwanzig Tage lang haben sich vier der weltbesten Pokerspieler in einem Casino in Pittsburgh verschanzt. Elf Stunden pro Tag haben sie gespielt. Total 120'000 Runden. Sie hatten nur ein Ziel: ihn zu schlagen. Libratus, die beste Pokersoftware, die je programmiert worden ist. Es ging nicht um Geld. Sondern um Ehre. Darum, wer die Vorherrschaft im populären Kartenspiel innehat: Mensch oder Maschine.
Anfangs konnten die menschlichen Spieler knapp mithalten. Doch Libratus lernte schnell dazu – und lag bald uneinholbar in Führung. Immer wieder zu verlieren, sei demoralisierend gewesen, klagte der Profispieler Jason Les nach dem Turnier, das diese Woche zu Ende ging. Und sein Kollege Dong Kim pflichtete bei: «Es fühlte sich an, als ob ich gegen jemanden spielen würde, der betrügt.»
Die Menschheit wurde am Pokertisch vernichtend geschlagen.
Es ist eine weitere Domäne, in welcher der Computer gewonnen hat. Angefangen hat es mit Schach. 1997 schlug der IBM-Computer «Deep Blue» den damaligen Weltmeister Garri Kasparow. 2011 gewann der Supercomputer Watson – ebenfalls von IBM entwickelt – gegen die stärksten menschlichen Herausforderer in der Quizsendung «Jeopardy!». 2016 besiegte AlphaGo – programmiert von der Google-Tochterfirma Deepmind – Lee Sedol, den besten Go-Spieler. Und jetzt also Poker.
Zum ersten Mal ist eine Software in der Variante Heads-Up No Limit Texas Hold’em der beste Spieler. Bei dieser Version treten nur zwei Spieler gegeneinander an, können aber jeweils einen beliebig hohen Betrag setzen. Letzteres öffnet enorme Möglichkeiten.
Anders als Schach oder Go ist Poker ein Spiel mit «unvollständigen Informationen», da die Karten der Gegner und jene im Stapel verdeckt sind. «Das stellt eine viel grössere Herausforderung für eine künstliche Intelligenz dar», sagt Noam Brown der «Schweiz am Sonntag». Der Computerwissenschafter hat die Pokersoftware zusammen mit Tuomas Sandholm an der Carnegie Mellon University in Pittsburgh entwickelt. Die bisherigen, populären Strategien, die für Spiele wie Schach oder Go entwickelt wurden, funktionierten beim Pokerspiel nicht. «Wir mussten einen völlig neuen Ansatz finden.»
Die Software musste lernen, zu bluffen und sich durch Bluffs von Gegenspielern nicht irritieren zu lassen. Die beiden Forscher brachten Libratus allerdings lediglich die Regeln bei. Die Software spielte dann Milliarden von Partien gegen sich selbst und leitete daraus gewinnbringende Strategien ab. Diese überraschten nicht nur die Gegenspieler, sondern auch die Forscher selber: «Die Software bluffte immer wieder in einer Art und Weise, die ich nicht für möglich gehalten hätte», sagt Brown.
Nach jedem Turniertag liessen die vier Profispieler die Partien Revue passieren, analysierten das Verhalten ihres unmenschlichen Gegners und bereiteten sich auf die nächsten Runden vor. Doch auch Libratus blieb nicht untätig. Seine Entwickler verbanden die Software mit einem Supercomputer, damit der Algorithmus seine Strategie weiter optimieren konnte und für seine Gegner unberechenbar blieb. Und während sich die Menschen irgendwann gegen zwei Uhr schlafen legten, trainierte Libratus die ganze Nacht – und überraschte seine Gegner am Morgen mit einer neuen Strategie.
Nach 20 Spieltagen hatte Libratus seinen menschlichen Kontrahenten 1,7 Millionen Dollar in Chips abgeknöpft. Ein rein symbolischer Betrag, den die Spieler nicht zahlen mussten, der aber zeigt, wie haushoch überlegen die Software gewann.
Die Leistung von Libratus ist beeindruckend», sagt Yannic Kilcher, der am Data Analytics Lab der ETH Zürich forscht und selbst passionierter Pokerspieler ist. Man könne diesen Erfolg durchaus mit dem Sieg der Software AlphaGo über den besten menschlichen Go-Spieler vergleichen. Allerdings sei er auch nicht überraschend gekommen. «Viele der Elemente, die zum Ziel geführt haben, waren schon bekannt. Sie wurden nun einfach geschickt zusammengefügt und optimiert», sagt Kilcher.
Die Anwendung von Libratus beschränkt sich nicht auf das Kartenspielen. Die Entwickler sehen vielfältige Einsatzmöglichkeiten für ihren Algorithmus. Denn das Leben ist dem Poker meist ähnlicher als dem Schach. Ständig finden sich Menschen in Situationen wieder, in denen sie Entscheidungen treffen müssen, ohne dass alle Konsequenzen ersichtlich wären.
Auch das Leben ist ein Spiel mit «unvollständigen Informationen». Der Algorithmus könnte etwa genutzt werden, um Strategien in der Cyberabwehr zu verbessern. Er könnte Tradern helfen, um mit ihren Produkten einen möglichst hohen Preis zu erzielen. Denkbar wäre aber auch, dass er Ärzte unterstützt, in medizinischen Behandlungen die richtige Entscheidung zu treffen.
Vielleicht wird Libratus aber zuerst einmal das Pokerspiel selbst verändern. Denn welchen Reiz hat ein Online-Spiel noch, wenn man sich nicht sicher sein kann, ob man es mit einem Menschen oder einer übermächtigen Maschine zu tun hat? Natürlich würde der Einsatz von einer Software wie Libratus gegen die Nutzerbedingungen der Poker-Portale verstossen, doch der Betrug liesse sich nicht so einfach aufdecken. Zwar überprüfen die Dienstleister jetzt schon die Menschlichkeit ihrer Spieler, etwa indem die Bewegungen des Mauszeigers analysiert werden.
Doch Maschinen werden immer besser darin, Menschlichkeit vorzutäuschen – und sei es mit einem raffinierten Bluff.
Was mir fehlt ist eine Relation zur Gewinnspanne. 1.7 Mio von wieviel Gesamteinsatz?