Achtung, wir starten mit einem Schlagwort-schwangeren Satz, wie man ihn dieser Tage im KI-Bereich oft hört:
Nur Bahnhof verstanden? Oder nicht mal das? Nicht verzagen! Denn so fancy und abenteuerlich diese Schlagworte auch klingen, so gleich – und relativ einfach – ist auch das Grundprinzip, auf dem sie basieren. Nehmen wir es also Step by Step und starten, wo so viele Reisen beginnen: Am Zürcher Hauptbahnhof.
Stellen wir uns vor, wir stehen am Zürcher HB, halten dort zufällig 20 Leute an und – als wäre dies im Pendelstress ohne grösseren Streit möglich – messen bei allen Körpergrösse und -gewicht. Danach zeichnen wir die Resultate unseres Experiments fein säuberlich in einer Grafik auf – ein Punkt pro Person:
Schon von Auge fällt sofort auf, dass es einen klaren Zusammenhang zwischen Grösse und Gewicht gibt: Je grösser die Person, desto schwerer scheint sie zu sein – nicht wahnsinnig überraschend. Diesen Zusammenhang kann man nun formal festnageln: Man wählt mit einigen mathematischen Kriterien die Linie, welche am besten zu den Punkten passt.
Dieser Prozess – das Finden der besten Linie für die Punkte – heisst in Nerd-Sprache Learning. Die Linie «lernt» quasi anhand der Punkte, wo sie genau zu liegen hat. Die passende Linie selbst nennt man ein «Modell» der Punkte – in unserem Fall also ein Modell, das den Zusammenhang von Grösse und Gewicht beschreibt:
Dieses Modell kann verwendet werden, um für jede mögliche Grösse ein Gewicht zu schätzen (oder «vorherzusagen», wie man auch sagt) – auch wenn man das Gewicht nicht direkt gemessen hat.
Zugegeben: Das oben erdachte Modell von Grösse und Gewicht ist noch nicht super hilfreich. Jedoch zeigt es schon das ganze Grundprinzip des sogenannten Machine Learning. Generisch gesagt: Man erhebt Daten (Grösse und Gewicht am HB), lernt automatisch das Muster darin (passende Linie) und verwendet dieses dann für weitere Aufgaben (Vorhersage des Gewichts).
Gar nicht so eine Hexerei, oder? Und das Beste: Wir können dieses Grundprinzip nun einfach auf mehr Daten anwenden und haben damit schon ChatGPT gebaut – oder fast, zumindest.
20 Datenpunkte, die wie oben einen linearen Zusammenhang beschreiben, sind ein sehr einfacher Datensatz. Heutzutage hat man es oft mit voluminöseren und vielfältigeren Daten zu tun – beispielsweise mit tausenden von Bildern oder mit tonnenweise Text. Doch auch in komplexen Daten können Zusammenhänge gefunden und gelernt werden.
Möchte man zum Beispiel wissen, welcher Gegenstand auf einem Bild zu sehen ist, dann kann dies auch verstanden werden als die Frage: «Wie ist der Zusammenhang zwischen den Pixeln auf dem Bild und dem Gegenstand, der gezeigt wird?» Und schon sind wir mit dem Grundprinzip von oben im Spiel: Wir nehmen einfach einige Fotos, von denen wir wissen, was sie zeigen, lassen den Computer den Zusammenhang von Pixeln zu Gegenständen lernen und wenden das so erstellte Modell an, um neue Fotos auszuwerten. Easy!
Nun ja, wenn es um solche automatische Bildverarbeitung geht – also «Computer Vision», um das nächste Buzzword ins Spiel zu bringen –, ist das Prinzip zwar das alte, aber man braucht nicht nur sehr viele Beispielbilder, sondern auch spezielle Modelle, die mit Bildern umgehen können: keine einfachen Linienmodelle, sondern sogenannte künstliche neuronale Netzwerke. Solche neuronalen Netzwerke sind so verbreitet, dass ihre Anwendung in der KI-Sprache einen eigenen Begriff erhalten hat: Deep Learning.
Überträgt man diese Denke weiter auf Text, lassen sich auch noch die neuesten KI-Systeme wie ChatGPT – sogenannte Large Language Models oder LLMs – erklären: Der Computer lernt an sehr, sehr, sehr (!) vielen Textbeispielen die Muster der menschlichen Sprache und wendet diese dann an, um Fragen zu beantworten und Gedichte zu schreiben. Wohlverstanden also: So weit weg von Grösse und Gewicht am HB die Anwendungen von ChatGPT auch scheinen, ist doch wieder das gleiche Grundprinzip am Werk.
Nun haben wir viele der anfangs erwähnten Buzzwords bereits durchgeackert. Um darin die Orientierung nicht zu verlieren, lass uns tun, was auch sonst beim Orientieren hilft: eine Karte aufschlagen.
Eine Landkarte hilft, rasch eine Übersicht über einen Bereich zu gewinnen und einzelne Orte dem richtigen Landteil zuzuordnen. Genau so eine Übersichtskarte kann man auch für die wichtigsten «Orte» im KI-Bereich zeichnen – jene also, die wir oben hergeleitet haben:
Und hier ist die Kartenlegende:
Wenn man also vor lauter Buzzword-Bäumen wieder einmal den KI-Wald nicht mehr sieht, ist es das Gleiche, wie wenn man sich in einer unbekannten Stadt in irgendeiner dunklen Hintergasse verlaufen hat: Eine gute Idee, die Karte rauszuholen und zu fragen: «Wo bin ich eigentlich?»