Das am Dienstag veröffentlichte Modell trägt den Namen «Apertus». Sowohl der Programmcode als auch die Trainingsdaten und die Architektur der Künstlichen Intelligenz (KI) seien öffentlich einsehbar, wie die beiden Eidgenössischen Technischen Hochschulen Zürich (ETH Zürich) und Lausanne (EPFL) mitteilten.
Damit unterscheide es sich von kommerziellen Systemen, von denen die meisten in den USA oder in China in nicht nachvollziehbaren Prozessen entwickelt worden seien, hiess es von den Forschenden.
Entwickelt und trainiert wurde das freie Schweizer Sprachmodell auf dem Supercomputer «Alps» am nationalen Supercomputer-Zentrum CSCS in Lugano.
Die Zutaten, die zur Herstellung kommerzieller KI-Systeme verwendet werden, werden geheim gehalten. «Und die Zahl der Menschen, die diese Geheimnisse tatsächlich aufdecken können, wird aufgrund der hohen Investitionen, die für die Entwicklung erforderlich sind, immer kleiner»: Das erklärte Antoine Bosselut von der EPFL, der das Projekt zusammen mit seinem EPFL-Kollegen Martin Jäggi und Imanol Schlag von der ETH Zürich leitet, an der öffentlichen Vorstellung von «Apertus».
Die von OpenAI und anderen Techunternehmen entwickelten KI-Modelle sind den Forschenden zufolge eine Blackbox. Es lässt sich kaum überprüfen, wohin die während der Nutzung entstehenden Daten fliessen. Auch ist es schwer nachzuvollziehen, ob die generierten Antworten möglicherweise manipuliert wurden, um eine bestimmte politische Sichtweise zu fördern.
Die Modelle öffentlich zugänglich zu machen, hat laut den Forschenden aber auch Vorteile für die Weiterentwicklung von KI. «Aus langjähriger Erfahrung wissen wir, dass diese Systeme in gewisser Weise immer Fehler aufweisen werden. Doch wenn wir die Bestandteile verstehen, aus denen diese Modelle trainiert werden, und wie sie aufgebaut sind, können wir die Schwachstellen dieser Systeme verbessern, um einige dieser Fehler abzumildern», erklärte Bosselut.
«Apertus» ist wie ChatGPT oder Copilot ein sogenanntes «Large Language Model» (LLM). Ein Chat-Interface liefern die Hochschulen allerdings nicht. Anders als bei bekannten KI-Sprachmodellen wie ChatGPT können Nutzerinnen und Nutzer also nicht direkt auf das System zugreifen.
Es soll aber für Entwicklerinnen und Entwickler als Baustein für künftige Anwendungen wie Chatbots oder Übersetzungssysteme dienen. Eine solche Zusammenarbeit haben die Forschenden bereits mit Swisscom.
Entwickelt und trainiert wurde es auf dem Supercomputer «Alps» am nationalen Supercomputer-Zentrum CSCS in Lugano. Dabei kamen 15 Billionen sogenannter Tokens aus über 1000 Sprachen zum Einsatz.
Ein Token ist eine kleine Einheit von Text – das kann ein Wort, ein Teil eines Wortes oder sogar ein einzelnes Zeichen sein – , die das Modell beim Lernen und Verarbeiten von Sprache nutzt.
Rund 40 Prozent der Daten stammen laut den Hochschulen nicht aus dem Englischen. Das Modell beherrscht laut den Forschenden auch Schweizerdeutsch und Rätoromanisch. Die Entwicklung von «Apertus» erfolgte im Rahmen der «Swiss AI Initiative», die von der EPFL und der ETH Zürich geleitet wird.
Das Basismodell ist gemäss den Entwicklern mit einem grossen Textdatensatz von über 1500 Sprachen trainiert worden – etwa 60 Prozent waren Englisch und 40 Prozent andere Sprachen – hinzukamen Code- und Mathematikdaten. Da Inhalte aus allen Sprachen und Kulturen vertreten sind, soll das resultierende Modell mit einer hohen globalen Anwendbarkeit punkten.
Apertus wird in zwei Grössen veröffentlicht – mit 8 Milliarden und mit 70 Milliarden Parametern – und damit können laut den Entwicklern die Bedürfnisse eines breiten Spektrums an Nutzerinnen und Nutzern erfüllt werden. Beide Sprachmodelle können über die Hugging-Face-Plattform heruntergeladen werden.
Die grössere LLM-Version gehöre zu den leistungsstärksten, vollständig offenen Modellen weltweit. Die Anzahl der Parameter spiegle die Fähigkeit eines Modells wider, zu lernen und komplexe Antworten zu erzeugen.
Anfang Juli war das Vorhaben von den Eidgenössisch-Technischen Hochschulen angekündigt worden.
(dsc/pre/sda)
Aha, welches denn? 😄
Spass bei Seite: Tolle und sehr wichtige Leistung. Es darf nicht passieren dass AI von ein paar wenigen Techmilliardären - die zudem die Trainingsdaten hemmungslos überall zusammenklauen lassen - monopolisiert wird
Mit viel Willen, unseren Fähigkeiten und der Tendenz, dass die Leistungssprünge kleiner werden, kann evtl. auch Boden gut gemacht werden.