Virtuelle Games bieten einen ununterbrochenen Strom von Herausforderungen mit offenem Ausgang. Sie sind ein Spielplatz zum lernen. So will man die Künstliche Intelligenz in Richtung „General Intelligence“ bringen.
Die Alphabet-Tochter DeepMind hat einen riesigen, bonbonfarbenen virtuellen Spielplatz entwickelt, auf dem Systeme der Künstlichen Intelligenz unterschiedlichste Fähigkeiten erlernen können, indem sich die ihnen gestellten Aufgaben immer wieder ändern. Anstatt nur die Fähigkeiten zu entwickeln, die für die Lösung einer bestimmten Aufgabe erforderlich sind, lernen die KIs dabei, zu experimentieren und zu erforschen. Sie sind danach bei Aufgaben erfolgreich, die sie noch nie zuvor gesehen haben. Das Projekt könnte ein wichtiger Schritt in Richtung einer Artificial General Intelligence werden.
Spielplatz mit Milliarden Aufgaben
XLand ist eine videospielähnliche 3D-Welt, die die KI-Spieler in Farbe wahrnehmen. Der Spielplatz wird von einer zentralen KI verwaltet, die den künstlichen Spielern Milliarden von verschiedenen Aufgaben stellt, indem sie die Umgebung, die Spielregeln und die Anzahl der Spieler ändert. Sowohl die Spieler als auch der KI-gesteuerte Administrator nutzen dabei Reinforcment Learning, um sich durch Versuch und Irrtum zu verbessern.
Während des Trainings werden die Spieler zunächst mit einfachen Spielen für einen Spieler konfrontiert, z. B. mit dem Finden eines lila Würfels oder dem Platzieren eines gelben Balls auf einem roten Boden. Danach folgen komplexere Spiele für mehrere Spieler wie Verstecken oder „Capture the Flag“, bei denen die Teams darum wetteifern, die gegnerische Fahne als erstes zu finden und zu erobern. Die Administratoren-KI hat kein bestimmtes Ziel, sondern will mit der Zeit die allgemeinen Fähigkeiten der Spieler verbessern.
Künstliche Intelligenz lernt „allgemein“
KI-Systeme wie AlphaZero von DeepMind haben bereits die weltbesten menschlichen Spieler in Schach und Go geschlagen. Aber sie können immer nur ein Spiel auf einmal lernen. Wie der Mitbegründer von DeepMind, Shane Legg, in einem Gespräch im letzten Jahr sagte, ist das so, als müsste man jedes Mal sein Schach- gegen sein Go-Gehirn austauschen, wenn man ein anderes Spiel spielen will.
Die Forscher versuchen nun, eine Künstliche Intelligenz zu entwickeln, die mehrere Aufgaben auf einmal lernen kann, was bedeutet, dass ihr allgemeine Fähigkeiten beibringen werden müssen, die ihre Anpassung an neue Aufgaben erleichtert.
Spannender Trend: Spielplatz für Künstliche Intelligenzen
Ein spannender Trend in diese Richtung ist das offene Lernen, bei dem eine KI für viele verschiedene Aufgaben ohne ein bestimmtes Ziel trainiert wird. In vielerlei Hinsicht scheinen Menschen und andere Säugetiere auf diese Weise zu lernen, nämlich durch zielloses Spielen. Dazu ist jedoch eine große Menge an Daten erforderlich. XLand generiert diese Daten automatisch, in Form eines endlosen Stroms von Herausforderungen. Es ist vergleichbar mit POET, einem KI-Trainingszentrum, in dem zweibeinige Bots lernen, Hindernisse in einer 2D-Landschaft zu überwinden. Die Welt von XLand ist jedoch viel komplexer und detaillierter.
XLand ist auch ein Beispiel für KIs, die lernen, sich selbst zu erschaffen. Jeff Clune, der an der Entwicklung von POET beteiligt war und ein Team leitet, das bei OpenAI an diesem Thema arbeitet, nennt dies KI-generierende Algorithmen (AI-GAs). „Diese Arbeit stößt an die Grenzen der KI-GAs“, sagt Clune. „Das ist sehr spannend zu sehen.“
So viele Aufgaben
Einige der XLand-KIs von DeepMind spielten 700.000 verschiedene Spiele in 4.000 verschiedenen Welten und wurden dabei mit insgesamt 3,4 Millionen einzigartigen Aufgaben konfrontiert. Anstatt zu lernen, was in der jeweiligen Situation am besten zu tun wäre, wie es die meisten bestehenden KI-Systeme mit Reinforcement Learning tun, lernten die Spieler, zu experimentieren – Objekte zu verschieben, um zu sehen, was passiert. Oder ein Objekt als Werkzeug zu benutzen, um ein anderes Objekt zu erreichen oder sich dahinter zu verstecken – bis sie die jeweilige Aufgabe gepackt haben.
In Videos aus XLand kann man sehen, wie eine KI auf dem Spielplatz Objekte umherwirft, bis sie über etwas Nützliches stolpert: Ein großer Stein wird beispielsweise zu einer Rampe, die zu einer Plattform führt. Es ist schwer zu sagen, ob all diese Ergebnisse vom Algorithmus beabsichtigt sind oder glückliche Zufälle, sagen die Forscher. Aber sie treten immer wieder auf. KIs, die gelernt haben zu experimentieren, waren bei den meisten Aufgaben im Vorteil, auch bei solchen, die sie noch nie zuvor gesehen hatten. Die Forscher fanden heraus, dass sich die XLand-KI nach nur 30 Minuten Training an eine komplexe neue Aufgabe schnell anpasste. KIs, die keine Zeit in XLand verbracht hatten, konnten diese Aufgaben jedoch überhaupt nicht meistern.
Teile dieses Beitrages wurden erstmals veröffentlicht auf Heise Online, heise online ist eine seit 1996 bestehende Nachrichten-Website des Heise-Zeitschriften-Verlags.