Reinforcement Learning bringt KI-Anwendungen voran

Februar 26, 2021 in Alle, EIT 2020: The Intelligent Revolution von Michael Matuschek

Abbildung 1: Zu den Zweigen des maschinellen Lernens gehören überwachtes Lernen, unüberwachtes Lernen und Reinforcement Learning. Zu den Untergenres des Reinforcement Learning gehören Feature Learning, künstliche neuronale Netze und Deep Learning. (Quelle: a-image/Shutterstock.com)

Vor wenigen Jahren schienen Technologie-Anwendungen, die die Umgebung erfassen, wichtige Details erkennen (und den Rest ignorieren) und diese Details dann zur Erfüllung einer Aufgabe verwenden können, nur in Science-Fiction möglich. Im Jahr 2020 sind jedoch eine Reihe solcher Technologien zu einem festen Bestandteil unseres täglichen Lebens geworden: Intelligente Sprachassistenten, die die vielen Nuancen der menschlichen Sprache verstehen und darauf reagieren, medizinische Anwendungen, die Krebs aus bildgebenden Untersuchungen genauer vorhersagen als menschliche Ärzte, und selbstfahrende Autos, die in dynamischen Umgebungen navigieren, sind nur einige der Technologien, die Schlagzeilen machen.

Reinforcement Learning, einer der drei Zweige des maschinellen Lernens, treibt viele dieser Fortschritte voran. Das allgemeine Prinzip ermöglicht es Computern, wichtige Merkmale ihrer Umgebung zu erkennen, um optimale Entscheidungen zu treffen – eine Fähigkeit, die bis vor kurzem nicht gegeben war. Ein genauerer Blick auf Reinforcement Learning (RL), künstliche neuronale Netze (Artificial Neural Networks, ANNs) und Deep Learning (DL) zeigt sowohl neues Potenzial für KI-Anwendungen als auch verbleibende Herausforderungen beim Erreichen künstlicher Intelligenz auf menschlichem Niveau.

Ansätze des maschinellen Lernens

Maschinelles Lernen (ML) ist eine Teilmenge der künstlichen Intelligenz (KI), mit der Computer aus Beispielen und Erfahrungen lernen können. Von den drei Zweigen von ML (Abbildung 1 oben) sind überwachte (supervised) und unüberwachte (unsupervised) Lernansätze möglicherweise am bekanntesten und werden für genau definierte Probleme und relativ vorhersehbare Umgebungen verwendet.

Überwachte Lernansätze (SL) werden verwendet, um Probleme zu lösen, bei denen annotierte Eingabedaten verfügbar sind. Die Algorithmen versuchen, Muster und Assoziationen aus diesen bekannten Beispielen zu lernen, um auch unbekannte Beispiele korrekt behandeln zu können. Ein klassisches Beispiel hierfür ist die Bilderkennung, bei der manuell annotierte Bilder verwendet werden, um Modelle zu trainieren, mit denen frisch aufgenommene Bilder korrekt klassifiziert werden können.

Unüberwachte Lernansätze (UL) werden verwendet, um auf verborgene Strukturen oder Beziehungen in nicht annotierten Datensätzen zu schließen. Diese Ansätze sind ohne viel Vorbereitung anwendbar, aber in der Regel eher beschreibend und explorativ. Sie dienen in der Regel dazu, die Anwendung überwachter Ansätze vorzubereiten. Ein häufiges Beispiel ist die Identifizierung verschiedener Kundengruppen in Transaktionsdaten, was später möglicherweise verschiedene gezielte Marketingkampagnen ermöglicht.

Der dritte Zweig von ML, Reinforcement Learning (RL), ermöglicht einige der komplexesten und menschlichsten Anwendungen, die derzeit Schlagzeilen machen. RL beschreibt maschinelles Lernen, bei dem Belohnungen und Strafen verwendet werden, um einzelne Aktionen zu bewerten und Eingabevariablen zu gewichten, sodass basierend darauf zukünftige Aktionen geplant werden können. Anstatt explizit gesagt zu bekommen, wie ein Problem gelöst werden kann, basiert RL auf Versuchen mit dem Ziel, die Belohnungen zu maximieren und die Strafen zu minimieren. RL ist nicht auf spezielle Probleme oder bestimmte Umgebungen beschränkt, sondern konzentriert sich auf Maschinen, die optimale Entscheidungen auf der Grundlage komplexer Eingaben aus dynamischen Umgebungen treffen.

Reinforcement Learning

Die Grundidee von RL besteht darin, das Lernen auf eine Weise zu modellieren, die nah an dem liegt, was Menschen (oder jedes ausreichend intelligente Wesen) tun würden: Der Versuch, ein bestimmtes Ziel (gebunden an eine Belohnung) mit den gegebenen Fähigkeiten und Werkzeugen zu erreichen, aber ohne klare Vorschrift, wie das Problem genau zu lösen ist. Ein einfaches Beispiel ist ein Roboter, der eine Hand öffnen und schließen kann, um einen Ball in eine Schachtel zu legen. Der Roboter muss lernen, dass er den Ball greifen kann, dass er seinen Arm in die richtige Position bewegen kann und dann den Ball fallen lassen muss. Dies beinhaltet normalerweise viele Iterationen und Neustarts der Experimente; der Roboter erhält nur die Rückmeldung, ob sein Verhalten erfolgreich war oder nicht, und versucht, seine Bewegungen anzupassen, bis das Ziel erreicht ist.

Dies ist ein deutlicher Gegensatz zu SL, wo für gute Ergebnisse viele Beispiele (z. B. eine große, vielfältige Sammlung von annotierten Katzenbildern) erforderlich sind, um das Problem in all seinen Dimensionen zu beschreiben. Nur so können Algorithmen genau lernen, welche Merkmale (z. B. Formen oder Farben) relevant für die richtige Entscheidung sind. Das Äquivalent für unser Roboter-Beispiel wäre, jeden Schritt des Prozesses genau und sorgfältig zu beschreiben – z. B. wo die Hand hinbewegt werden muss, wie viel Druck ausgeübt werden muss usw. Für dieses Beispiel mit wenigen Variablen ist es vielleicht möglich, einen solchen Detailgrad zu erreichen, aber erneutes Lernen wäre erforderlich, wenn sich die Variablen änderten. Ein größerer Ball, und der Roboter wäre ratlos.

In realen Anwendungen wird die Gleichung von Eingaben, Ausgaben und Trainingsdaten erstaunlich komplex. Beispielsweise verarbeiten autonome Fahrzeuge eine Vielzahl von Sensor-Daten nahezu in Echtzeit. Das Übersehen von Nuancen in der Umwelt kann erhebliche Konsequenzen haben, daher steht viel auf dem Spiel. Deswegen ist Reinforcement Learning hier das Werkzeug der Wahl, um Entscheidungen in einer Umgebung zu ermöglichen, in der das Erstellen von Trainings-Beispielen oder -anweisungen unerschwinglich oder unmöglich ist.

Untergenres des Reinforcement Learning

Wie die anderen Zweige von ML verfügt auch RL über Untergenres, die zusammen den Weg in die Zukunft ebnen (Abbildung 1 unten). Insbesondere ermöglicht Feature Learning (FL) den Systemen, differenzierte Details von Eingabedaten zu erkennen. Künstliche neuronale Netze (ANNs) und Deep Learning (DL) bieten den Rahmen, der für fortgeschrittenes Parsen, Verarbeiten und Lernen erforderlich ist, und ermöglichen das Teilfeld Deep Reinforcement Learning (DRL).

Feature Learning

Feature Learning (auch als Repräsentations-Lernen bezeichnet) ist eine ML-Technik, mit der Maschinen charakteristische und unabhängige Komponenten von Eingabedaten erkennen können, die in Algorithmen häufig nicht darstellbar sind. In einem selbstfahrenden Auto wird die Umgebung beispielsweise von mehreren Kameras, Radar und anderen Sensoren wahrgenommen. Somit stehen viele Informationen zur Verfügung, um über die nächste Aktion zu entscheiden, aber nur ein Bruchteil davon ist relevant. Zum Beispiel ist die Farbe des Himmels normalerweise irrelevant, während die Farbe einer Ampel sehr relevant ist. Ebenso wenig ist die Geschwindigkeit eines vorbeifliegenden Vogels wichtig, anders als die Geschwindigkeit eines Fußgängers, der sich dem Bordstein nähert.

Warum ist die Fähigkeit, diese Ebene von Eingabefunktionen darzustellen, so wichtig? Für das Training verwendete Datensätze spielen eine Schlüsselrolle für die Genauigkeit der Modelle: Je mehr Trainingsdaten, desto besser – und insbesondere je vielfältiger die Beispiele mit eindeutigen und identifizierenden Merkmalen im Datensatz sind, desto besser. Anders ausgedrückt, es sind die charakteristischen und unabhängigen Merkmale der Eingabedaten, die den Computern helfen, die Lücke zwischen dem, was sie bereits gelernt haben, und dem, was gelernt werden muss, zu schließen, um hundertprozentige Genauigkeit und Konsistenz zu gewährleisten, unabhängig vom Kontext. Das Erkennen von Unterscheidungsmerkmalen hilft auch dabei, keine Merkmale und Ausreißer zu identifizieren, die ignoriert werden können, wodurch das Datenvolumen im Laufe der Zeit erheblich reduziert werden kann.

Künstliche neuronale Netze und Deep Learning

Für diese hoch variablen Anwendungen ist ein robustes und skalierbares Framework erforderlich. Ein Ansatz, der insbesondere im Bereich des überwachten Lernens bisher erhebliche Beachtung gefunden hat, ist das Deep Learning. In Kombination mit dem Prinzip des Reinforcement Learning bezeichnen wir es als Deep Reinforcement Learning.

Die Grundidee der künstlichen neuronalen Netze (Artificial Neural Networks, ANNs) stammt aus den 1960er Jahren und ist dem netzartigen neuronalen Aufbau des menschlichen Gehirns lose nachempfunden. ANNs umfassen ein riesiges Netzwerk künstlicher Neuronen, sogenannter Perceptrons, die Eingangssignale empfangen, verschiedene Merkmale des Eingangs gewichten und das Signal dann durch das Netzwerk weiterleiten, bis ein Ausgangssignal erreicht ist.

Das Netzwerk wird durch die Anzahl der Neuronen, die Stärke und Anzahl ihrer Verbindungen sowie die Aktivierungsschwelle der Neuronen definiert. Dies ist die Stärke, die das Eingangssignal haben muss, um weitergegeben zu werden. ANNs haben eine skalierbare Struktur, die mehrere Eingabe- und Ausgabe-Ebenen enthalten kann und dazwischen „versteckte“ Ebenen verwendet, die die Eingabe in etwas übersetzen, das die Ausgabe-Ebene verwenden kann. Der spezielle Begriff Deep Learning stammt folglich aus Netzwerken, die viele aufeinanderfolgende Schichten von Neuronen aufweisen und daher „tief“ sind.

Was ANNs besonders geeignet dafür macht, bei komplexen Eingabedaten und dynamischen Umgebungen optimale Antworten zu generieren, ist die Art und Weise, wie sie lernen: Backpropagation. Für jedes gegebene Trainings-Signal – zum Beispiel einen Vektor, der Koordinaten und Farbwerte eines Bildes beschreibt – prüft das Netzwerk, ob die erzeugte Ausgabe korrekt ist, und passt dann die Gewichte im Netzwerk leicht an, um das gewünschte Ergebnis zu erzielen. Nach genügend Trainings-Iterationen wird das Netzwerk stabil und kann fortan bisher unbekannte Situationen erkennen.

Einschränkungen von ANNs, DL und RL

ANNs und DL bieten ein enormes Potenzial durch ihre Fähigkeit, Merkmale darzustellen und in dynamischen Umgebungen zu optimalen Antworten zu gelangen. Ihre Fähigkeiten weisen jedoch noch auf weitere Herausforderungen hin und veranschaulichen einige verbleibende Lücken bei der Nachahmung von Aspekten der menschlichen Intelligenz.

Millionen von Knoten, Verbindungen und Trainings-Iterationen erforderlich

Für die Modellierung relevanter Probleme müssen ANNs über eine erhebliche Anzahl von Knoten und Verbindungen verfügen, um Millionen verschiedener Variablen zu verarbeiten, die analysiert und im Speicher gehalten werden müssen. Dies ist mit modernen Computern erst seit kurzem möglich. In ähnlicher Weise kann die Anzahl der erforderlichen Trainings-Schleifen Milliarden erreichen und mit der Anzahl der Umgebungsvariablen exponentiell zunehmen. Es ist kein Zufall, dass die ersten großen Durchbrüche beim Reinforcement Learning in Spielen wie Go erzielt wurden, bei dem es der KI namens AlphaGo heutzutage gelingt, die besten menschlichen Spieler zu schlagen: Die Spielregeln (d. h. die möglichen Aktionen und Ergebnisse) sowie die Ziele sind klar definiert und es ist einfach, schnell viele simulierte Spiele durchzuführen, indem man die KI gegen sich selbst spielen lässt. Der nächste Evolutionsschritt war das Spielen von Videospielen wie Super Mario oder StarCraft, bei denen die Beziehung zwischen Aktionen und Ergebnissen zwar komplexer ist, die Umgebung jedoch weiterhin eingeschränkt bleibt und die schnelle Simulation vieler Iterationen ebenfalls möglich ist.

Bei einem realen Problem wie dem autonomen Fahren ist die Situation jedoch anders. Die übergeordnete Aufgabe, das Fahrziel sicher zu erreichen, ist noch relativ einfach zu formulieren. Die Umgebung ist jedoch deutlich vielseitiger und Simulationen müssen viel ausgefeilter sein, um einen sinnvollen Beitrag zum Erlernen des eigentlichen Problems zu leisten. Letztendlich müssen die Simulationen noch durch das tatsächliche Fahren ersetzt werden, um auch andere Faktoren zu berücksichtigen, die nicht modelliert werden können, und es ist weiterhin eine genaue Überwachung erforderlich, bis die menschliche Leistung erreicht ist. Zum Beispiel erklärte die Waymo, ein Hersteller autonomer Fahrzeuge, in einer Pressemitteilung aus dem Jahr 2020, dass ihre Autos umgerechnet 1.400 Jahre Fahrerfahrung sammeln müssen, um mit menschlichen Fahrern mithalten zu können. Dies scheint erstaunlich, da ein Mensch in der Lage ist, sicher Auto zu fahren, nachdem er nur einige Wochen geübt hat. Warum ist das für RL nicht möglich ... oder ist es das doch?

Fähigkeiten in Bezug auf Abstraktion und Schlussfolgerung

Ein Grund dafür, dass Menschen schnell lernen können, ein Spiel zu spielen oder ein Auto zu fahren, ist, dass das menschliche Gehirn durch Abstraktion und Schlussfolgerungen lernen kann. Durch diese Art des Lernens kann sich ein Fahrer beispielsweise vorstellen, wie eine Ampel aus einem anderen Blickwinkel oder in einem anderen Kontext aussähe, aufgrund des angeborenen räumlichen Bewusstseins des Menschen. Ein Mensch kann auch Autos auf der Straße erkennen, die sich in der Farbe von zuvor gesehenen unterscheiden, und aus Beobachtungen und Erfahrungen Schlussfolgerungen ziehen.

Erst in letzter Zeit wurden solche Funktionen in ANNs untersucht. Obwohl verschiedene Ebenen des Netzwerks unterschiedliche Aspekte der Eingabe erfassen können, z. B. Formen und Farben, kann das Netzwerk nur Merkmale verarbeiten, die in den Trainingsdaten explizit enthalten sind. Wenn die KI tagsüber trainiert wird, ist das Modell wahrscheinlich nicht in der Lage, nachts mit den anderen Bedingungen umzugehen. Selbst bei DL müssen solche Differenzen in den Trainingsdaten berücksichtigt werden, und der Grad der akzeptablen Abweichung von den Trainingsdaten ist sehr gering.

Verschiedene Techniken zum Lernen durch Abstraktion und Schlussfolgerung werden derzeit untersucht, sie zeigen jedoch noch mehr Herausforderungen und Einschränkungen auf. Ein beliebtes Beispiel, bei dem ANNs gescheitert sind, war ein Computer-Vision-System, das Siberian Husky-Hunde mit extrem hoher Zuverlässigkeit erkannte – tatsächlich viel zuverlässiger als bei anderen Hunderassen. Eine genauere Untersuchung ergab, dass sich das Netzwerk auf den Schnee konzentriert hatte, der in fast allen Husky-Bildern vorhanden war, und den Hund selbst im Grunde ignorierte. Mit anderen Worten, das Modell konnte die Tatsache nicht erkennen, dass die Farbe des Bodens keine intrinsische Eigenschaft des Hundes ist, ein Detail, das für den Menschen trivial ist.

Dieses Beispiel scheint banal und künstlich, aber die realen Konsequenzen können schrecklich sein. Betrachten wir noch einmal das Beispiel selbstfahrender Autos, bei denen Unfälle selten sind, aber auf mehrdeutige Situationen zurückgeführt werden können. Der Unfalltod eines Fußgängers im Jahr 2018, der ein Fahrrad über eine vierspurige Autobahn schob, war ein Beispiel dafür, dass die Situation für einen menschlichen Fahrer leicht zu bewältigen gewesen wäre, jedoch zur Kollision und zum Tod führte, weil sie von einem ANN falsch behandelt wurde. Die Situation wurde während der vielen Stunden des Trainings nicht beobachtet, und es wurde keine angemessene Ausfallsicherung – „Wenn du nicht weißt, was zu tun ist, halte an!“ – implementiert. Infolgedessen reagierte das System scheinbar unvernünftig, weil ihm tatsächlich dieser grundlegende Eckpfeiler der menschlichen Intelligenz fehlte.

Schlimmer noch, solche blinden Flecken in der künstlichen Intelligenz können von böswilligen Akteuren ausgenutzt werden. Beispielsweise kann die Bildklassifizierung vollständig fehlgeleitet werden, wenn beim Training manipulierte Bilder untergeschoben werden. Während geringfügige Änderungen von Bildern für den Menschen nicht wahrnehmbar sind, könnten dieselben Änderungen in ANNs sehr unterschiedlich wahrgenommen und interpretiert werden. In einem Beispiel wurden Stoppschilder mit unscheinbaren Aufklebern fälschlicherweise als andere Zeichen erkannt. Das hätte zu Unfällen führen können, falls dieses trainierte Modell in einem tatsächlichen Auto verwendet worden wäre. Ein menschlicher Fahrer hingegen würde das Stoppschild natürlich trotzdem problemlos erkennen.

Überwindung von Hindernissen und Einschränkungen

Diese und andere Hindernisse und Einschränkungen werfen die Frage auf, wie man vorankommen und es ANNs ermöglichen könnte, die Lücke bei optimalen Entscheidungen weiter zu schließen. Eine einfache Antwort lautet „mehr Training“. Wenn die Varianz und Qualität der Trainingsdaten gut genug sind, kann die Fehlerquote so weit gesenkt werden, dass die Genauigkeit des Modells akzeptabel ist. Tatsächlich hat sich gezeigt, dass autonome Autos auch heute schon weniger in Unfälle verwickelt sind als menschliche Fahrer, aber das Potenzial für „Freak-Unfälle“ verhindert eine breitere Akzeptanz.

Ein weiterer systematischer Ansatz wäre, das erforderliche Hintergrundwissen explizit zu kodieren und im ML-Prozess verfügbar zu machen. Eine von Cycorp ins Leben gerufene Wissensbasis beispielsweise besteht seit vielen Jahren und enthält Millionen von Konzepten und Beziehungen, darunter die Bedeutung des oben erwähnten Stoppschildes. Ziel ist es, menschliches Wissen manuell in maschinenlesbarer Form zu kodieren, sodass KI nicht nur auf Trainingsdaten zurückgreifen, sondern auch Schlussfolgerungen ziehen und unbekannte Situationen zumindest teilweise ähnlich der menschlichen Intuition beurteilen kann.

Fazit

Technologien, die die Umwelt erfassen, wichtige Details erkennen und optimale Entscheidungen treffen können, sind nicht mehr nur Science-Fiction. Einer der drei Zweige des maschinellen Lernens, Reinforcement Learning, bietet Tools und Frameworks, die mit hochdimensionalen Variablen und dynamischen Umgebungen umgehen können. Diese Lösungen führen aber auch zu neuen Herausforderungen, insbesondere hinsichtlich der Notwendigkeit umfangreicher neuronaler Netze, umfassenden Trainings und der Nachahmung der Lernfähigkeiten des Menschen durch Abstraktion und Schlussfolgerung zur Anpassung an neue Situationen. Obwohl KI zu bemerkenswerten Leistungen fähig ist und in vielen realen Anwendungen zunehmend unverzichtbar wird, sind wir noch weit davon entfernt, Lernfähigkeiten auf menschlichem Niveau zu erreichen. Das Erleben der Zwischenschritte ist indes vielleicht interessanter als Science-Fiction selbst.

« Zurück

Michael Matuschek ist Senior Data Scientist und lebt in Düsseldorf. Er hat einen Master-Abschluss in Informatik und einen Doktortitel in Computerlinguistik. Herr Matuschek hat an unterschiedlichen Projekten zur Verarbeitung der natürlichen Sprache in verschiedenen Branchen sowie im akademischen Bereich gearbeitet. Zu den von ihm behandelten Themen gehören die Stimmungsanalyse für Rezensionen, die Klassifizierung von Kunden-E-Mails sowie die Anreicherung fachspezifischer Ontologien.

Mouser German Blog

Mouser Electronics, Inc german language blogs

Ansätze des maschinellen Lernens

Reinforcement Learning

Untergenres des Reinforcement Learning

Feature Learning

Künstliche neuronale Netze und Deep Learning

Einschränkungen von ANNs, DL und RL

Millionen von Knoten, Verbindungen und Trainings-Iterationen erforderlich

Fähigkeiten in Bezug auf Abstraktion und Schlussfolgerung

Überwindung von Hindernissen und Einschränkungen

Fazit

Suche

Kategorien

Ausgewählte Autoren

Alle Autoren

Archiv

Tags

Kundenservice

Unternehmen

Ressourcen

Support

Folgen Sie uns

Mouser German Blog

Mouser Electronics, Inc german language blogs

Ansätze des maschinellen Lernens

Reinforcement Learning

Untergenres des Reinforcement Learning

Feature Learning

Künstliche neuronale Netze und Deep Learning

Einschränkungen von ANNs, DL und RL

Millionen von Knoten, Verbindungen und Trainings-Iterationen erforderlich

Fähigkeiten in Bezug auf Abstraktion und Schlussfolgerung

Überwindung von Hindernissen und Einschränkungen

Fazit

Ähnliche Beiträge

Deep Learning: Neuronale Netzwerkalgorithmen gestern, heute und morgen

GPUs beschleunigen das Deep Learning

Windows-Subsystem bringt Linux 2.0 voran

Machine Learning als Hilfe für die Krebsdiagnose der Zukunft

Edge Impulse-Anwendungsfall: Gesundheitswesen und Krebserkennung

Automatisierung in Smart Factories mit Deep Learning

Suche

Kategorien

Ausgewählte Autoren

Alle Autoren

Archiv

Tags

Kundenservice

Unternehmen

Ressourcen

Support

Folgen Sie uns