India - Flag India

Please confirm your currency selection:

Indian Rupee
Incoterms:FCA (Shipping Point)
Duty, customs fees and taxes are collected at time of delivery.
All payment options available, excluding PayPal.

US Dollars
Incoterms:FCA (Shipping Point)
Duty, customs fees and taxes are collected at time of delivery.
All payment options available

Bench Talk for Design Engineers

Mouser German Blog

rss

Mouser Electronics, Inc german language blogs


Deep Learning: Neuronale Netzwerkalgorithmen gestern, heute und morgen Wang Dongang

Quelle: a-image/Shutterstock.com     

Im Jahr 2016 besiegte der auf künstlicher Intelligenz (KI) basierende Schachcomputer AlphaGo in einer Partie Lee Sedol, den südkoreanischen Großmeister im Go. Ein Jahr darauf schlug die Nachfolgeversion der Software von AlphaGo mit noch höherer Schlagkraft und dem Namen AlphaGo Master die Nummer eins der Weltrangliste, den chinesischen Go-Großmeister Ke Jie. Solche Systeme künstlicher Intelligenz übertreffen den Menschen nicht mehr nur allein aufgrund ihrer hohen Speicherkapazitäten, sondern überragen in einigen konkreten Bereichen bereits die kognitiven Fähigkeiten der Menschen. Es scheint sogar so zu sein, dass sie über die Fähigkeit zu „denken” verfügen, und damit dem entsprechen, was man sich gemeinhin unter künstlicher Intelligenz vorstellt.

Künstliche Intelligenz schien lange eine in weiter Ferne liegende Vorstellung aus dem Reich der Science-Fiction zu sein. Tatsächlich gibt es in der Welt von heute schon viele Anwendungen, welche die Voraussetzungen für die „künstliche Intelligenz” erfüllen. Außer der bereits erwähnten Go-Software gibt es andere Systeme künstlicher Intelligenz wie z.B. Assistenzsysteme zum autonomen Fahren und Smart Home- Lösungen. Auch der Sprachassistent Siri auf den Smartphones von Apple basiert auf künstlicher Intelligenz. Der Kern-Algorithmus, auf dem diese Anwendungen beruhen, ist Deep Learning (deutsch: tiefes oder tiefgehendes Lernen), einem der gefragtesten Forschungszweige im Bereich des maschinellen Lernens (Machine Learning). Die im Deep Learning verwendeten Algorithmen unterscheiden sich deutlich von anderen Algorithmen des maschinellen Lernens, da diese auf iterativen Prozessen anhand von großen Datenmengen beruhen. Wobei die in den Daten vorhandenen Merkmale(Features)entdeckt werden, und dann ein Ergebnis ausgegeben wird. Unter diesen Merkmalen befinden sich sehr viele, welche in den Grenzen der menschlichen Definierbarkeit nicht mehr ausgedrückt werden können. Aus diesem Grund konnte das Deep Learning in sehr vielen Bereichen die Leistungen anderer Algorithmen des maschinellen Lernens bei weitem übertreffen, und es übersteigt sogar die kognitiven Fähigkeiten der Menschen selbst.

Dennoch ist Deep Learning noch nicht in der Lage die Menschen in allen Bereichen zu übertreffen. Ganz im Gegenteil hängen seine Leistungen sogar entscheidend von dem vom Menschen entworfenen Algorithmus Design ab. Von der Geburt des Deep Learnings bis zu seiner explosionsartigen Verbreitung sind gut 50 Jahre vergangen. Aus seiner Entwicklungsgeschichte heraus lässt sich ein Blick auf den allmählichen Einfallsreichtum der Informatiker erhaschen und die wahrscheinliche Weiterentwicklung in der Zukunft ablesen.

1. Was ist Deep Learning?

Unter Deep Learning versteht man künstliche neuronale Netze(KNN, Artificial Neural Network). Neuronale Netze beziehen ihren Namen daher, dass sie die Art und Weise simulieren, in der tierische Neuronen Informationen übertragen. Diese "geläufige Bezeichnung" des Deep Learnings (deutsch: tiefes Lernen) geht wiederum auf die vielen miteinander verbundenen Neuronenschichten zurück. Die „Tiefe” ergibt sich über den Austausch von Informationen durch diese vielen Schichten.

Im tierischen Körper befindet sich an dem einen Ende eines Nervs ein Rezeptor, während das andere Nervenende mit der Großhirnrinde verbunden ist. Zwischen den beiden Enden werden Signale über viele Schichten von Neuronen weitergeleitet. Die Neuronen sind untereinander nicht jeweils von Zelle zu Zelle verbunden, sondern verknüpfen sich nach verschiedenartigen Mustern (z. B. strahlenförmig, agglomerative Cluster, usw.) und formen so eine Netzstruktur. Diese vielseitige Struktur sorgt letztendlich nicht nur für die Extraktion der Informationen, sondern führt im tierischen Großhirn auch zu entsprechenden kognitiven Prozessen. Für den tierischen Lernprozess müssen daher Informationen aus der Außenwelt im Großhirn zusammengefügt werden. Informationen von außen werden vom Nervensystem aufgenommen, wo sie in Signale umgewandelt werden, die die Großhirnrinde empfangen kann. Die Signale werden mit bereits im Gehirn vorhandenen Informationen abgeglichen, es wird also im Gehirn eine vollständige Wahrnehmung aufgebaut.

In ähnlicher Weise haben Informatiker mit einem Rechenprogramm eine Schicht mit Funktionen aus Parametern und Gewichten die Vorgänge in den Neuronen simulieren lassen. Durch Überlagerung nichtlinearer Operationen wurden die Verbindungen zwischen Neuronen simuliert. Zum Schluss wurden die Informationen erneut integriert, worauf eine Kategorie oder Prognose als Ergebnis ausgegeben wurde. Hinsichtlich der Diskrepanz zwischen dem vom neuralen Netz ausgegebenen Ergebnis und dem tatsächlichen Ergebnis führt das neuronale Netz mithilfe eines Gradienten Schicht für Schicht eine entsprechende Gewichtung zur Verringerung der Diskrepanz durch, wodurch die Ziele des Deep Learnings nach und nach erreicht werden können.

2. Der Prototyp des Deep Learnings

In der Tat ist die Simulation der Nervenaktivität bei Tieren beileibe nicht allein die Besonderheit des Deep Learnings. Schon 1957 entwarf der amerikanische Psychologe Frank Rosenblatt das Perzeptron-Netz. Dabei handelt es sich um ein einschichtiges neuronales Netzwerk, das nur zweierlei Ergebnisse unterscheiden kann. Ein solches Modell ist sehr einfach aufgebaut, denn das Ausgabeergebnis und Eingabeinformation verhalten sich zueinander nahezu wie eine „gewichtete Summe”. Obwohl die Gewichtung direkt gemäß der Abweichung zwischen dem Ausgabeergebnis und den Eingabeinformationen automatisch angepasst werden kann, hat die Lernfähigkeit des ganzen Systems ihre Grenzen, sodass nur einfache Kurvenanpassungen vorgenommen werden können.

Fast zeitgleich kam es in der Forschung im Bereich der Neurologie zu einem wichtigen Durchbruch. Die Neurologen David Hubel und Torsten Wiesel bewiesen mit einer Studie über die Sehnerven der Katze, dass die Reaktion auf optischer Reize in der Großhirnrinde durch unterschiedliche Zellen vollzogen wird. Einfache Zellen (englisch: simple cell) nehmen Lichtreize wahr, während komplexe Zellen (englisch: complex cell) Bewegungsinformationen wahrnehmen.

Hiervon ausgehend entwickelte der japanische Forscher Kunihiko Fukushima 1980 ein Netzwerkmodell namens „Neocognitron”( Abb.1) zur Erkennung handgeschriebener Ziffern. Dabei handelt es sich um ein vielschichtiges Netzwerk, bei dem sich jede Schicht aus unterschiedlichen Neuronentypen zusammensetzt. Innerhalb dieses Netzwerks kommt es zu einem Wechselspiel zwischen zwei Neuronentypen, bei dem graphische Informationen aufgenommen und zur Bilderkennung zusammengeführt werden. Diese beiden Neuronentypen entwickelten sich später zu den Faltungsschichten (convolutional layer) und dem Pooling Layer weiter. Allerdings sind die Neuronen dieses Netzwerks alle von Menschenhand entworfen und hergestellt worden. Seine Neuronen können nicht den erreichten Ergebnissen entsprechend eine automatische Anpassung durchführen, und somit verfügt das Netzwerk über keine nennenswerte Lernfähigkeit. Infolgedessen konnte das Netzwerk nur eine geringe Anzahl von einfachen Daten erkennen und verarbeiten und blieb in seiner Entwicklung im Anfangsstadium stecken.

Abb. 1: Darstellung des Arbeitsprinzips des Neocogitrons(Aus dem Originaltext: Fukushima, Kunihiko. "Neocognitron: A hierarchical neural network capable of visual pattern recognition." Neural networks 1.2 (1988): 119-130)

Wenn die Lernfähigkeit nicht erreicht werden kann, muss das selbständige Lernen des Netzwerks durch die vermehrte Verwendung von künstlichem Design gewährleistet werden. Im Jahr1982 erfand der amerikanische Wissenschaftler John Hopfield ein neuronales Netzwerk, in das er eine Vielzahl Beschränkungen einfügte, um dem Netzwerk im Laufe seiner Weiterentwicklung die Fähigkeit zur Erinnerung und zum Erlernen zu geben. Im selben Jahr entwickelte der finnische Wissenschaftler Teuvo Kohonen auf der Grundlage eines Netzwerks mit unbewacht lernender Vektorquantisierung (Learning Vector Quantization Network, LVQ-Netz) eine selbstorganisierende Karte (self-organizing map). Er hoffte, dass durch die Verkürzung des euklidischen Abstands zwischen Eingabe und Ausgabe die korrekten Verhältnisse aus einem komplexen Netzwerk erlernt werden könnten. Im Jahr1987 entwickelten die amerikanischen Wissenschaftler Stephen Grossberg und Gail Carpenter auf der Grundlage ihrer eigenen früheren Theorie ein auf der adaptiven Resonanztheorie (adaptive resonance theory) als Architekturkonzept beruhendes Netzwerk, bei dem bereits bekannte Informationen mit unbekannten Informationen in „Resonanz“ gebracht werden. Dabei wird von den bereits bekannten Informationen ausgehend auf die unbekannten Informationen geschlossen, so dass „analoges Lernen” realisiert werden kann. Obwohl diese neuronalen Netzwerke mit Schlüsselwörtern wie „Selbstorganisation”, „Selbstanpassung”, „Gedächtnis” und anderen belegt wurden, verfügten sie über keine leistungsstarke Lernfähigkeit, und ihr Design musste entsprechend der jeweiligen Anwendungsfälle fortlaufend optimiert werden. Dazu kommt, dass die Speicherkapazität der Netzwerke gering war, weshalb sie nur sehr begrenzt unter realen Bedingungen eingesetzt werden konnten.

Erst das im Jahre 1986 von den Informatikern David Rumelhart, Geoffrey Hinton und Ronald Williams veröffentlichte Verfahren der Backpropagation oder Fehlerrückführung (auch Rückpropagation) löste phasenweise das Problem des Erlernens bei neuronalen Netzen. Unter Verwendung der Kettenregel zur Berechnung des Gradienten können Diskrepanzen zwischen dem Ausgabewert und dem wahren Wert über die Regression der Gradienten auf die Gewichte der Schichten zurückgeführt werden, wodurch die Funktionen in jeder Schicht in ähnlicher Weise wie ein Perzeptron trainiert werden können. Dies ist die erste Arbeit von historischer Bedeutung von Geoffrey Hinton. Mittlerweile ist er Forschungsstipendiat von Google, und wurde mit der höchsten Auszeichnung in der Informatik, dem(Turing- Award, geehrt. Einst sagte er in einem Interview: „Wir hatten nicht vor, ein Modell zu bauen, um die Funktionsweise des Großhirns zu simulieren. Wir haben das Großhirn beobachtet und dachten uns dabei, da ja die Arbeitsweise des Großhirns umsetzbar ist, und dass wir, wenn wir ein paar andere machbare Modelle schaffen wollen, uns vom Großhirn inspirieren lassen sollten. “Die Simulation der Backpropagation entspricht tatsächlich dem Feedback-Mechanismus des Gehirns.

Später im Jahre 1994 verwendete der Informatiker Yann LeCun im Team von Geoffrey Hinton bei der Forschung im Anschluss seiner Promotion das Neocogitron zusammen mit dem Algorithmus der Backpropagation, um ein neuronales Faltungsnetzwerk (convolutional neural network, CNN) namens LeNet zur Erkennung von handgeschriebenen Postleitzahlen zu entwickeln. Das Netz erreichte eine automatische Erkennungsrate von 99% und konnte fast jede beliebige Handschrift verarbeiten. Dieser Algorithmus brachte damals einen durchschlagenden Erfolg und wurde im amerikanischen Postdienst eingesetzt.

3. Explosionsartige Entwicklung des Deep Learnings

Und dennoch wurde das Deep Learning nicht aus diesen Gründen populär. Einer der Gründe hierfür lag in der großen Menge von Parametern, die in neuronalen Netzen aktualisiert werden mussten(allein das 2012 auf den Markt gebrachte AlexNet benötigte 650.000 Neuronen und 60 Millionen Parameter). Entsprechend wurden gewaltige Datenmengen und Rechenleistungen benötigt (Abb. 2).Selbst wenn man durch eine Verringerung der Schichten in den neuronalen Netzen die erforderliche Datenmenge und die Trainingszeit reduziert hätte, wäre der erzielte Effekt im Vergleich zu den anderen Methoden des maschinellen Lernens nicht ausreichend gewesen (zum Beispiel im Vergleich zu den um das Jahr 2000 stark verbreiteten Stützvektormaschinen – SVM, Support Vector Machine).In einer weiteren Veröffentlichung aus dem Jahr 2006 verwendete Geoffrey Hinton zum ersten Mal den Begriff des „Deep Belief Nets” (DBN), mit dem er einer Optimierung der gesamten neuronalen Netze den Weg ebnete. Er legte damit zwar den Grundstein für die spätere Verbreitung und Überlegenheit des Deep Learnings, vermied durch die Verwendung des Begriffs „tiefen Netzwerks” aber den vormals gebräuchlichen Begriff des „neuronalen Netzwerks”, da der Begriff "neuronales Netzwerk" in der damaligen Mehrheitsmeinung in der Forschung auf breite Ablehnung stieß, sodass wissenschaftliche Abhandlungen mit diesem Begriff in der Überschrift nicht angenommen wurden.

Die große Wende beim Deep Learning kam im Jahr 2012.Im Bereich der Computer Vision wurde den Wissenschaftlern zunehmend bewusst, wie wichtig der Umfang an Daten ist. Im Jahr 2010 veröffentliche Li Fei Fei, eine außerordentliche Professorin aus dem Fachbereich Informatik (Computer Science Department) der Stanford University, die Bilddatenbank ImageNet, welche mehr als 10 Millionen mit dem Verfahren der künstlichen Intelligenz beschriftete Bilder enthält. Die Beschriftung der Bilder ist in 1000 Kategorien wie Tiere, Pflanzen, Alltagsleben und andere unterteilt worden. Zwischen den Jahren 2010 und 2017 fand im Bereich der Computer Vision alljährlich ein Wettbewerb zur Klassifizierung dieser Bilder statt. ImageNet wurde im Bereich der Computer Vision dadurch zum Prüfstein für die Erstellung von Algorithmen für maschinelles Lernen und Deep Learning. Im Jahr 2012 gewann Alex Krizhevsky, ein Student von Geoffrey Hinton an der University of Toronto, mit der Programmierung eines neuronalen Netzwerk-Algorithmus unter Verwendung von zwei Grafikkarten (GPU) von NVIDIA den Software-Wettbewerb von ImageNet; den ImageNet Large Scale Recognition Challenge (ILSVRC). Die Erkennungsrate seines Algorithmus lag dabei deutlich höher als beim Zweitplatzierten. Dieses Netz wurde später AlexNet getauft. Damit begann der Höhenflug des Deep Learnings.

Abb. 2:Die Netzwerkstruktur des AlexNet(Aus: Krizhevsky, Alex, Ilya Sutskever und Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks" Advances in neural information processing systems 2012)

Mit der Einführung von AlexNet, welches von ImageNet mit Daten und durch Grafikkarten an Rechenleistung unterstützt wurde, konnte sich die Erforschung der neuronalen Netzwerkstrukturen in großem Maßstab allmählich ausbreiten. Dank der Einführung großer Softwarepakete (wie Caffe, TensorFlow, Torch usw.) wurde der Einsatz des Deep Learnings zunehmend leichter. Danach gingen aus dem Software-Wettbewerb von ImageNet und der Object Detection Challenge zur Bestimmung des Datenbestands, der COCO (Common Objects in Context), der sich noch komplexeren Aufgaben der Bildsegmentierung und -beschreibung widmet, wiederum die Netzwerkarchitekturen VGGNet, GoogLeNet, ResNet und DenseNet hervor. Die Anzahl der Schichten in diesen neuronalen Netzen nahm mit der Zeit immer weiter zu. Während AlexNet nur 11 Schichten besaß und VGGNet 19, erstreckte sich die Tiefe bei ResNet und DenseNet bereits auf 150 bis 200 Schichten, so dass das „Deep Learning” (deutsch tiefes Lernen) seinem Namen alle Ehre machte. Bei einigen Datenbeständen übertrafen diese neuronalen Netze des Deep Learnings in Tests zur Objekterkennung sogar bereits die menschliche Erkennungsrate (Bei ImageNet liegt die menschliche Fehlerrate bei ungefähr 5 %, während SENet eine Fehlerquote von 2,25 % aufweist).Siehe Tabelle 1:

 

Jahr

2012

2013

2014

2014

2015

2016

2017

Netzwerk

AlexNet

ZFNet

VGGNet

GoogLeNet

ResNet

ResNeXt

SENet

Top 5 Fehlerquote

15,32 %

13,51 %

7,32 %

6,67 %

3,57 %

3,03 %

2,25 %

Anzahl der Schichten

8

8

16

22

152

152

154

Anzahl der Parameter

60 Mio.

60 Mio.

138 Mio.

7 Mio.

60 Mio.

44 Mio.

67 Mio.

 

Tabelle 1: Übersicht über Netzwerke, die in den vergangenen Jahren beim Software- Wettbewerb von ImageNet zur Klassifizierung von Bildern herausragend abgeschnitten haben (Berechnung auf Grundlage des Originaltextes unter Bezugnahme von https://github.com/sovrasov/flops-counter.pytorch)

Seither setzen Computerwissenschaftler vermehrt neuronale Netzwerk-Algorithmen zur Problemlösung ein. Abgesehen von der bereits erwähnten Klassifizierung, Segmentierung, Überprüfung und anderen Anwendungen zur Erkennung von 2D-Bildern, werden neuronale Netze auch für Folgesignale und sogar beim unbewachtem maschinellen Lernen eingesetzt. Bei rekurrenten bzw. rückgekoppelten neuronalen Netzen (recurrent neural network) kann die Signaleingabe entsprechend einer zeitlichen Abfolge erfolgen. Einerseits können die Neuronen in diesen Netzen in jeder Schicht Erinnerungen komprimieren und abspeichern. Andererseits ist dieses Netzt fähig, gültige Dimensionen zur Spracherkennung oder zum Textverständnis aus dem Gedächtnis abzurufen. Bei der Verwendung von neuronalen Netzen zum unbewachten Lernen übertrafen diese angestammte Muster der „Hauptkomponentenanalyse” und der „Extraktion des Eigenwertes”. Bereits durch die Verwendung eines über ein vielschichtiges Netz verfügenden Autoencoders konnten Dimensionsreduktion und Extraktion der Rohdaten automatisiert vollzogen werden. In Verbindung mit dem Verfahren der lernenden Vektorquantisierung (learning vector quantization, kurz: LVQ) kann eine Clusteranalyse nach Merkmalen durchgeführt werden, sodass man auch mit recht wenig gelabelten Daten Klassifizierungen vornehmen kann. Man kann sagen, dass neuronale Netze sowohl hinsichtlich ihrer Effizienz als auch ihres Anwendungsumfangs unangefochten in Führung gegangen sind.

4. Entwicklungsstand und Trends beim Deep Learning

Im Jahr 2017 wurde bekanntgegeben, dass der Software-Wettbewerb ImageNet zur Klassifizierung und Objekterkennung zum letzten Mal stattfinden würde. Das bedeutete jedoch noch lange nicht, dass es damit mit der Weiterentwicklung des Deep Learnings aus und vorbei war. Ganz im Gegenteil, die Erforschung und Anwendung von Deep Learning konnte jetzt die Phase hinter sich lassen, in der sogenannte „Klassifizierungsprobleme” das Hauptthema der Forschung darstellten und in eine neue Phase mit breitgefächerter Entwicklung eintreten. Gleichzeitig verzeichnete die Anzahl der bei internationalen Konferenzen zum Thema Deep Learning eingereichten Beiträge Jahr für Jahr exponentielles Wachstum, was wiederum zeigt, dass sich immer mehr Forscher und Ingenieure der Forschung und Weiterentwicklung sowie der Anwendung des Deep Learnings widmeten. Der Autor ist der Meinung, dass sich bei der Weiterentwicklung des Deep Learnings in den letzten Jahren die nachfolgenden Trends abzeichnen:

Erstens hat sich bei der Struktur der neuronalen Netze eine noch größere Typenvielfalt herausgebildet. Dabei wurden die sich durch Reverse Engineering aus Faltnetzwerken rekonstruierbaren Generative Adversarial Networks (GAN, deutsch etwa: erzeugende, gegnerische Netzwerke) seit ihrer ersten Veröffentlichung im Jahr 2016 rasant zu einem wichtigen „Wachstumsanker” des Deep Learning. Da die beim Deep Learning verwendeten Algorithmen aus Rohdaten wie Bildern Merkmale extrahieren können, ist auch das Verfahren des Reverse Engineerings einsetzbar. Unstrukturierte Signale durchlaufen hierfür bestimmte neuronale Netzwerke und die entsprechenden Bilder werden generiert. Der Computerwissenschaftler Ian Goodfellow entwickelte daher das Generative Adversarial Network (GAN). Solche Netze bestehen nicht nur aus einem Generator, der Bilder erzeugen kann, sondern verfügen auch über einen Diskriminator. Während des Trainingsprozesses gelingt es dem Generator mit zunehmenden Lernerfolg schwer zu unterscheidende Bilder zu erzeugen, die sogar den echten Originalbildern sehr ähneln. Der Diskriminator wird wiederum im Trainingsverlauf immer besser im Unterscheiden von echten Originalbilden und generierten Bildern. Im gegenseitigen Lernwettstreit werden die generierten Bilder immer wirklichkeitsgetreuer und für den Diskriminator schwerer vom Original zu unterscheiden. Umgekehrt führt die zunehmende Fähigkeit des Diskriminators dazu, dass der Generator immer wieder neue, noch wirklichkeitsgetreuer aussehende Bilder erzeugt. GANs kommen in vielen Bereichen wie der Gesichtserkennung sowie der Erstellung von künstlich generierten Gesichtern, zur Verbesserung der Bilderkennungsrate, zur Erhöhung der Bildfrequenz in der Film - und Videotechnik oder zur Bildstilübertragung breit zum Einsatz.

Zweitens sehen wir eine Tendenz zu zunehmend größerer Vielfalt bei den Problemstellungen in der Forschung. Einerseits haben einige Konzepte aus anderen Zweigen des maschinellen Lernens wie bestärkendes Lernen(englisch: Reinforcement Learning) und das Transfer Learning (deutsch etwa: übertragendes Lernen) einen neuen Stellenwert im Deep Learning gefunden. Andererseits kommt es auch in der Erforschung des Deep Learnings selbst zu einer Weiterentwicklung weg von der „Versuch-und-Irrtumsmethode” in der technischen Entwicklung hin zum Einsatz der Forschungsmethode der „theoretischen Ableitung”. Deep Learning litt immer schwer unter seinen fehlenden theoretischen Grundlagen. Bezogen auf den Trainingsprozess bedeutete dies, dass man sich praktisch vollkommen auf die Erfahrungen der Datenwissenschaftler verlassen musste. Um den Einfluss zu begrenzen, den Erfahrungswerte auf die Gewinnung von Ergebnissen ausüben und den Zeitaufwand zur Auswahl der Hyperparameter zu verringern, überarbeiteten Forscher nicht nur die ursprüngliche, klassische Struktur der neuronalen Netze, sondern modifizierten auch die Leistungsfähigkeit des Deep Learnings von Grund auf. Einige Forscher versuchen andere Methoden des maschinellen Lernens mit Deep Learning zu verwenden (z.B. Compressed Sensing, zu Deutsch: komprimierte Erfassung, Bayes-Theorem, usw.), um von der Versuch- und- Irrtumsmethode in der technischen Weiterentwicklung weg hin zu einer auf theoretischer Ableitung beruhenden Praxis zu gelangen. Dann gibt es auch noch Forscher, die eher versuchen die Gültigkeit der Algorithmen des Deep Learnings zu erklären, als dass sie das ganze Netzwerk einfach als eine Art Black Box betrachten würden. Gleichzeitig bedienen sich Forscher für die Erstellung der Hyperparameter einer anderen Methode des maschinellen Lernens, dem Metalernen (englisch: meta learning), um die Schwierigkeit und Zufälligkeit im Auswahlprozess der Parameter zu verringern.

Drittens werden infolge einer großen Menge von frisch aus dem Ofen kommender Forschungsergebnisse zunehmend mehr Algorithmen in verschiedenen Produkten eingesetzt. Einige kleinere Unternehmen entwickeln nach und nach kleine Anwendungsprogramme (sogenannte Mini-Programme) für die Bildgenerierung, und Großunternehmen wetteifern untereinander darum, wer in diesem vielversprechenden Feld des Deep Learnings die Führungsposition besetzen kann. Die Internetriesen Google, Facebook und Microsoft haben alle bereits Entwicklungszentren für Deep Learning gegründet. Die chinesischen Internetunternehmen Baidu, Alibaba, Tencent, JD.com und ByteDance haben ebenfalls jeweils ihre eigenen Forschungszentren für das Deep Learning aufgebaut. Einige Unicorn Start-ups wie DeepMind, SenseTime und Megvii, die sich auf der Verwendung der Deep-Learning-Technologie gründen, stechen aus der großen Anzahl der Wettbewerber heraus. Seit 2019 verschiebt sich der Fokus in der Industrieforschung zu Deep Learning allmählich von der Veröffentlichung von wissenschaftlichen Beiträgen hin zur Umsetzung von wirklichkeitsnahen Projekten. Das AI Lab von Tencent arbeitet zum Beispiel an der Optimierung der Videoübertragung. Ein von Yitu Tech entwickeltes Gerät zum Screening und der Früherkennung von Lungenkrebs wird bereits an einigen Krankenhäusern in China in Pilotprojekten eingesetzt.

Viertens wird sich Deep Learning zusammen mit dem Cloud-Computing mit zunehmender Verbreitung der 5G-Technologie in unser Alltagsleben einfügen. Dass die Technologie des Deep Learnings bisher nur so schwer umsetzen ließ, liegt an den fehlenden Rechenkapazitäten. Ein mit Grafikkarten ausgestatteter Supercomputer kann bis zu 500.000 Yuan (ca. 61.700 Euro) kosten. Jedoch verfügt nicht jedes Unternehmen über ausreichende finanzielle Mittel zur Anschaffung eines solchen Hochleistungsrechners und Mitarbeiter, die mit solchen Geräten umgehen können. Mit der Ausbreitung der 5G-Technologie und durch Unterstützung durch die Cloud-Technologie können Unternehmen Supercomputer nun leasen und dadurch Rechenkapazitäten kostengünstig direkt aus der Cloud beziehen. Daten können in die Cloud hochgeladen werden und das Rechenergebnis fast in Echtzeit aus der Cloud übermittelt werden. Eine große Anzahl aufstrebender Start-up-Unternehmen sucht gerade nach Methoden, wie man diese Infrastruktur noch breiter einsetzen kann: Sie haben Informatiker und Datenwissenschaftler zusammengetrommelt, um für andere Firmen Hard-und Software- Unterstützung zum Einsatz von Deep Learning-Algorithmen anbieten zu können. Infolgedessen müssen auch Branchen, die bisher kaum etwas mit Computertechnologie zu tun hatten (wie das produzierende Gewerbe, die Dienstleistungsbranche, der Unterhaltungssektor und sogar das Rechtswesen), nicht mehr selbst ihre Anforderungen definieren und Lösungen hierfür entwickeln. Durch eine enge Zusammenarbeit mit IT- Unternehmen profitieren sie praktisch und direkt von professioneller Unterstützung aus der IT-Branche und können mit nur geringen Aufwand selbst das Deep Learning einsetzen.

5. Schlussfolgerung und Diskussion

Deep Learning hat sich in seiner mehr als fünfzigjährigen Geschichte vom Prototyp zum ausgereiften Modell weiterentwickelt, und aus einer einfachen Struktur sind komplexe Netze entstanden. In der Fachwelt wie auch in der Industrie sind eine große Anzahl von theoretischen Beiträgen und Technologien angesammelt worden. Aktuell gehen die Entwicklungstrends in Richtung Diversifizierung. Dies lässt sich darauf zurückführen, dass zahlreiche Produkte sich zurzeit im Entwicklungsstadium befinden. Andererseits führen auch Informatiker gründlichere Forschungen zu einigen Aspekten des Deep Learnings durch.

Als bereichsübergreifende Disziplin entwickelt sich Deep Learning nicht nur im Kernbereich der Bilderkennung, sondern beschreibt auch eigenständige Entwicklungsprozesse in der Sprachanalyse und der natürlichen Sprachverarbeitung. Gleichzeitig ist die Kombination verschiedener Arten neuronaler Netze mit unterschiedlichen Multimediaformen gerade ein heiß diskutiertes Thema in der Forschung. Eine ziemlich anspruchsvolle Aufgabe stellt beispielsweise die automatische Bildbeschriftung (image captioning) dar, bei der Bild- und Sprachverarbeitung kombiniert werden.

Erwähnenswert ist außerdem noch, dass die Erschaffung neuronaler Netze beileibe nicht allein an die bereits beschriebenen Methoden gebunden ist. Einige zurzeit nicht breit eingesetzte Netzwerkstrukturen wie die auf der adaptiven Resonanztheorie beruhenden Netze, die Hopfield-Netze und die Boltzmann-Maschine (Restricted Boltzmann Machine) werden in Zukunft möglicherweise die Antriebskraft für ganze Branchen darstellen. Eines kann man mit Sicherheit sagen: Selbst, wenn Deep Learning heute noch von einem exklusiven und geheimnisvollen Nimbus umgeben zu sein scheint, wird aus dieser Superwaffe in naher Zukunft eine grundlegende Technologie für Unternehmen jeder Größenordnung werden.



« Zurück


Wang Dong'an ist Doktorand an der University of Sydney.Zu seinen Forschungsfeldern gehören bildgebende Verfahren in der Medizin, künstliche Intelligenz, Neurologie und die Videoanalyse und weitere Bereiche. Außerdem widmet er sich der Anwendung von KI-Technologien in realen Systemen. Er hat bei internationalen Konferenzen wie der "CVPR" und der "ECCV (European Conference on Computer Vision)" Beiträge veröffentlicht und arbeitet seit vielen Jahren als Gutachter für wissenschaftliche Publikationen u.a. für Organisationen wie die "IEEE Transactions on Circuits and Systems for Video Technology" und die "IEEE Transactions on Multimedia" sowie für internationale Fachkonferenzen wie die "ICML (International Conference in Machine Learning)" und die "AAAI-Konferenzen (Association for the Advancement of Artificial Intelligence)".Wang verfügt über mehr als fünf Jahre Erfahrung als Entwickler auf den Gebieten des maschinellen Lernens und des computerbasierten Sehens (Computer Vision). Er hat an Entwicklungsprojekten mit Unternehmen und Institutionen aus China, den USA und Australien mitgearbeitet. Zu seinen Tätigkeitsfeldern gehören Handlungserkennung mithilfe von Mehrwinkelvideokanälen, Verkehrsvorhersagen auf der Grundlage von Videoüberwachung der Verkehrslage sowie automatisierte Computertomographiesysteme.


Alle Autoren

Alle anzeigen Alle anzeigen
Blog nach Datum anzeigen