Bei jeder Diskussion darüber, wie Menschen künftig leben werden, geht es immer auch um Smart Communities.Dieses Thema passt auch zum Jahresbericht des chinesischen Staatsrats vom Mai 2020, der neben Großprojekten im Verkehr und Wasserbau „neue Städte“ und „neue Infrastruktur“ als zentrale Regierungsaufgaben nennt. Smart Communities werden hier zweifellos ihren wichtigen Platz haben.
Smart Community bedeutet massiven Einsatz neuer Technologien und viele Erleichterungen im Alltag. Neben automatisierten Supermärkten, Smart-Home-Systemen in Wohngebäuden und automatischen Tiefgaragen werden intelligente Sicherheitssysteme hierbei eine Schlüsselfunktion übernehmen. Dies beginnt bei der Zutrittskontrolle zu Wohngebäuden oder anderen Einrichtungen und geht bis zur automatischen Videoüberwachung sicherheitsrelevanter Bereiche durch Kameras und intelligente Bildverarbeitung. Auf diese Weise kann auf Ausweiskontrollen und Rundgänge durch Sicherheitspersonal verzichtet werden und im Ernstfall ein Alarm ausgelöst werden.
Die US-Krimiserie „Person of Interest“ dreht sich um ein mächtiges Sicherheitssystem, hinter dem eine hochentwickelte künstliche Intelligenz steckt. Das System sammelt mithilfe in der Stadt verteilter Kameras Informationen aller Art zur Identität und zum Verhalten der Menschen bis hin zu deren Beziehungen untereinander. Diese werden von einem zentralen Supercomputer analysiert, um Bedrohungen zu erkennen und sogar vorherzusagen. Natürlich ist eine übermächtige KI wie sie in der Serie dargestellt wird größtenteils Science Fiction. Gleichzeitig enthält die Serie jedoch viele Elemente intelligenter Sicherheitssysteme, die nach und nach in unserem Leben Einzug halten werden. In intelligenten Sicherheitssystemen von Smart Communities oder Smart Cities werden KI-Systeme zur Gesichtserkennung, Handlungserkennung und Personenerkennung eine wichtige Rolle spielen. Wie weit sind diese Technologien heute?
Die computergestützte Gesichtserkennung geht auf die Mitte des 20. Jhs. zurück und begann zunächst als Zweig der Mustererkennung. Später entwickelten sich hieraus verschiedenste Algorithmen zur Gesichtslokalisierung, Gesichtsausrichtung, Erkennung von Eigenschaften wie Alter und Geschlecht, Gesichtskontrolle oder Gesichtserkennung. Diese Technologien finden aktuell bereits in vielen Lebensbereichen Anwendung: Kameras und Handys erfassen beim Fotografieren automatisch Gesichter und stellen diese scharf. Firmen erfassen die Arbeitszeiten ihrer Mitarbeiter und Mitarbeiterinnen durch Gesichtskontrolle am Eingang. Bei manchen modernen Wohnhäusern und Wohnanlagen ist eine Zutrittskontrolle per Gesichtserkennung bereits integriert. Bei der Gesichtserkennung laufen in der Regel vier verschiedene Prozesse ab:
Gesichtslokalisierung
Der erste Schritt der Gesichtserkennung besteht darin, festzustellen, ob und wo ein Bild oder Video menschliche Gesichter enthält, und die gefundenen Gesichter durch Begrenzungsrahmen, sogenannte Bounding Boxes, abzustecken. Paul Viola und Michael Jones veröffentlichten 2001 gemeinsam die bekannte Viola-Jones-Methode zur Objekterkennung, die später die Grundlage für Algorithmen zur Gesichtslokalisierung bildete.
Der Viola-Jones-Algorithmus arbeitet mit Merkmalen und Klassifikatoren. Er nutzt dabei die sogenannten Haar-Merkmale des menschlichen Gesichts (benannt nach dem von Alfréd Haar eingeführten Haar-Wavelet). Dies sind Kombinationen aus schwarzen und weißen Rechtecken, die Helligkeitsunterschiede zwischen bestimmten Bereichen des gesuchten Objekts abbilden. Diese Merkmale ermöglichen es, bestimmte Regionen eines in Frontalansicht aufgenommenen menschlichen Gesichts anhand der für sie typischen Helligkeitskontraste aufzufinden. So sind zum Beispiel in der Regel die Augen dunkler als der Nasenrücken und der Mund ist dunkler als andere Regionen. Mithilfe dieser Merkmale lassen sich dann einige Bildbereiche als mögliche menschliche Gesichter auswählen, die mit Begrenzungsrahmen, sogenannten Bounding Boxes, umgeben werden. AdaBoost-Klassifikatoren ermöglichen dann die Einteilung dieser Bounding Boxes in „Gesichter“ und „Nicht-Gesichter“. Wichtig ist, dass im Viola-Jones-Algorithmus mehrere Klassifikatoren in Kaskaden angeordnet werden, um einen integrierten Klassifikator zu erzeugen. Auf diese Weise kann die Zahl der Bounding Boxes nach und nach reduziert werden, was die Laufzeit des Algorithmus verkürzt.
Auch neuere Forschungsarbeiten zu diesem Thema setzen bei den Merkmalen und Klassifikatoren an. Als Merkmale werden in heutigen Sicherheitssystemen anstatt der Haar-Merkmale zunehmend komplexere Merkmale verwendet, die eine höhere Erkennungsrate und auch bessere Erkennungsergebnisse im Halbprofil liefern. Eine Weiterentwicklung im Bereich der Klassifikatoren ist die Non-Maximum Suppression (NMS), die eine Zusammenfassung von Bounding Boxes mit ähnlicher Position und Größe und damit eine deutliche Eingrenzung der Vorschläge für mögliche Gesichter im Bild ermöglicht. Tiefe neuronale Netzwerke können dabei für große Teile der Berechnungen Grafikprozessoren nutzen und so enorme Laufzeitvorteile erzielen.
Gesichtsausrichtung
Da Gesichter in standardisierter Ausrichtung zu verlässlicheren Ergebnissen in der Gesichtserkennung durch Algorithmen führen, ist ein entscheidender Schritt die algorithmengestützte Vereinheitlichung unterschiedlicher Ablichtungswinkel und Bildauflösungen. Dies wird als Gesichtsausrichtung bezeichnet. Zu diesem Zweck lassen sich alle Abbildungen menschlicher Gesichter als Ergebnisse affiner Transformationen eines Standardporträts auffassen (also als Verkleinerungen, Vergrößerungen, Drehungen oder Parallelverschiebungen). Algorithmen zur Gesichtsausrichtung haben das Ziel, diese Transformationen anhand bestimmter Merkmale wieder in das ursprüngliche Frontalporträt zu überführen.
Die Informatikforschung hat hierfür 68 Merkmale identifiziert, die zusammen die grobe Skizze eines Gesichtes ergeben. Ein üblicher Ansatz bei der Entwicklung von Algorithmen ist nun, den Computer lernen zu lassen, über welche Transformationsschritte aus Standardporträts die transformierten echten Fotos entstehen. Dabei wird eine Lernkaskade von Regressoren eingesetzt, die jeweils einen Teil der Transformation erlernen. So lässt sich aus einem echten Foto das (hypothetische) Standardporträt ermitteln, dessen Transformation es darstellt. Es entsteht ein Porträt derselben Person in standardisierter Frontalansicht.
Eigenschaftserkennung
Aus Gesichtern lassen sich verschiedene Eigenschaften wie Alter, Geschlecht, ethnische Zugehörigkeit, Gesichtsausdruck usw. ableiten. Eine genaue Erkennung dieser Eigenschaften erlaubt Rückschlüsse auf die Präferenzen, die Stimmung oder andere Aspekte der jeweiligen Person. Wenn die Lokalisierung und Ausrichtung des Gesichts abgeschlossen ist, gestaltet sich die Eigenschaftserkennung relativ einfach. Letztlich geht es dabei um die Klassifikation und Regression von Bildern mithilfe großer Mengen von Referenzdaten.
Microsoft veröffentlichte 2015 eine Anwendung zur Altersschätzung anhand von Fotos (how-old.net). Nutzer und Nutzerinnen können ihre Fotos hochladen und das Programm gibt das geschätzte Alter der abgebildeten Personen aus. In diesem System werden zunächst im Bild enthaltene Gesichter lokalisiert und die hieraus extrahierten Merkmalsvektoren werden dann mit Klassifikatoren nach Geschlecht sortiert. Anschließend bestimmt eine Regressionsanalyse das entsprechende Alter. Durch die Nutzung tiefer neuronaler Netze lassen sich Merkmalsextraktion, Klassifikation und Regression zu einem einzigen Algorithmus integrieren, der in Echtzeit Schätzungen zu mehreren Eigenschaften liefert. Ähnlich lassen sich auch Gesichtsausdrücke per Klassifikation und Regression zuordnen, was Anwendungsmöglichkeiten bei der Steuerung von Smart-Home- und Sicherheitssystemen bietet. Im Gefahrenfall könnten Benutzer und Benutzerinnen allein durch Augenzwinkern die Polizei rufen.
Gesichtskontrolle und Gesichtserkennung
Die oben beschriebenen Algorithmen bilden die Grundlage für die Gesichtskontrolle, das heißt für den Abgleich, ob zwei Aufnahmen von Gesichtern dieselbe Person darstellen. Bei der eigentlichen Gesichtserkennung gleicht ein Computer ein Foto mit einer Datenbank ab und gibt dann die entsprechenden Personen- und Eigenschaftsdaten aus, wenn ein Treffer gefunden wurde.
Schnelle Algorithmen sind dabei für einen hohen Nutzungskomfort unerlässlich, da es gilt, das Eingabebild mit einer großen Zahl in der Datenbank gespeicherter Bilder zu vergleichen. Auch hier führt ein möglicher Lösungsweg über die Extraktion von Merkmalen aus dem Bild. Eine solche Methode ist die Principal Component Analysis, bei der aus den ermittelten Bounding Boxes, die Gesichter enthalten, markante Merkmale ausgewählt und per Korrelationsanalyse passende Personendaten aufgefunden werden. Ein weiteres wichtiges Instrument hierbei ist die skaleninvariante Merkmalstransformation (SIFT). Diese ermöglicht den Vergleich von Merkmalen, selbst wenn die Bilder gedreht sind, unterschiedliche Maße aufweisen, in unterschiedlichen Auflösungen vorliegen oder mit verschiedenen Kameras aufgenommen wurden, und das bei hoher Genauigkeit.
Da menschliche Gesichter je nach Medium und Lichtverhältnissen unterschiedlich aussehen, führt ein unmittelbarer Merkmalsabgleich nicht in allen Anwendungsfällen zum Ziel. Es ist daher notwendig, die Gesichtsmerkmale von variablen Parametern wie der Beleuchtung zu entkoppeln. Der etablierte LBP-Algorithmus (LBP steht für Local Binary Patterns) tut genau das: Er entfernt Informationen zur Beleuchtung. In diesem Algorithmus wird jedes Pixel mit seinen Nachbarpixeln verglichen. Anschließend werden die Wertverhältnisse der Pixel zueinander im gesamten Bild erhalten, nicht jedoch die absoluten Zahlenwerte. Auf diese Weise bleiben die Merkmale eines Gesichts intakt, während die durch Beleuchtung oder Textur entstehenden Abweichungen der Pixelwerte neutralisiert werden. In den letzten Jahren findet der Ansatz der entkoppelten Merkmalsdarstellung (disentangled representation) Verbreitung, bei dem Merkmale eines Gesichts, die ein tiefes neuronales Netz extrahiert, nach Form (shape) und Erscheinung (appearance) differenziert werden. Die Erscheinung beinhaltet dabei Informationen zur Farbe und Textur. Auf diese Weise lassen sich die Merkmale eines Gesichts besser isolieren und die Erkennungsgenauigkeit erhöht sich.
Neben der Gesichtserkennung gehören die Handlungs- und die Personenerkennung zu den Grundkomponenten eines intelligenten Sicherheitssystems.Handlungserkennung bezeichnet hier die Klassifikation der Handlungen von Personen, die in Videoaufnahmen zu sehen sind, während Personenerkennung die Identifikation ein und derselben Person in unterschiedlichen Aufnahmen eines Videoüberwachungsnetzes ist. Letztere ermöglicht dem System, Handlungsverläufe von Personen festzustellen, deren Absichten einzuschätzen und sicherheitsrelevantes Verhalten zu erkennen. Durch die Kombination von Handlungs- und Personenerkennung lässt sich das Verhalten von Personen in Videoaufnahmen besser bewerten.
Handlungserkennung
Ursprünglich war die Handlungserkennung nur ein Spezialfall der Bildklassifikation, bei dem statt eines stehenden ein bewegtes Bild und statt eines Gegenstandes oder Gesichts eine Bewegung klassifiziert wird. Da die von einem intelligenten Sicherheitssystem aufgenommenen Videodaten als Folge von Einzelbildern betrachtet werden können, lassen sich die bei Bildern angewandten Klassifikationsmethoden (wie z. B. Deep Learning) unmittelbar auf die Handlungserkennung anwenden. Eine Handlung ist jedoch immer eine zeitliche Abfolge und dieser sequentielle Charakter lässt sich zur Erhöhung der Genauigkeit nutzen. Ein Merkmal, das bei Videos zur Anwendung kommt, ist der optische Fluss. Er gibt die Verschiebung eines Bildpunktes von einem Bild zum nächsten an. Hierbei werden die einander entsprechenden Punkte in einer Folge von Einzelbildern jeweils zusammen mit Informationen zu den benachbarten Pixeln zu einem Merkmal kodiert, das den Bahnverlauf (trajectory) in einem Video abbildet. Durch Kombination mehrerer solcher Bahnverläufe lassen sich Handlungsinformationen gut darstellen.
In den letzten Jahren haben Deep-Learning-Algorithmen bei der Handlungserkennung große Fortschritte gemacht. So hat etwa der von Informatikern und Informatikerinnen an der Chinesischen Universität Hongkong entwickelte Temporal-Segment-Network-Algorithmus (TSN) das Erkennungsniveau deutlich verbessert. In diesem Algorithmus werden das ursprüngliche Video und dessen optisches Flussbild gleichzeitig zum Anlernen eines tiefen neuronalen Netzes verwendet, wodurch Informationen zur Erscheinung und zur Bewegung gleichzeitig im selben Modul kodiert werden können. Ausschnitte aus demselben Video werden dabei nach dem Zufallsprinzip in unterschiedlichen Kombinationen betrachtet, so dass eine Bewegung erkannt wird, egal in welcher Geschwindigkeit sie abläuft. Neben der Forschung an Algorithmen wie TSN erstellte die Nanyang Technological University in Singapur eine umfangreiche Datenbank mit gelabelten Videos typischer Alltagshandlungen, die NTU RGB+D, die auch Bewegungen wie Hinsetzen, Hinlegen oder Hinfallen enthält, die z. B. in Krankenhäusern oder Pflegeheimen häufig vorkommen. Systeme zur Handlungserkennung, die mit diesen Algorithmen und Daten trainiert wurden, eignen sich gut zur automatisierten Personen- und Ortsüberwachung.
Personenerkennung
Die Personenerkennung bedient sich einer großen Bandbreite von Merkmalen wie z. B. Gesichtszüge, Körperbau, Haltung, Bewegungen oder Kleidung. Aufgrund der begrenzten Auflösung von Videobildern können die Gesichtszüge einer Person nur ergänzend herangezogen werden, während andere Aspekte wie Körperhaltung, Bewegungen und insbesondere die Kleidung eine größere Rolle spielen. Dies sind dieselben Anhaltspunkte, anhand derer auch das menschliche Auge Personen erkennt. Ein Algorithmus zur Personenerkennung sollte also eine Vielfalt von Merkmalen möglichst gut berücksichtigen.
Auch hier zeigt das Deep Learning seine Stärken, weil es aus großen Datenmengen mithilfe tiefer neuronaler Netze automatisch Merkmale extrahieren und unterschiedlich gewichten kann. Klassifikatoren können dabei auf die Erkennung unterschiedlicher Faktoren trainiert werden. Konkret nehmen Algorithmen zur Personenerkennung eine Reihe von Klassifikationen vor und fällen daraus ein Gesamturteil: Sie klassifizieren Aspekte wie das Erscheinungsbild (Kleidung, Gepäck, Schmuck usw.), Physis (Geschlecht, Körpergröße usw.) oder einzelne Körperteile (Arme, Beine, Rumpf usw.) und leiten hieraus ein Ergebnis ab, das eine gewichtete Synthese der einzelnen Klassifikatoren darstellt. Um die Unterscheidung verschiedener Individuen und die Wiedererkennung gleicher Individuen in unterschiedlichen Szenerien zu verbessern, wurden in den letzten Jahren Triplet-Loss-Funktionen in die Deep-Learning-Algorithmen eingebunden. Bei dieser Methode werden für das Training jeweils drei Musterbilder miteinander verglichen. Die Ergebnisse sind vielversprechend.
Gesichtserkennung, Handlungserkennung und Personenerkennung bieten große Vorteile beim Einsatz in Sicherheitssystemen. Sie ermöglichen erstmals eine lückenlose 24-Stunden-Überwachung, wie sie mit bisherigen Mitteln nicht realisierbar war. Mit zunehmender Abdeckung erhöht sich auch die Sicherheit des Systems. Darüber hinaus ist heute die Rechenleistung von Computern so groß, dass riesige Datenmengen in kürzester Zeit analysiert werden können, wodurch verborgene Gefahrenpotentiale deutlich schneller erkennbar sind. Die für solche Systeme benötigten Informationen wie z. B. Gesicht, Verhalten oder Kleidung sind zudem äußerlich sichtbar und daher leicht zu erfassen. Überwachung und Analyse sind sogar möglich, ohne dass die überwachte Person dies merkt. Wenngleich derartige intelligente Kamerasysteme bereits in einigen öffentlichen Bereichen und Wohnanlagen installiert sind, müssen für eine großflächige Verbreitung jedoch noch weitere technische Hürden genommen werden.
Robustheit der Systeme
Ein erhebliches Handicap für Erkennungsalgorithmen ist verdeckte Sicht. Brillen, Sonnenbrillen und Mundschutze erschweren die Gesichtserkennung und verdeckte Gliedmaßen die Handlungs- und Personenerkennung. Schwierigkeiten macht auch die Beleuchtung. Trotz der dargestellten Entkopplungsalgorithmen beeinträchtigen besondere Bedingungen wie Dunkelheit oder Kameras mit verschiedenen Auflösungen immer noch die Genauigkeit. Diese leidet auch unter Ähnlichkeiten in Physiognomie, Garderobe und Bewegungsmustern sowie unter der zeitlichen Wandelbarkeit von Gesichtszügen und Gestik.
Datenumfang und Reaktionsgeschwindigkeit
In der Theorie lassen sich Algorithmen umso besser anlernen, je mehr Ausgangsdaten zur Verfügung stehen. Datensammlungen für die Gesichts-, Handlungs- und Personenerkennung können jedoch Millionen von Objekten umfassen. Diese Daten müssen zunächst von Hand gelabelt werden, um für das Trainieren von Algorithmen des maschinellen Lernens überhaupt verwendbar zu sein. Allein das Labelling der Daten erfordert also einen massiven Aufwand menschlicher Arbeitskraft. Daneben müssen intelligente Sicherheitssysteme im Feld von Sekunden zu Sekunde enorme Datenmengen verarbeiten, was die Reaktionszeit des Computers verlängern kann. Eine weitere Herausforderung ist die Weiterentwicklung der Algorithmen: In einem Sicherheitssystem muss der Computer aus Daten relevante Merkmale und Informationen extrahieren und diese holistisch analysieren und bewerten, um daraus komplexe Schlüsse zu ziehen. Heutige Algorithmen sind noch auf bestimmte, klar umgrenzte Anwendungsfälle spezialisiert, wie etwa auf die Lokalisierung von Gesichtern im Bild und die Erkennung gewisser Handlungen. Wenn in Zukunft größere Datenmengen und mehr Rechenleistung zur Verfügung stehen, werden neue Algorithmen gebraucht, die multiple Faktoren gesamthaft würdigen, um dem zuständigen Sicherheitspersonal in kürzester Zeit Rückmeldung zu geben.
Daten- und Algorithmensicherheit
Eines der Bewertungskriterien für ein Sicherheitssystem ist: Wie sicher ist das System selbst? Im Zeitalter des Internet steht Datensicherheit ständig auf dem Prüfstand. Soziale Netzwerke haben dafür gesorgt, dass Fotos und Personendaten fast jeder beliebigen Person leicht online zu beschaffen sind. Durch Reproduktion dieser Bilder, eventuell sogar per 3D-Druck, ist es durchaus möglich, Gesichtserkennungssysteme zu täuschen. Um derartige Sicherheitsrisiken auszuschließen, wird derzeit an Möglichkeiten geforscht, bei der Gesichtserkennung echte Gesichter von Attrappen zu unterscheiden.
Auch die permanente Weiterentwicklung missbräuchlich einsetzbarer Algorithmen stellt die aktuelle Gesichtserkennung vor neue Herausforderungen. Beispielsweise sind Generative Adversarial Networks heute in der Lage, fotorealistische Abbildungen fiktiver Gesichter zu erzeugen, die von echten Fotos kaum zu unterscheiden sind. Auch Deepfake-Videos, in denen Gesichter ausgetauscht wurden, sind heutzutage keine Seltenheit. Heutige Gesichtserkennungssysteme lassen sich durch solche generierten Gesichter unter Umständen umgehen. Ein kürzlich veröffentlichter Artikel weist außerdem darauf hin, dass gezielte Störungen von Algorithmen die Personenerkennung sabotieren und die Zuordnung der Identitäten durcheinanderbringen können. Damit könnten Kriminelle Sicherheitssysteme aushebeln.
Wie gezeigt, sind neue, bessere Algorithmen für die Umsetzung intelligenter Sicherheitssysteme in Smart Communities weiterhin unabdingbar. Einerseits müssen die heutigen Algorithmen robuster werden und große Datenmengen effektiver bewältigen. Gleichzeitig sind neue Mechanismen gefragt, um Daten und Algorithmen vor Angriffen zu schützen und neue Herausforderungen zu bewältigen. Mit neuen Ideen ist die Forschung eifrig dabei, diese Hürden zu überwinden. Spärliche Darstellung etwa ist ein Ansatz, der Gesichtserkennungssysteme in die Lage versetzt, Gesichter auch dann noch gut zu erkennen, wenn diese teilweise verdeckt sind. Damit erhöht sich die Leistung dieser Algorithmen bei ungünstiger Datenlage. Die Einbeziehung von Techniken wie Generative Adversarial Networks oder Transfer Learning beim Trainieren der Algorithmen oder der Einsatz von Containern und Federated Learning während der Einrichtung ermöglicht nicht nur eine gute Erkennungsleistung, sondern auch die Differenzierung zwischen verschiedenen Datenquellen und die Detektion böswilliger Angriffe, um so Daten und Algorithmen besser zu schützen. Durch die ständige Fortentwicklung der Algorithmen in diesen Bereichen wird sich die automatische Gesichtserkennung in ihrer fortgeschrittenen Form mehr und mehr zu einem festen Bestandteil von Smart Cities und Smart Communities entwickeln.
Wang Dong'an ist Doktorand an der University of Sydney.Zu seinen Forschungsfeldern gehören bildgebende Verfahren in der Medizin, künstliche Intelligenz, Neurologie und die Videoanalyse und weitere Bereiche. Außerdem widmet er sich der Anwendung von KI-Technologien in realen Systemen. Er hat bei internationalen Konferenzen wie der "CVPR" und der "ECCV (European Conference on Computer Vision)" Beiträge veröffentlicht und arbeitet seit vielen Jahren als Gutachter für wissenschaftliche Publikationen u.a. für Organisationen wie die "IEEE Transactions on Circuits and Systems for Video Technology" und die "IEEE Transactions on Multimedia" sowie für internationale Fachkonferenzen wie die "ICML (International Conference in Machine Learning)" und die "AAAI-Konferenzen (Association for the Advancement of Artificial Intelligence)".Wang verfügt über mehr als fünf Jahre Erfahrung als Entwickler auf den Gebieten des maschinellen Lernens und des computerbasierten Sehens (Computer Vision). Er hat an Entwicklungsprojekten mit Unternehmen und Institutionen aus China, den USA und Australien mitgearbeitet. Zu seinen Tätigkeitsfeldern gehören Handlungserkennung mithilfe von Mehrwinkelvideokanälen, Verkehrsvorhersagen auf der Grundlage von Videoüberwachung der Verkehrslage sowie automatisierte Computertomographiesysteme.