Jeff Bier, Embedded Vision Alliance, zu Deep-Learning-Technologien

Das erste Deep-Learning-Training in Deutschland, das die Embedded Vision Alliance auf Basis des Open Source Frameworks Tensorflow von Google durchführt, findet Anfang September in Hamburg statt. Im Vorfeld erklärt Jeff Bier, Gründer der Allianz, warum die Technologie besonders für die künftigen Entwicklungen im Bereich des rechnergestützten Sehens wichtig ist, welche Vorteile sich durch sie ergeben und wie dadurch neue Märkte erschlossen werden können.

Interview: Peter Stiefenhöfer, freier Journalist, Olching

Stiefenhöfer: Deep-Learning-Technologien stehen an der Schwelle dazu, vermehrt neue Märkte für das rechnergestützte Sehen zu erschließen. Welche Art von Applikationen und Systemen begünstigen diese Entwicklung?

Bier: Bisher war das rechnergestützte Sehen vor allem bei Anwendungen wie der Inspektion von Produkten während der Herstellung erfolgreich, bei denen die Rahmenbedingungen für die Bilderfassung kontrolliert und die Kriterien für Gut-/Schlecht-Entscheidungen relativ einfach quantifiziert werden können. Es gibt jedoch zahllose Einsatzfälle, bei denen die Rahmenbedingungen nicht kontrolliert werden können und die Prüfobjekte große Variationen aufweisen. Das Problem verschärft sich noch, wenn man Unterschiede in der Kameraansicht, der Beleuchtung oder benachbarter Objekte mit einbezieht. Beispielsweise stellt das Erkennen von Fußgängern für ein Kfz-Sicherheitssystem eine sehr große Herausforderung dar, da die Menschen unterschiedlich groß sind, verschiedene Kleidung tragen und sich völlig unterschiedlich bewegen.

Stiefenhöfer: Das Open Source Framework Tensorflow basiert auf Deep-Learning-Technologien. Laut einer kürzlich veröffentlichten Studie der Embedded Vision Alliance stellt es die derzeit beliebteste Deep-Learning-Plattform für rechnergestütztes Sehen dar. Worin liegen Ihrer Meinung nach die Gründe für diesen Erfolg?

Bier: Ich denke ein Grund für die Popularität von Tensorflow ist sicher, dass Google ein Technologieführer ist und die Plattform selbst extensiv einsetzt. Ingenieure anderer Firmen haben großes Interesse daran, dieselbe Technologie zu verwenden, wie solche führenden Unternehmen. Die Tatsache, dass es sich um eine Open-Source-Plattform handelt, spielt sicher auch eine große Rolle. Hinzu kommt, dass Tensorflow das erste Deep Learning Framework ist, das sich auf den effizienten Einsatz von tiefen neuronalen Netzen, nicht nur in Rechenzentren, sondern auch in Embedded-Systemen und in mobilen Geräten fokussiert.

Stiefenhöfer: Deep Learning scheint derzeit überhaupt eine Art magischer Begriff in der Welt des rechnergestützten Sehens zu sein. Können Sie die Technologie kurz beschreiben?

Bier: Tiefe neuronale Netze stellen einen völlig anderen Ansatz für die optische Erkennung von Objekten dar, als es die bisher genutzten, klassischen Algorithmen getan haben. Und nicht nur dafür, denn diese Technologie kommt auch in vielen anderen Bereichen zum Einsatz. Kurz gesagt: Statt einer Maschine zu „sagen“, wie sie Objekte erkennen soll – beispielsweise indem zuerst nach Ecken und dann nach Kanten gesucht wird, die dann wiederum eventuell einen Kreis bilden könnten, etc. – ist es mit künstlichen neuronalen Netzen möglich, Algorithmen zu „trainieren”. Dafür zeigt man ihnen eine große Anzahl von Beispielen und nutzt dann eine Feedback-Prozedur, die automatisch und auf Basis der Beispiele die Funktionalität des Algorithmus adaptiert. Etwas spezifischer gesagt: Convolutional Neural Networks sind massive parallele Algorithmen, die aus mehrlagigen Berechnungsknoten beziehungsweise „Neuronen“ bestehen. Solche Netze führen keine Programme aus. Stattdessen wird ihr Verhalten bestimmt durch ihre Struktur, die Möglichkeit einfacher Berechnungen, die jeder Knoten durchführt, sowie Koeffizienten oder Gewichtungen, die durch eine Anlernprozedur definiert werden. Anstatt also zum Beispiel zu versuchen, Hunde von Katzen zu unterscheiden, indem man schrittweise eine Art Rezept anwendet, lernt ein Convolutional Neural Network diese Kategorisierung durch das Zeigen einer großen Anzahl von Beispielbildern.

Stiefenhöfer: Welche Vorteile ergeben sich dadurch?

Bier: Drei Dinge machen diesen Ansatz sehr spannend: Zum einen übertreffen tiefe neuronale Netze in vielen Bereichen der Bilderkennung die Genauigkeit der bislang leistungsfähigsten Techniken erheblich. Zum anderen ist das Tempo, mit dem sich die Genauigkeit der Netze bei optischen Erkennungsaufgaben verbessert, wesentlich höher als alles, was wir im Bereich klassischer Techniken bisher gesehen haben. Darüber hinaus können wir mit tiefen neuronalen Netzen eine Reihe allgemeiner Techniken anwenden, um eine Vielzahl optischer Erkennungsaufgaben zu lösen. Das ist ein großer Fortschritt im Vergleich zu klassischen Techniken, wo viele verschiedene Typen von Algorithmen verwendet werden, um unterschiedliche Aufgaben zu lösen. Auf Basis der jüngsten Weiterentwicklungen bei Prozessoren und Sensoren kann man davon ausgehen, dass Algorithmen heute den Flaschenhals bei der Entwicklung von effektiven „sehenden Maschinen“ darstellen.

Stiefenhöfer: Und wie können Entwickler aus dem Bereich des rechnergestützten Sehens von dieser Technologie profitieren?

Bier: Tiefe neuronale Netze liefern in vielen Bereichen der visuellen Erkennung exzellente Ergebnisse, beispielsweise bei der Erkennung von Gesichtern und Objekten oder auch beim Thema optischer Fluss. Selbst sehr anspruchsvolle Aufgabenstellungen wie das Lesen von Lippen führen beim Einsatz solcher Algorithmen zu vielversprechenden Ergebnissen. Mehr dazu können die Teilnehmer des ersten Tensorflow-Trainings in Deutschland lernen, das am 7. September von der Embedded Vision Alliance veranstaltet wird. Am meisten werden sie von der praxisnahen Einführung in das Framework profitieren, wenn ihnen grundlegende Kozepte und die Terminologie tiefer neuronaler Netze bekannt sind. Interessierten, die eine Einführung benötigen, wird die Allianz vor der Schulung ein kostenloses, zweistündiges Online-Videotutorial zur Verfügung stellen. ik

www.embedded-vision.com

PLUS

Deep-Learning-Schulung

Die Embedded Vision Alliance veranstaltet am 7. September 2017 in Hamburg ein ganztägiges Training zum Thema Deep Learning für rechnergestütztes Sehen, das auf dem Open Source Framework Tensorflow von Google basiert. Im Rahmen des Trainings wird den Teilnehmern praxisnahes Wissen vermittelt, das erforderlich ist, um die Software-Plattform für die Entwicklung und den Einsatz von Deep-Learning-Applikationen für das künstliche Sehen auf PCs, Embedded-Systemen, Mobilgeräten und in der Cloud zu nutzen. Die Schulungssprache ist Englisch. Weitere Informationen finden Sie unter folgendem Link:

www.tensorflow.embedded-vision.com

Bild: Embedded Vision Alliance

Hier finden Sie mehr über:

ZIEHL-ABEGG SE

Zurück zur Startseite