Skip to main content

Vision Einblicke: Das richtige Bildverarbeitungssystem für jede Drohne finden

FRAMOS

FRAMOS

6. März 2019

Vision Einblicke: Das richtige Bildverarbeitungssystem für jede Drohne finden
Frederik-Sch-nebeck

Von kleinen Sensormodulen bis hin zu künstlicher Intelligenz – es gibt verschiedene Technologien und Bildverarbeitungsalgorithmen, die es Drohnen ermöglichen, zu sehen. Jede Anwendung stellt andere Anforderungen an das Bildverarbeitungssystem und ist abhängig von dem verfügbaren Platz in der Drohne und der gewünschten Bildqualität. Dr. Frederik Schönebeck von FRAMOS sprach auf der VDI-Konferenz zum Thema „Zivile Drohnen im industriellen Einsatz“ und beschrieb die Kriterien für Anwendungen in den Bereichen Kartierung, Objekterkennung und Navigation sowie die Bedeutung der künstlichen Intelligenz für Drohnen.

Ein Vision System ist ein Bildverarbeitungssystem und besteht in den meisten Fällen aus einem Bildsensor, einem Prozessormodul, einer Objektivhalterung und einem Objektiv. Für Drohnen muss das Bildverarbeitungssystem besonders klein und leicht sein. Es muss die Flugleistung kaum beeinträchtigen. Darüber hinaus sind eine hohe Energieeffizienz und eine geringe Wärmeentwicklung wichtig, da in der Regel nur eine begrenzte Stromversorgung an Bord ist und jede Beanspruchung dieser Stromversorgung die Flugdistanz der Drohnen beeinträchtigt. Reine Bild- und Videostreams, bei denen die Drohne keine weiteren Aktionen aus der Szene ableitet, werden als nicht-funktionale Anwendungen bezeichnet. Funktionale Anwendungen hingegen nutzen diese Bilder aus dem Bildverarbeitungssystem, um zur Kollisionsvermeidung zu navigieren oder um Tracking-basierte Folgeaktionen einzuleiten. Durch den Einsatz von Bildverarbeitungstechnologie sind funktionale Drohnen intelligenter und meist autonom. In beiden Fällen muss die Bildqualität eine genaue Analyse ermöglichen und für funktionale Aufgaben müssen diese Bilder an Bord in Echtzeit verarbeitet werden. Die Kombination der Kriterien Größe, Gewicht, Effizienz, Bildqualität und Verarbeitung, um nur einige zu nennen, ist eine große Herausforderung, selbst für eingebettete Bildverarbeitungsanwendungen, und erfordert daher eine sorgfältige Auswahl und Kombination der einzelnen Komponenten.

UAVs stellen hohe Anforderungen an integrierte Vision- und Bildsensoren

Der am besten geeignete Bildsensor für Drohnen und eingebettete Bildverarbeitungssysteme ist ein CMOS-Sensor. Dieser neue Industriestandard erreicht aufgrund seiner Architektur höhere Geschwindigkeiten und eine bessere Bildqualität als seine CCD-Pendants, ist aber gleichzeitig deutlich kleiner. Entwickler können je nach Anwendungsbedarf zwischen Global Shutter- und Rolling Shutter-Auslesung wählen. Bei einem Global Shutter (GS) werden alle Pixel gleichzeitig belichtet, so dass die Bewegung im Bild praktisch eingefroren wird und somit die Bewegungsunschärfe oder Verzerrung auf den Bildern reduziert wird. GS-Sensoren eignen sich daher für die Aufnahme von Bildern in Hochgeschwindigkeitsanwendungen mit vielen Bewegungen. Das komplexe Pixeldesign führt jedoch zu größeren Pixeln und damit zu größeren Sensorabmessungen und höheren Stückkosten.

Bei einem Rolling Shutter (RS) werden die Pixelreihen nacheinander belichtet, was bei Bewegungen zu Artefakten im Bild führen kann. Das Design von RS-Sensoren ist weniger komplex, was zu einer höheren Empfindlichkeit führt und sie im Vergleich zu Global Shutters zu kleineren und weniger teuren Sensoren macht. Drohnenentwickler sollten alle Vor- und Nachteile dieser Sensoren sorgfältig abwägen, wenn sie einen Sensor für ihr System auswählen.

„Ein größerer Sensor bedeutet immer auch die Verwendung eines größeren Objektivs und eines größeren Gesamtsystems. Das wirkt sich auf das Gewicht, den Preis und den Stromverbrauch aus – alles wichtige Merkmale bei der Entwicklung von Drohnen. Die Vorteile und Kosten müssen genau gegen die Anforderungen der Anwendung abgewogen werden“, sagt Frederik Schönebeck.


Notiz: Bewegungsartefakte, die durch den Rolling Shutter verursacht werden, können den SLAM-Algorithmus und damit die Posenschätzung einer Drohne beeinträchtigen. Diese Störungen können durch die Interaktion des Bildsensors mit den Daten eines IMU-Sensors (Inertial Measurement Unit) minimiert werden. Die Verschmelzung von Bilddaten mit IMU-Daten hat den zusätzlichen Vorteil, dass sie der Drohne bessere Positionsinformationen im dreidimensionalen Raum liefert, was zu einem stabileren und sichereren Flugverhalten führt. Mehr dazu erfahren Sie in dem FRAMOS Artikel „Für Drohnen führt die Kombination von Bildsensor- und IMU-Daten zu einer robusteren Posenschätzung“.


Anwendungsbeispiel: Mapping

Mapping-Anwendungen verwenden Drohnen, um hochauflösende Karten zu erstellen. Sie fliegen in der Regel in großer Höhe über das zu kartierende Gebiet. Bildverarbeitungssysteme für Kartierungsdrohnen müssen sehr hohe Auflösungen bieten, wobei die Bildqualität das wichtigste Kriterium ist, manchmal sogar gleichzeitig in mehreren Frequenzbändern.

Großformatige Sensoren mit Auflösungen von 50 bis 150 Megapixeln und einem Dynamikbereich von >74dB bieten eine sehr gute Bildqualität und eignen sich besonders für Mapping-Anwendungen.

Mittelformat-Sensoren

Abbildung 1: Sensorformate und die zugehörigen Bildformate

Ein großer Sensor mit hoher Auflösung bietet den Vorteil, dass ein größerer Bereich mit einer Aufnahme erfasst werden kann. Dies ermöglicht einen schnelleren Überflug und eine effizientere Vermessung.

AufnahmegebietAbbildung 2: Aufnahmebereich verschiedener Sensorauflösungen bei gleicher Bildqualität

Die Drohne kartiert die Erdoberfläche aus großer Höhe, so dass die relative Geschwindigkeit, mit der sich die Drohne über der Erde bewegt, gering ist. Die daraus resultierenden Bewegungsartefakte im Bild sind minimal und können bei Bedarf durch einen mechanischen Verschluss vollständig eliminiert werden. In vielen Fällen reicht ein kostengünstiger Rolling-Shutter-Sensor für Kartierungsdrohnen aus. Aber die großen Sensoren erfordern große Objektivfassungen und Objektive. Bei solch hochauflösenden Anwendungen benötigt das gesamte Bildverarbeitungssystem eine größere Grundfläche und einen größeren Einbauraum innerhalb der Drohnenkonstruktion sowie Platz für eine mechanische Bildstabilisierung, Objektivstabilisatoren, einen Gimbal oder ähnliche Kompensationsmethoden.

Dr. Frederik Schönebeck sagt: „Im Grunde handelt es sich bei den Kartierungsanwendungen von Drohnen um fortschrittliche Messsysteme, die eine präzise Bildverarbeitung nutzen.“

Um Zeit zu sparen und eine gute Grundlage für die Kartierung des Bodens zu schaffen, werden die aufgenommenen Bilder vorzugsweise über FPGA-Prozessoren an Bord der Drohne vorverarbeitet. Die Entwickler müssen eine leistungsfähige Prozessorarchitektur und eine ausreichende Speicherkapazität bereitstellen, um diese große Datenmenge zu speichern. Die endgültige Verarbeitung erfolgt dann offline nach dem Flug der Drohne. Dementsprechend benötigt das Bildverarbeitungssystem keine mobile Datenübertragung. Um eine höhere Genauigkeit und zusätzliche Messdaten zu generieren, koppeln Kartierungsdrohnen häufig Lidarsysteme mit ihrem Sichtsystem. Diese Kombinationen und Schnittstellen erhöhen die Komplexität von Designs und Architekturen, die bei der Zeit- und Ressourcenplanung berücksichtigt werden müssen.

Anwendungsbeispiel: Video-Überwachung

Drohnen sind die neue Normalität in der Überwachung und Sicherheit. Sie ermöglichen die Beobachtung und Inspektion von schwer zugänglichem Terrain und weitläufigen Gebieten und sind dabei unauffällig und mobil. Videostreaming ist daher eine der häufigsten Anwendungen für Drohnen. Die unbemannten Flugobjekte müssen klein sein und im wahrsten Sinne des Wortes Augen haben.

Wichtige Faktoren bei der Entwicklung von Überwachungsdrohnen mit Video-Streaming sind Größe, Gewicht und Kosten. Üblicherweise werden Sensoren mit Auflösungen zwischen 1 und 10 Megapixeln gewählt, mit einem optischen Format von maximal 4/3 Zoll oder kleiner. Zusätzlich zum Sensor, den Objektivanschlüssen (M12 bis 4/3 Zoll) und dem Objektiv sind die Überwachungsdrohnen in der Regel mit einem anwendungsspezifischen ISP ausgestattet. Die Drohne wertet die Überwachungsbilder in Echtzeit aus und kann in funktionalen Systemen Folgeaktionen einleiten.

„Für eine qualitativ hochwertige Bildanalyse und -auswertung, insbesondere bei schlechten Lichtverhältnissen oder im 24-Stunden-Betrieb, erfordern Echtzeitanwendungen im Sicherheits- und Überwachungsbereich Sensoren mit einem hohen Dynamikbereich und hohen Bildraten“, so Schönebeck.

Darüber hinaus sind bei Überwachungsdrohnen die wichtigsten Kriterien für die Auswahl des Sensors große Pixel mit einer hohen Full-Well-Kapazität, HDR-Modi und ein niedriges Signal-Rausch-Verhältnis. Außerdem kann der Dynamikbereich für einen höheren Kontrast und schärfere Bilder erhöht werden, ohne dass Bewegungsartefakte in das Bild gelangen. Spezielle Überwachungssensoren, wie der IMX294 von Sony mit seiner Quad-Bayer-Struktur, geben im normalen Modus 2×2 Pixel aus, so dass vier Pixel zu einem „Superpixel“ für einen höheren Dynamikbereich kombiniert werden können. Im HDR-Modus werden zwei Pixel dieses Quad-Arrays mit einer kurzen Belichtungszeit integriert, während die anderen beiden Pixel eine lange Belichtungszeit haben (Abb. 3). Dadurch wird die zeitliche Trennung zwischen der kurzen und der langen Belichtungszeit aufgehoben, so dass HDR-Bilder von bewegten Objekten mit minimalen Artefakten erzeugt werden können (Abb. 4).

Abb1_Bayer-Quad_ENCsHRyVbIzqRG9

Abbildung 3: Quad-Bayer-Pixelstruktur im normalen und HDR-Modus

Abb2_HDR-Pic_ENj8SVMpIcdfoqe
Abbildung 4: Das Quad-Bayer HDR-Bild zeigt nur wenige Artefakte

Für die Überwachung bei Nacht können zusätzliche Funktionen, wie z.B. eine in das Bildverarbeitungssystem integrierte Infrarotbeleuchtung, die Bilderfassung und -erkennung verbessern. Wenn in der Anwendung viele Richtungsänderungen oder Beschleunigungskräfte auftreten, müssen zusätzliche Optionen zur mechanischen, optischen oder elektronischen Bildstabilisierung in Betracht gezogen werden. Wenn die Beseitigung von Bewegungsartefakten eines der Hauptkriterien in einer Anwendung ist, sollte von Anfang an ein Sensor mit einem Global Shutter gewählt werden. Für die Videokodierung empfiehlt Schönebeck die H.264 / H.265-Kodierung für Drohnen. Die Kodierung komprimiert die Bilddaten mit minimalem Qualitätsverlust. Dies erfordert weniger Speicherplatz auf dem Speichermedium oder eine geringere Bandbreite für die Echtzeitübertragung über Wifi oder 3G/4G/5G-Netzwerke.

Anwendungsbeispiel: Verfolgung und Identifizierung

Funktionale Drohnen verwenden visuelles Tracking, um sich selbst in ihrer Umgebung zu lokalisieren und auf der Grundlage ihrer definierten Flugroute durch den Raum zu navigieren. Das Tracking ermöglicht es Follow-Me-Drohnen, einem Menschen zu folgen oder alle Arten von Hindernissen zu umfliegen. Konkret nutzen Drohnen die 2D- oder 3D-Bilddaten eines Bildverarbeitungssystems, um ihre Umgebung und Objekte zu identifizieren. Anhand dieser Daten kann die Drohne sich selbst steuern, ihre Flugrichtung und Geschwindigkeit anpassen, landen, Objekten ausweichen und sie verfolgen. Die Bilddaten werden teilweise mit den Daten anderer Sensoren, wie z.B. IMUs, fusioniert, um eine genauere Posenschätzung über alle sechs Freiheitsgrade im dreidimensionalen Raum zu erhalten. Bei Tracking-Anwendungen ist die Bildqualität weniger wichtig, da das Bild direkt vom Prozessor ausgewertet wird und die Kamera im Wesentlichen als Sensor arbeitet.

Das Kamerasystem einer Drohne, das auf Tracking angewiesen ist, ist in der Regel tief in das Steuerungssystem der Drohne eingebettet und eher klein. Sensoren im 1/3-Zoll-Format mit einer Auflösung von bis zu 2 Megapixeln in Kombination mit M12-Objektiven stellen die maximalen Größenanforderungen dar. Sie sind mit komplexen SoC-Computerarchitekturen verbunden, die aus CPU, FPGA und ISP bestehen und viele Schnittstellen zu anderen Systemen an Bord der Drohne umfassen. Diese Komplexität muss bei der Berechnung der Entwicklungs- und Integrationszeit für ein neues Drohnendesign berücksichtigt werden.

„Um Bewegungsartefakte zu minimieren und die Präzision der Verfolgungsdaten zu maximieren, empfiehlt sich der Einsatz von Global-Shutter-Sensoren“, sagt Dr. Frederik Schönebeck. Zur schnellen und einfachen Erzeugung von 3D-Daten können Stereo-Vision-Kameras oder -Systeme sowie TOF-Sensoren (Time of Flight) verwendet werden. Die von diesen Geräten generierten Daten werden vom SoC automatisch ausgewertet, um selbstständig Folgeentscheidungen zu treffen. Da es bei Tracking-Drohnen nicht auf die Qualität des aufgenommenen Bildes ankommt, stellen sie in der Regel extreme Anforderungen in Bezug auf sehr geringe Größe, geringes Gewicht und niedrige Kosten.

Wie künstliche Intelligenz der Objekterkennung dient

Deep Learning-Algorithmen oder künstliche Intelligenz bieten mehr Sicherheit für Drohnen durch präzisere Kollisionsvermeidung und/oder ermöglichen die autonome Verfolgung von Objekten und Personen. Zur Kollisionsvermeidung muss die Drohne Hindernisse wie Mauern, Bäume oder andere Objekte selbstständig und in Echtzeit erkennen und präzise Ausweichmanöver durchführen. Bei Verfolgungsaufgaben erkennt die Drohne automatisch das Objekt von Interesse und kann ihm automatisch folgen.

Tracking-KIAbbildung 5: Künstliche Intelligenz hilft Drohnen, Objekte und Personen besser zu identifizieren

Für diese Aufgaben trainieren neuronale Netzwerke die Software, um Objekte zu erkennen. Mindestens 10.000 Bilder, manchmal bis zu mehreren Millionen, sind erforderlich, um zuverlässige Testdaten für das maschinelle Lernen auf einem Hochleistungscomputer wie einer GPU zu liefern. Die Ergebnisse dieser Berechnungen ermöglichen es den Objekterkennungsalgorithmen, auf einer kleinen, energieeffizienten Prozessorarchitektur, wie z.B. einem ASIC-Chip, zu laufen.

AI unterstützt Stereo Matching

Neuronale Netzwerke helfen nicht nur bei der Objekterkennung, sondern auch bei der eigentlichen Erstellung von Tiefeninformationen in einer 3D-Kamera und führen zu präziseren Ergebnissen.

Stereo-Vision-Methoden verwenden die Entfernungsbestimmung durch Triangulation zwischen zwei Kameras, um die 3D-Daten zu erzeugen. Diese Disparität wird durch Stereo-Matching von zwei entsprechenden Referenzpunkten im linken und rechten Bild berechnet. Die daraus resultierende „dichte Disparitätskarte“ enthält die dritte Dimension als Farbkodierung. Je kleiner die Disparität und je dunkler der jeweilige Punkt dargestellt ist, desto weiter ist er von der Kamera entfernt.

Beim Training mit neuronalen Netzwerken wird ein Bild, wie das linke, als Vergleichsdatensatz verwendet. Das rechte Bild dient als „Ground Truth“. Für den Stereoabgleich werden diese Trainingsdaten für die jeweilige Anwendung in Bezug auf Entfernung, Perspektive und Landschaft optimiert. Dadurch können die Kanten von Objekten robuster erkannt und sogenannte „fliegende Pixel“, d.h. Ausreißer in der Tiefenkarte, minimiert werden. Außerdem wird eine „Vertrauenskarte“ erstellt, die dabei hilft, die Qualität der erstellten Tiefeninformationen einzuschätzen und somit robustere Entscheidungen zu treffen.

Stereo-Matching-KI Abbildung 6: Neuronale Netzwerke helfen beim Stereo-Matching bei der exakten Erkennung von Kanten

Was Drohnenentwickler beachten müssen

Im Grunde kann man sagen: Jede Drohnenanwendung ist anders und erfordert ein einzigartiges und speziell optimiertes Kamerasystem. Es ist wichtig, den besten Kompromiss zwischen Bildqualität, Stromverbrauch, Rechenleistung, Größe und Gewicht zu finden. Insbesondere die gewünschte Bildqualität, die Empfindlichkeit gegenüber Bewegungsartefakten und die Auswahl des optimalen Sensors beeinflussen die Größe des Gesamtsystems. Dies gilt insbesondere für Drohnen, die auf eingebettete Bildverarbeitung setzen und deren Kameras tief in das elektronische Design der Drohne integriert sind. Schnittstellen zu anderen Drohnensystemen erhöhen die Komplexität der Architektur und verlängern die Design- und Integrationszeiten für neue Drohnenentwicklungen. Für die Steuerung der Drohne über Bilddaten in Echtzeit ist außerdem eine leistungsstarke On-Board-Verarbeitung erforderlich, die das Energiebudget belasten kann. Künstliche Intelligenz wie neuronale Netze verbessern die Präzision der autonomen Drohnensteuerung und Objekterkennung, so dass diese Algorithmen auf kleinen ASICs laufen können. In Anbetracht all dieser Faktoren muss ein Drohnenentwickler möglicherweise einen Kompromiss zwischen Leistung und Stromverbrauch oder Platzbedarf eingehen. Wenn Sie im Voraus alle Faktoren kennen, die das Design einer Drohne beeinflussen können, können Sie sicherstellen, dass die besten Entscheidungen getroffen werden, um die Kosten zu minimieren und gleichzeitig die Leistung zu maximieren. Lesen Sie unseren Artikel, in dem wir erklären, ob Sie ein Bildverarbeitungssystem bauen oder kaufen sollten.

Abbildung 1, 2, 3 und 4: (c) Sony Semiconductor Solutions – Abbildung 5: (c) Smolyanskiy et al. 2017 https://arxiv.org/abs/1705.02550