Parallele Datenverarbeitung

Parallele Echtzeit-Datenverarbeitung und -reduktion für breitbandige Sensordatenströme

Parallele Echtzeit-Datenverarbeitung und -reduktion für breitbandige Sensordatenströme – Projekte

Ein bildgebendes Echtzeit-Prozess-Analyse-System zur simultanen Erfassung von Charakteristika in Sprühprozessen – DFG SPP 1423

In Sprühverfahren werden Elementarprozesse, wie beispielsweise Transport und Verfestigung, von einer Vielzahl von Parametern wie der Geschwindigkeit, Verteilung und Größe der Tröpfchen bzw. Partikel sowie der Abnahme der Tröpfchengröße durch Verdunstung, etc. beeinflusst. Ziel dieses Projektes ist die bildgebende Beobachtung der Prozesse auf Basis dieser Parameter, um eine Analyse und Kontrolle bzw. Regelung der Elementarprozesse zu erreichen. Die bildgebende Analyse soll online und mit möglichst hohen Frameraten auf einer hochperformanten parallelen Hardware-Architektur unter Verwendung von Field Programmable Gate Arrays (FPGAs) erfolgen, um eine schnelle, ortsaufgelöste Erfassung der Messgrößen zu ermöglichen. Die parallele Hardware basiert auf rekonfigurierbarer Logik, mit Hilfe derer eine hinreichende Performance für die Architekturen und Auswertealgorithmen des Echtzeit-Prozess-Analyse-Systems erreicht werden soll. Der Architektur-Ansatz soll verallgemeinert für eine Vielzahl von Fragestellungen verwendbar sein.

Das Echtzeit-Prozess-Analyse-System basiert auf der Echtzeit-Auswertung von Schattenbildern mit 1 000 bis 10 000 Bildern/s, siehe Abbildungen unten. Zur Auswertung müssen auf den Pixel-Daten der Bilder die Objekte in den Schattenbildern wie Tropfen oder Fäden erkannt werden. Dazu müssen die Pixel eines Objekts, die sog. Zusammenhangskomponenten, erkannt werden. Die Ermittlung der Zusammenhangskomponenten in Bildern (engl. Connected Component Analysis, CCA) ist ein gängiger Schritt in der Bildverarbeitung, bei dem Merkmale wie Fläche oder Größe von beliebig geformten Objekten in einem Binärbild extrahiert werden. Sie basiert auf der Identifikation verbundener Komponenten (Connected Component Labeling, CCL), die ein beschriftetes Bild mit denselben Abmessungen wie das Originalbild erzeugt, in dem allen Pixeln jeder verbundenen Komponente eine eindeutiger Label zugewiesen wird. CCA befasst sich dagegen mit der Ableitung des Merkmalsvektors für jede zusammenhängende Komponente aus dem binären Eingangsbild und gibt kein gelabeltes Bild aus. CCA und CCL sind wichtige Algorithmen in Computer Vision und der Robotik. Zunehmende Bildauflösungen jenseits von High Definition (HD) in der Unterhaltungselektronik und Bildraten über 100 Bilder/s in der schnellen Bildgebung erfordern leistungsfähige Hardware-Architekturen. CCA wird auch bei der Bildsegmentierung und bei der Auswertung von Videoüberwachungsaufnahmen eingesetzt. Für CCA wurden in der jüngsten Vergangenheit eine Reihe von optimierten Hardware-Architekturen und Software-Implementierungen vorgeschlagen, alle mit dem Ziel, Leistungsengpässe aufgrund von Speicherressourcen oder Speicherbandbreite zu vermeiden. Bei Hardware-CCA-Architekturen sind die erforderlichen Ressourcen proportional zur Bildauflösung. Dies wirkt sich direkt auf den Durchsatz aus, der mit einer bestimmten Architektur oder Prozesstechnologie erreicht werden kann. Jede Verringerung der benötigten Hardware-Ressourcen ermöglicht eine bessere Leistung bei gleicher Technologie oder den Wechsel zu einer energieeffizienteren oder kostengünstigeren Hardware.

Mit dem bildgebenden Echtzeit-Prozess-Analyse-System (Teilbild rechts unten) wurden in den Schattenbildern die Tröpfchengrößen und Fadenlängen bei 1 000 bis 10 000 Bildern/s bestimmt.

Dargestellt ist die Hardware-Plattform des Echtzeit-Prozess-Analyse-System, die auf leistungsfähigen FPGA-Boards – integriert in das Sensorsystem und angebunden an den schnellsten kommerziell beschaffbaren CMOS Bildsensor – basiert. Mit diesem System werden in verschiedenen Projekten neuartige Hardware-Architekturen zur Auswertung von Bilddatenströmen in Echtzeit evaluiert. Es können Sensordatenströme von über 1GB/s in Echtzeit verarbeitet werden.

In dem Projekt wurde eine ressourceneffiziente Hardware-Architektur für die Connected-Component-Analyse (CCA) von gestreamten Videodaten entwickelt, die die erforderlichen Hardware-Ressourcen insbesondere bei größeren Bildbreiten reduziert. Der On-Chip-Speicherbedarf steigt mit der Bildbreite und dominiert die Ressourcen moderner CCA-Single-Pass-Hardware-Architekturen. Eine Reduzierung der On-Chip-Speicherressourcen ist unabdingbar, um die ständig wachsenden Bildgrößen der High-Definition (HD)- und Ultra-HD-Standards zu erfüllen. Die vorgeschlagene Architektur ist aufgrund mehrerer Innovationen ressourceneffizient. Ein verbessertes Label-Recycling-Schema erkennt das letzte Pixel eines Bildobjekts im Videostrom nur wenige Taktzyklen nach dessen Auftreten und ermöglicht die Wiederverwendung eines Labels in der folgenden Bildzeile. Die koordinierte Anwendung dieser Techniken führt zu signifikanten Speichereinsparungen von mehr als zwei Größenordnungen im Vergleich zu klassischen Architekturen für die Beschriftung verbundener Komponenten in zwei Durchgängen durch das Bild (Two-Pass). Verglichen mit der speichereffizientesten modernen Single-Pass-CCA-Hardwarearchitektur werden je nach den extrahierten Merkmalen 42 % oder mehr der On-Chip-Speicherressourcen eingespart. Auf der Grundlage dieser Einsparungen ist es möglich, eine Architektur zu realisieren, die Videoströme größerer Bildgrößen verarbeitet, einen kleineren und energieeffizienteren feldprogrammierbaren Gate-Array-Baustein zu verwenden oder die Funktionalität bereits vorhandener Bildverarbeitungspipelines in rekonfigurierbaren Rechnern und eingebetteten Systemen zu erhöhen. Darüberhinausgehende Weiterentwicklungen dieser CCA-Hardware-Architektur sind in den folgenden Publikationen thematisiert.

Publikationen
  1. M. Klaiber, D.G. Bailey, S. Simon, Comparative Study and Proof of Single-pass Connected Components Algorithms, Journal of Mathematical Imaging and Vision, 61(8), 2019, pp. 1112-1134
  2. M. Klaiber, D. Bailey, S. Simon, A Single-Cycle Parallel Multi-Slice Connected Components Analysis Hardware Architecture, Journal of Real-Time Processing, 2016, pp. 1-11
  3. M. Klaiber, D.G. Bailey, Y. Baroud, S. Simon, A Resource-Efficient Hardware Architecture for Connected Components Analysis, Journal, IEEE Transactions on Circuits and Systems for Video Technology, 2016, pp. 1334-1349
  4. G. Dessouky, M. Klaiber, D. Bailey, S. Simon, Adaptive Dynamic On-chip Memory Management for FPGA-based Reconfigurable Architectures, 24th International Conference on Field Programmable Logic and Applications (FPL), 2014, pp. 1-8
  5. M. Klaiber, S. Ahmed, M. Najmabadi, Y.Baroud, W. Li, S. Simon, Imaging Sensor with Integrated Feature Extraction Using Connected Component Labeling, Proceedings SENSOR 2013, Nuremberg, 2013, pp. 426-431
  6. M. Klaiber, D.G. Bailey, S. Ahmed, Y. Baroud, S. Simon, A high-throughput FPGA architecture for parallel connected components analysis based on label reuse, 2013 International Conference on Field-Programmable Technology (FPT), 2013, pp. 302-305
  7. M. Klaiber, L. Rockstroh, Z. Wang; Y. Baroud, S. Simon, A Memory-Efficient Parallel Single Pass Architecture for Connected Component Labeling of Streamed Images, 2012 International Conference on Field-Programmable Technology (FPT), 2012, pp. 159-165

Untersuchung des Einflusses von Transportprozessen auf chemische Reaktionen in Blasenströmungen durch raumaufgelöste In-situ-Analytik und simultane Charakterisierung der Blasendynamik in Echtzeit – DFG SPP 1740

In einem Kooperationsprojekt mit dem Karlsruher Institut of Technology (KIT) wurde das Echtzeit-Prozess-Analyse-System zum Einsatz in Blasensäulen weiterentwickelt. Blasenströmungen werden intensiv in der chemischen Industrie verwendet. Die komplexe Wechselwirkung zwischen Strömungsdynamik, Massentransport und den chemischen Reaktionen ist bisher jedoch nicht verstanden. Deshalb wurde im Rahmen des DFG SPP 1740 zwei in-situ Echtzeit-Prozess-Analyse-Systeme entwickelt, die der Untersuchung von Konzentrationsprofilen um Blasen im Taylor-Flow und in Blasensäulen dienen. Das erste System verwendet Laser-Raman-Spektroskopie in Kombination mit digitaler Echtzeit-Holografie. Der Raman-Teil des Systems basiert auf einem speziellen gepulsten Hochenergielaser. Mit diesem Prozessanalysesystem ist es möglich, die Konzentrationen vieler chemischer Verbindungen selektiv zu messen, und zwar mit einer räumlichen Auflösung im Mikrometerbereich während eines 10-µs-Laserpulses. Aufgrund der beiden kombinierten Prinzipien ist die Bestimmung der Position einer gemessenen lokalen Konzentration relativ zur Gasblase möglich und wurde demonstriert.

Das zweite Echtzeit-Prozessanalysesystem ist speziell für farbige chemische Reaktionen geeignet. Das System basiert auf Echtzeit-UV/VIS-2D-Tomographie, so dass mit der Zeit die dritte Dimension eines 3D-Konzentrationsprofils im Blasennachlauf bestimmt werden kann. Es besteht aus schnellen Zeilensensoren mit Datenraten über 20Gbit/s, die von einem Laser Light Sheet beleuchtet werden. Dieses Laser Light Sheet stammt von einem Laserpunkt, der sich wiederholt um ein Drittel der Blasensäule bewegt. Dieses System ist sowohl für frei aufsteigende Einzelblasen als auch für Blasenströmungen in Blasensäulen anwendbar. Da die Projektionsbilder eingeschränkten Winkelbereichen unterliegen entstehen bei der tomographischen Rekonstruktion Artefakte. Diese Artefakte werden mit einem neuronalen Netz in Echtzeit kompensiert.

Darstellung der Artefakt-Kompensation in Echtzeit auf Basis eines neuronalen Netzes für die UV/VIS Tomographie

Weiterführende Informationen zu dem Projekt finden sich in der folgenden Publikation:

J. Guhathakurta, D. Schurr, G. Rinke, D. Grottke, M, Kraut, R. Dittmeyer, S. Simon, Investigation of the Influence of Transport Processes on Chemical Reactions in Bubbly Flows Using Space-Resolved In Situ Analytics and Simultaneous Characterization of Bubble Dynamics in Real-Time, Reactive Bubbly Flows, Springer, ISBN 978-3-030-72360-6, 2021, pp. 163–196

Verlustleistungsminimierung von anwendungsspezifischen Prozessoren DFG – Projekt 5469638

Ziel des Projektes ist die Untersuchung und Ableitung geeigneter VLSI Architekturen zur Verlustleistungsreduktion anwendungsspezifischer Prozessoren auf dem Gebiet der digitalen Signalverarbeitung (DSP). Mit den Ergebnissen der geplanten Arbeiten sollen Entwurfsregeln für verlustleistungsarme Prozessoren erarbeitet werden, so dass Architekturentscheidungen bezüglich Verlustleistungsminimierung schon früh in der Entwurfsphase ohne Simulation gefällt werden können. Dazu sollen neben verschiedenen Typen von Architekturtransformationen, auch verschiedene Ebenen des Entwurfs (Architektur, Software) berücksichtigt werden. Bezüglich der Architekturtransformationen sollen insbesondere solche untersucht werden, die erfolgreich für parallele Implementierungen der Signalverarbeitungsalgorithmen verwendet wurden, und bisher bei Prozessorarchitekturen nicht eingesetzt wurden. Beispielsweise wird bei der Architekturentwicklung Interleaving (zur Verarbeitung von Datenströmen mehrerer Kanäle) für effiziente Implementierungen bei parallelen Realisierungen jedoch bisher nicht bei Realisierungen auf Prozessoren verwendet, da dazu anwendungsspezifische Eigenschaften der Problemstellung genutzt werden müssen. Anwendungsspezifische Prozessoren stellen auch in diesem Zusammenhang ein noch weiter zu bearbeitendes Forschungsgebiet dar, das im Zusammenhang mit Verlustleistungsminimierung Gegenstand der geplanten Arbeiten sein soll.

Entwurf und Implementierung verlustleistungsarmer Architekturen von digitalen Filtern für Software Defined Radio – DFG Projekt 5469638

Ziel des Projektes ist die Erforschung eines Konzeptes für den Entwurf und die Implementierung verlustleistungsarmer Filter für Software Defined Radio (SDR). Zum einen sollen dabei verlustleistungsarme digitale Filter-Architekturen abgeleitet werden, die für die Interpolations- und Dezimationsfilter der Sigma-Delta-Wandler und für die Implusformung für SDR-Konzepte unverzichtbarer Bestandteil sind. Insbesondere sollen Möglichkeiten zur Verlustleistungseinsparung, durch eine asymmetrische Aufteilung der Rechenleistung zwischen dem mobilen Teilnehmer, dessen Verlustleistung besonders relevant ist, und der ortsfesten Basisstation für die Filter zur Impulsformung berücksichtigt werden. In diesem Kontext soll nach passenden Implementierungsvarianten gesucht werden, die niedrige Verlustleistung und die von SDR geforderte Flexibilität aufweisen. Dafür ermöglichen Embedded Application Specific Instruction Set Processors (ASIPs) die Flexibilität aufgrund der Filter-Implementierung in Software und gleichzeitig eine reduzierte Verlustleistung durch die Architekturanpassung an die Problemstellung gegenüber General-Purpose-Prozessoren. Besonderes Augenmerk soll bei diesen Untersuchungen auf die Implementierung des Datentransports und der Arithmetik-Komponenten gelegt werden, deren Verlustleistung durch Optimierung hinsichtlich der Anwendung gesenkt werden soll.

Messverfahren zur In-Prozess-Charakterisierung optisch erzeugter Sub-100-nm-Strukturen – DFG Projekt 80176971

Es soll das erfolgreiche Konzept der Entwicklung von In-Prozess- Messverfahren für Sub-100-nm-Strukturen auf Basis von rigorosen Streulicht-Simulationen fortgeführt werden. Neben der Weiterentwicklung der Simulations- und Auswerteverfahren liegt das Hauptaugenmerk nun auf der praktischen Applikation der Messverfahren bei verschiedenen Partnern innerhalb und außerhalb des Schwerpunktprogramms. Um vom breiten Spektrum der Anwendungen ausgehend zu einer allgemein gültigen Entwicklungs-Methodik für Streulicht- Messverfahren zu gelangen, wird diese Aufgabe in mehreren Stufen umgesetzt. Zunächst werden geeignete Algorithmen zur schnelle Streulicht-Simulation identifiziert, die sich mittels Field Programmable Gate Arrays (FPGAs) in eine hochparallele Hardware-Architektur umsetzen lassen. Auf Basis dieses Architektur-Ansatzes wird eine Hardware-Beschleuniger für die typischerweise sehr rechenzeitaufwändige Streulichtsimulation realisiert. In vielen technischen Anwendungen (z.B. plasmonische Schichten oder ZnO-LEDs) bedecken Nanostrukturen statistisch und homogen verteilt die gesamte Oberfläche. Zu detektierende Prozessabweichungen in Bezug auf diese Nanostrukturen wirken sich auf das gesamte Streulichtmuster aus und sind daher mit einer überschaubaren Anzahl von Simulationen zu identifizieren sowie messtechnisch nachzuweisen.

Modellierung kohärenter Streulicht-Messprozesse für deterministische Nanostrukturen und stochastische Oberflächendefekte im Mikrometerbereich - DFG Projekt 5436153

Laser-optische Streulicht-Messverfahren charakterisieren stochastisch raue Oberflächen im Bereich von Ra = 1 nm bis Ra = 5.000 nm. Oberflächendefekte, periodische Strukturen und große Aspektverhältnisse (Leiterbahnen, Gräben, Einschnitte, etc.) beeinflussen die Streulichtverteilung. Insbesondere im Fall von Mikrobauteilen sind die zu charakterisierenden Oberflächen-Areale oft kleiner als das Gesichtsfeld bisher realisierter Streulicht-Messsysteme und typischerweise nanostrukturiert. Eine Charakterisierung mit konventioneller Bildauswertung der Streulichtverteilung ist in solchen Fällen nicht mehr möglich. Dennoch enthält jede Beugungs- und Streulichtverteilung generell alle Informationen über die zugehörige Oberflächen-Topografie, so dass neue Auswerte-Algorithmen entworfen werden sollen. Das Ziel dieses Projekts besteht darin, speziell im Sub-Wellenlängenbereich (1 nm 300 nm) durch Modellbetrachtungen analytische Zusammenhänge zwischen charakteristischen Streulicht-Effekten und Topografie-Merkmalen für Mikrosysteme und Nanostrukturen herzustellen. Hierzu werden geeignete virtuelle Oberflächen- und Streulicht-Modelle sowie Auswerte-Algorithmen zur Simulation von Messabläufen entwickelt und miteinander kombiniert. Die Forschungsergebnisse bilden die Grundlage, um Mikrobauteile mit Strukturen im Nanometerbereich später fertigungsgerecht prüfen zu können, d.h. flächenhaft, berührungslos und hinreichend schnell, so dass eine Reaktion z.B. bei der Überwachung von laufenden Fertigungsprozessen (Echtzeitfähigkeit des Messsystems) möglich ist.

Zum Seitenanfang