Fallstudie: Hochgeschwindigkeitskameras überwinden Barrieren für Echtzeit-Mixed-Reality

Entdecken Sie, wie das Live-Streaming-Unternehmen Condense Reality von Metaverse sein Mixed-Reality-System mit Emergent High-Speed ​​auf die nächste Stufe gebracht hat GigE-Kameras in seinem volumetrischen Erfassungssystem. Aufstrebende Produkte werden weitgehend in Metaverse-Sport-, Unterhaltungs- und Live-Event-Anwendungen eingesetzt.

Stellen Sie sich vor, Sie könnten während eines einmaligen Konzerts neben Ihrem Lieblingskünstler stehen – oder für jedes Spiel einen reservierten Sitzplatz an der 50-Yard-Linie haben oder die Chance haben, neben Starspielern „zulaufen“, während sie auf das Tor schießen eine Meisterschaft. Stellen Sie sich nun vor, Sie könnten diese Erfahrungen machen, während Sie in Ihrem Wohnzimmer sitzen, von einem anstrengenden Arbeitstag nach Hause fahren oder das neueste Multiplayer-Spiel spielen.

Sie-sind-da-Erlebnisse sind das, was immersive Medien mit Echtzeit-Mixed-Reality (MR) versprechen. Dieses neue Format verwendet volumetrische Videodaten, um dreidimensionale (3D) Bilder zu erstellen, wenn ein Ereignis eintritt (Abbildung 1). Darüber hinaus können mehrere Personen die Bilder auf verschiedenen Geräten aus verschiedenen Blickwinkeln betrachten.

Die Realität in 3D einzufangen ist schwierig

Medienunternehmen haben Technologieformate wie 360-Grad-Video, Virtual Reality (VR), Augmented Reality (AR) und MR frühzeitig eingesetzt.

Normal, im Gegensatz zu Echtzeit, mischt MR physische und digitale Objekte in 3D und wird normalerweise in speziellen Räumen mit grünen Bildschirmen und Hunderten von präzise kalibrierten Kameras produziert. Die Verarbeitung der riesigen Mengen an volumetrischen Daten, die in jeder Szene erfasst werden, erfordert Stunden oder sogar Tage an Postproduktionszeit.

Der Versuch, MR in Echtzeit durchzuführen, hat sich für Inhaltsentwickler als noch technisch und wirtschaftlich herausfordernder erwiesen und das Format bisher unpraktisch gemacht.

„Das Aufnehmen und Synchronisieren von hochauflösenden Videos mit hoher Bildrate von einer großen Anzahl von Kameras allein ist für uns einfach genug“, sagte John Ilett, CEO und Gründer von Emergent Vision Technologies, dem führenden Hersteller von Hochgeschwindigkeits-Bildgebungskameras . „Die Verarbeitung dieses Videos in Echtzeit an Live-Veranstaltungsorten hat in der Tat seine Herausforderungen.“

Fallstudie: Hochgeschwindigkeitskameras überwinden Barrieren für Echtzeit-Mixed-Reality – Condense-Reality

Abbildung 1: Condense Reality verwendet Hochgeschwindigkeits-GigE-Vision-Kameras von Emergent Vision Technologies, um immersive Mixed-Reality-Erlebnisse zu erzeugen.

Deep Learning braucht Unterstützung

Ein Startup dachte, es hätte eine Strategie zur Überwindung dieser Probleme. Condense Reality, ein Unternehmen für volumetrische Videos, hatte einen Plan, um Bilder aufzunehmen, Szenen zu rekonstruieren und MR-Inhalte mit mehreren Auflösungen auf Endbenutzergeräte zu streamen. Von Anfang bis Ende würde jeder Frame in einem Livestream nur Millisekunden dauern.

„Unsere Software berechnet die Größe und Form von Objekten in der Szene“, sagte Nick Fellingham, CEO von Condense Reality (Abbildung 2). „Wenn es Objekte gibt, die die Kameras nicht sehen können, verwendet die Software Deep Learning, um die Lücken zu füllen und zu verwerfen, was nicht benötigt wird, und streamt dann 3D-Bewegungsbilder auf Telefone, Tablets, Computer, Spielekonsolen, Headsets und Smart Fernseher und Brillen.“

Aber es gab einen Haken. Damit die Software in realen Anwendungen funktioniert, benötigte Fellingham eine hochauflösende Kamera mit hoher Bildrate, die die Ersteller von Inhalten problemlos in einem Sportstadion, Konzertort oder an einem entfernten Ort aufstellen können. Das Unternehmen testete Kameras, aber die Modelle verwendeten einen stark eingeschränkten Datendurchsatz und die Kabellänge zwischen den Kameras und der Datenverarbeitungseinheit des Systems. Um voranzukommen, benötigte Condense Reality eine Kamera in Broadcast-Qualität, die volumetrische Daten mit hoher Geschwindigkeit verarbeiten konnte.

Fallstudie: Hochgeschwindigkeitskameras überwinden Barrieren für Mixed Reality in Echtzeit – aM8et-b8-1024x576

Abbildung 2: Nick Fellingham, CEO von Condense Reality, steht in einem der volumetrischen Erfassungssysteme des Unternehmens.

Hochgeschwindigkeitskameras liefern

Im Jahr 2020 erfuhr Fellingham, dass Emergent Vision Technologies mehrere neue Kameras mit hochauflösenden Bildsensoren auf den Markt bringt. Diese Kameras enthalten Modelle mit SFP28-25GigE, QSFP28-50GigE und QSFP28-100GigE Schnittstellenoptionen, die alle Verkabelungsoptionen bieten, um jede beliebige Länge abzudecken.

„Unsere Kameras liefern hochwertige Bilder bei hohen Geschwindigkeiten und hohen Datenraten“, sagte Ilett. „Sie profitieren von Fortschritten in der Sensortechnologie und integrieren von uns entwickelte Firmware, damit die Kameras die volle Bildrate des Sensors erreichen können.“

Die Bilder in einem MR-Erlebnis sollten mit einer extrem hohen Bildrate und Auflösung aufgenommen werden. Mit den neuen Kameras konnte Fellingham ein wirtschaftlich tragfähiges System zusammenstellen. „Hochgeschwindigkeits-GigE-Kameras sind das, was wir brauchen, um die Daten schnell von den Kameras zu bekommen und zu streamen“, bemerkte er.

Hochgeschwindigkeitsaufnahmen sind besonders wichtig für den Sport, wo aufregende Action oft im wahrsten Sinne des Wortes im Handumdrehen stattfindet. Bei der Aufnahme eines Golfschwungs zum Beispiel „sieht“ eine Kamera mit einer Bildrate von 30 fps wahrscheinlich nur den Anfang und das Ende des Schwungs, was die Qualität des volumetrischen Inhalts erheblich verringert.

„Wir verwenden diese Kameras nicht zur Inspektion von Teilen in einer Fabrik; Wir verwenden sie, um Unterhaltungserlebnisse zu schaffen“, sagte Fellingham. „Wenn die Geschwindigkeit [fps] zunimmt, steigt die Qualität für schnelle Action, die von uns generierte Ausgabe ist besser und das Erlebnis verbessert sich insgesamt.“

Größere Fanggebiete sind am Horizont

Condense Reality dient als Systemintegrator für Kundenprojekte. Ein Standardsystem verwendet 32 ​​Kameras, einen Hochgeschwindigkeits-Netzwerk-Switch von Mellanox und eine einzelne Grafikverarbeitungseinheit (GPU) von NVIDIA, um eine Erfassung von 7 mal 7 Metern abzudecken. Das Unternehmen arbeitete mit Emergent Vision Technologies zusammen, um das optimale System für die volumetrische Erfassung zusammenzustellen.

„Wir möchten uns nicht unbedingt auf sehr spezifische Hardwarekonfigurationen festlegen, aber durch die Zusammenarbeit mit dem Emergent-Team und das Testen verschiedener Komponenten haben wir festgestellt, dass NVIDIA und Mellanox am besten für uns funktionieren“, sagte Fellingham.

Neben der Implementierung seiner Technologie arbeitet das Unternehmen daran, den Erfassungsbereich für MR zu vergrößern und gleichzeitig Durchsatz und Qualität aufrechtzuerhalten.

„Wenn ein Bereich größer als 10 mal 10 Meter wird, reichen 4K-Kameras nicht aus“, sagte Fellingham. „Wenn sich unsere Algorithmen verbessern, werden wir größer.“

Die neuen Kameras von Emergent Vision Technologies sind ein wesentlicher Bestandteil dieser Arbeit. Mit unterstützenden Models Bis zu 600 fps Bei einer Auflösung von 5120 x 4096 und Schnittstellenoptionen von bis zu 100 GigE musste sich Fellingham keine Gedanken über Obergrenzen bei Kameraauflösung, Datenraten oder Bildraten machen. Diese Vorteile bedeuten, dass Condense Reality gut positioniert ist, um noch bessere Inhalte und Benutzererfahrungen zu liefern.

Software: Die geheime Sauce

Die Software von Condense Reality ist ein vollständig proprietäres Angebot, das ein 3D-Netz aus Hunderttausenden von Polygonen erstellt. Die auf einem Objekt platzierten Knoten stellen die Oberfläche des erfassten Objekts dar. Dann „malt“ die Software das Netz mit den von den Kameras erfassten Daten. Diese Daten verwenden dann Deep Learning, um die Teile des Objekts zu schätzen, die die Kameras nicht erfasst haben. Komprimierungsalgorithmen reduzieren das Mesh dann für jeden Frame auf eine möglichst kleine Größe, sagte Fellingham.

„Die Software nimmt all diese Daten und wandelt sie in einem extrem schnellen Tempo in ein 3D-Modell um, und das kann sie nur dank gut optimierter Algorithmen, neuronaler Netze und der NVIDIA-GPUs“, sagte er. „Während die meisten neuronalen Netze auf TensorFlow basieren, müssen einige von denen, die wir im System verwenden, sehr schnell laufen, also sind sie direkt für die GPU geschrieben.“

Er fügte hinzu: „Unsere neuronalen Netze lösen sehr spezifische Probleme, was bei der Optimierung auf Geschwindigkeit hilft. Wir setzen keine riesige Blackbox ein, die eine Menge Inferenzen durchführt, da dies sehr schwer zu optimieren wäre.“

Um den Vorgang abzuschließen, werden Daten an die Cloud-basierte Verteilungsplattform von Condense Reality gesendet, die die Daten nimmt und sie in eine variable Bitrate bringt, sodass der Stream je nach Benutzergerät unterschiedlich ist. Die Wiedergabe erfolgt innerhalb einer Spiel-Engine, die es Kunden ermöglicht, benutzerdefinierte Erlebnisse, die VR oder AR sein können, um das volumetrische Video herum zu erstellen. Da Condense Reality-Systeme Game-Engines unterstützen, können ihre Inhalte auch in bestehende Spielwelten anderer Unternehmen gestreamt werden. Derzeit unterstützt die Software Unity- und Unreal-Game-Engines, aber das Unternehmen plant, Plug-Ins für seine Software für alle neuen Game-Engines zu entwickeln, die in Zukunft auftauchen.

„Diese Engines können kaum noch als Game-Engines bezeichnet werden, da sie wirklich interaktive 3D-Tools sind“, sagte Fellingham. „Wir leiten die Inhalte aus der realen Welt in diese Tools weiter, um Kunden fotorealistische interaktive 3D-Erlebnisse zu bieten.“

FÜR WEITERE INFORMATIONEN

Hochgeschwindigkeitskameras von Emergent Vision Technologies:

https://emergentvisiontec.com/area-scan-cameras/

Realität verdichten:

https://www.condensereality.com/