Eine Anwendung eines Stereo-Matching-Algorithmus basierend auf Transferlernen bei Robotern in mehreren Szenen

Scientific Reports Band 13, Artikelnummer: 12739 (2023) Diesen Artikel zitieren

3 Altmetrisch

Details zu den Metriken

Die auf binokularem Sehen basierende Roboter-Vision-Technologie birgt ein enormes Entwicklungspotenzial in verschiedenen Bereichen, darunter 3D-Szenenrekonstruktion, Zielerkennung und autonomes Fahren. Aktuelle binokulare Sehmethoden, die in der Robotertechnik eingesetzt werden, weisen jedoch Einschränkungen auf, wie z. B. hohe Kosten, komplexe Algorithmen und geringe Zuverlässigkeit der generierten Disparitätskarte in verschiedenen Szenen. Um diese Herausforderungen zu bewältigen, wurde in diesem Artikel ein domänenübergreifender Stereo-Matching-Algorithmus für binokulares Sehen basierend auf Transfer-Learning mit dem Namen Cross-Domain Adaptation and Transfer Learning Network (Ct-Net) vorgeschlagen, der in mehreren Roboterszenen wertvolle Ergebnisse gezeigt hat. In diesem Artikel wird zunächst ein General Feature Extractor vorgestellt, um umfangreiche allgemeine Feature-Informationen für domänenadaptive Stereo-Matching-Aufgaben zu extrahieren. Anschließend wird ein Feature-Adapter verwendet, um die allgemeinen Features an das Stereo-Matching-Netzwerk anzupassen. Darüber hinaus wurde ein Modul zur domänenadaptiven Kostenoptimierung entwickelt, um die Matching-Kosten zu optimieren. Außerdem wurde ein Modul zur Vorhersage der Disparitätsbewertung eingebettet, um den Suchbereich der Disparität adaptiv anzupassen und die Kostenverteilung zu optimieren. Das Gesamtgerüst wurde mithilfe einer Phasenstrategie trainiert, und es wurden Ablationsexperimente durchgeführt, um die Wirksamkeit der Trainingsstrategie zu überprüfen. Im Vergleich zum PSMNet-Prototyp verringerte sich beim KITTI 2015-Benchmark der 3PE-fg von Ct-Net in allen Regionen und nicht abgedeckten Regionen um 19,3 bzw. 21,1 %, während der vorgeschlagene Algorithmus im Middlebury-Datensatz die Stichprobenfehlerrate verbessert mindestens 28,4 %, was der Staircase-Stichprobe entspricht. Die quantitativen und qualitativen Ergebnisse aus Middlebury-, Apollo- und anderen Datensätzen zeigen, dass Ct-Net die domänenübergreifende Leistung des Stereo-Matchings erheblich verbessert. Stereo-Matching-Experimente in realen Szenen haben gezeigt, dass visuelle Aufgaben in mehreren Szenen effektiv gelöst werden können.

In den letzten Jahren haben sich Roboter zu unverzichtbaren Assistenten in verschiedenen Bereichen entwickelt, unter anderem bei der 3D-Szenenrekonstruktion, der Zielerkennung und dem autonomen Fahren. Die allgegenwärtige Anwendung der Robotertechnologie in verschiedenen Branchen hat zu ihrer integralen Rolle im modernen Leben beigetragen. Computer Vision, eine Technologie, die das menschliche visuelle System nachahmt und gesammelte Bildinformationen in Zieldisparitätsinformationen umwandelt, spielt eine entscheidende Rolle bei der Unterstützung von Robotern bei der Erfüllung ihrer Aufgaben. Derzeit sind die meisten Roboter auf kostspielige Laserradargeräte angewiesen, um hochpräzise Disparitätsinformationen zu erhalten. Allerdings wird das Prinzip des binokularen Sehens, das die Art und Weise des Menschen, Objekte zu beobachten, weitgehend nachahmt, bei zahlreichen Sehaufgaben häufig genutzt. Der binokulare Stereo-Matching-Algorithmus, ein grundlegender Bestandteil der binokularen Sehtheorie, hat direkten Einfluss auf die Genauigkeit der Zielerkennung eines Roboters. Durch den Einsatz der Theorie des binokularen Sehens kann der Roboter zweidimensionale Informationen in dreidimensionale Informationen der Zielszene umwandeln und so präzise Informationen über die Zielszene erhalten.

Stereo-Matching-Algorithmen sind für das Verständnis von 3D-Szenen und deren Rekonstruktion von entscheidender Bedeutung und werden häufig in verschiedenen Bereichen eingesetzt, darunter Roboternavigation1, autonomes Fahren2, virtuelle Realität3 und viele andere. Ziel dieser Algorithmen ist es, Disparitäten zu berechnen, die die horizontale Verschiebung entsprechender Pixel in zwei gleichgerichteten Stereopaaren darstellen. Herkömmliche Methoden stützen sich oft auf Vorkenntnisse des Bildes, um eine Stereo-Matching-Funktion zu erstellen, die die Generierung einer dichten Disparitätskarte4 ermöglicht.

Derzeit werden Convolutional Neural Networks (CNNs) aufgrund ihrer leistungsstarken Funktionen zur Merkmalsdarstellung, einschließlich Objekterkennung5, Bildklassifizierung6 und mehr, häufig bei verschiedenen Sehaufgaben eingesetzt. In den letzten Jahren haben auf CNN basierende überwachte Stereo-Matching-Algorithmen die Leistung des Stereo-Matchings erheblich verbessert und sind zur aktuellen Mainstream-Forschungsrichtung geworden. Zu den Hauptschritten des überwachten Stereo-Matching-Algorithmus auf CNN-Basis gehören Merkmalsextraktion, Kostenkonstruktion und Kostenoptimierung.

Die vorhandenen CNN-basierten Stereo-Matching-Algorithmen sind jedoch in erster Linie für Modelle mit fester Struktur auf bestimmten Datensätzen konzipiert, während das Problem des domänenadaptiven Stereo-Matchings von Forschern nur begrenzte Aufmerksamkeit erhalten hat. Darüber hinaus konzentrierten sich frühere Studien typischerweise auf den Erhalt von Netzwerkparametern durch umfangreiches Training mit großen Chargen und ließen die Erforschung alternativer Trainingsstrategien außer Acht. Kendall et al. waren die ersten, die vorschlugen, Merkmale über die ResNet7-Struktur zu erhalten und Disparitätskarten durchgängig zu erhalten. Das in DANet8 entwickelte Domänenanpassungsmodul trägt dazu bei, die Domänenverschiebung zu reduzieren. Um die Stereo-Matching-Leistung zu verbessern, enthält SegStereo9 einen separat trainierbaren semantischen Zweig, der Disparitätskanteninformationen für den Stereo-Matching bereitstellt. Der Optimierungszweig dieser Methode verwendet einen zweistufigen Trainingsprozess, um redundante Informationen zu eliminieren und übereinstimmende Informationen in verketteten Volumina zu verstärken10. Nlca-net11 bietet einen Bootstrap-Zweig zur Optimierung der Disparitätsergebnisse. In Arbeit12 wird ein semantischer Segmentierungszweig vorgeschlagen, um zusätzliche semantische Informationen in Stereo-Matching-Aufgaben zu integrieren. PGNet13 schlug ein panoptisches Analyse-gesteuertes tiefes Netzwerk vor, um die Stereo-Matching-Aufgabe zu lösen. Zur Optimierung der Kostenverteilung wird ein kaskadierendes Fusionskostenvolumen vorgeschlagen14. Rao et al.15 verbesserten die Stereo-Matching-Leistung eines vorhandenen Modells durch die Implementierung einer neuen Trainingsstrategie während der Umschulung. Sang et al.16 schlugen ein Modul zur Bündelung der Aufmerksamkeit in einer räumlichen Pyramide vor, um schlecht gelegene Bereiche anzusprechen und die Details von Disparitätskarten durch die Erfassung von Kontextinformationen in mehreren Maßstäben zu verbessern. Die oben genannten Methoden verbessern die Stereo-Matching-Leistung, indem sie die Struktur und Trainingsstrategie des Modells optimieren.

Wir stellen ein neuartiges Stereo-Matching-Netzwerk vor, das Transferlernen und eine maßgeschneiderte Trainingsstrategie zur Optimierung des Modells nutzt. Zunächst wählen wir ein Prototyp-Netzwerk aus, um eine verbesserte Parameterinitialisierung für die Stereo-Matching-Aufgabe bereitzustellen. Um das Problem des unzureichenden Lernens von Merkmalen anzugehen, verwenden wir als Nächstes ein vorab trainiertes Modell für große Datensätze, um allgemeine Merkmale zu extrahieren. Diese Merkmale werden dann gefiltert, um Kostenvolumina zu erstellen, die die Ähnlichkeit zwischen Stereopaaren erfassen. Darüber hinaus trainieren wir einen Feature-Adapter, um die Screening-Fähigkeit von Features für Stereo-Matching zu verbessern und so die Interferenz durch nicht-stereo-Matching-Lernparameter zu minimieren. Im Gegensatz zu bestehenden Algorithmen, die für die Kostenkonstruktion auf Einzelskalenfunktionen basieren, beinhaltet unser Ansatz ein domänenadaptives Kostenoptimierungsmodul, das das ursprüngliche Modul im Prototyp ersetzt. Um die Kostenvolumina weiter zu verfeinern, passen wir außerdem den Disparitätsbereich an. Schließlich erhalten wir die endgültige Disparitätskarte durch eine Regressionsmethode. Zusammenfassend gibt es in unserem Artikel drei Beiträge:

Es wird ein domänenadaptives Stereo-Matching-Modell für Roboter vorgeschlagen, das die Stereo-Matching-Leistung durch die Übertragung allgemeiner Merkmale optimiert. Experimente, die mit mehreren Datensätzen und realen Szenen durchgeführt wurden, zeigen, dass das Modell in verschiedenen Bereichen eine bemerkenswerte Wirksamkeit aufweist.

Um allgemeine Merkmalsinformationen zu erfassen, wird ein aufgepfropfter Merkmalsextraktor eingeführt und mithilfe eines Merkmalsadapters an das Netzwerk angepasst. Darüber hinaus wird ein adaptives Kostenoptimierungsmodul eingeführt und ein Disparitätsbewertungsvorhersagemodul soll den Disparitätssuchbereich adaptiv anpassen, um die Kostenverteilung zu optimieren.

Es wird eine Trainingsstrategie zum Trainieren des Prototyps, des Feature-Adapters und des domänenadaptiven Kostenoptimierungsmoduls vorgeschlagen, die eine bessere phasenweise Parameterinitialisierung und schrittweise Aktualisierung der Netzwerkparameter ermöglicht. Darüber hinaus wird in diesem Artikel die Trainingsstrategie des Stereo-Matchings untersucht.

Der Aufsatz ist wie folgt aufgebaut. Der Abschnitt „Verwandte Arbeiten“ präsentiert den relevanten Hintergrund des Stereo-Matchings und stellt verwandte Arbeiten zu traditionellen und Deep-Learning-basierten Algorithmen für das Stereo-Matching vor. Die Implementierungsdetails des vorgeschlagenen Modells (Ct-Net) werden in Abschnitt vorgestellt. "Vorgeschlagene Methode". Der Abschnitt „Experimentelle Ergebnisse und Diskussionen“ enthält Einzelheiten zu den verwendeten Datensätzen, experimentellen Ergebnissen und Diskussionen. Abschließend schließt die Arbeit mit einer Zusammenfassung und einem Fazit in Abschn. "Abschluss".

Bisher sind Roboter in verschiedenen Bereichen weit verbreitet und haben unbestreitbar eine Rolle gespielt. Shankar et al.17 schlugen ein passives Stereo-Tiefensystem bestehend aus CNN und einem Sensor vor, das den Arbeitsbereich des Roboters sicherstellen soll. Die vorgeschlagene Methode wurde an mehreren Szenen getestet und zeigte eine effektive Anwendung für Heimroboter. Yang et al.18 schlugen einen probabilistischen Rahmen für Robotersysteme zur Rekonstruktion von Bin-Szenen vor, die aktive Stereokameradaten nutzen. Lajoie et al.19 präsentierten das Swarm-SLAM-System zur kollaborativen gleichzeitigen Lokalisierung und Kartierung, das effektiv auf die Schwarmrobotik angewendet werden kann. Yang et al.20 schlugen ein CNN-basiertes Binokular-Vision-Self-Inpainting-Netzwerk für Echtzeit-Stereobild-Inpainting autonomer Roboter vor und erreichten damit eine hochmoderne Leistung beim Bild-Inpainting. Shim et al.21 schlugen einen Inspektionsroboter und ein Managementsystem vor, das Stereovision nutzt, um Schäden auf Betonoberflächen zu untersuchen. Obasekore et al.22 haben einen Erkennungsalgorithmus entwickelt, der ein CNN-basiertes binokulares Sichtsystem in ihrem Agrarroboter nutzt, um frühe Entwicklungsstadien von Schädlingen in der Landwirtschaft zu erkennen. In ähnlicher Weise schlugen Xiang et al.23 einen feldbasierten Roboter vor, der binokulares Sehen und CNN nutzt, um den Blattwinkel von Maispflanzen zu erkennen und zu charakterisieren.

Stereo-Matching ist eine Technik, die die Wiederherstellung von Tiefeninformationen aus Stereobildern ermöglicht. Durch die Simulation des Prinzips der visuellen Wahrnehmung des menschlichen Auges sind nur zwei Digitalkameras erforderlich, die auf derselben horizontalen Linie platziert sind. Der Hauptprozess des Stereo-Matchings umfasst die Bildvorverarbeitung, die Matching-Kostenkonstruktion, die Kostenaggregation und die Disparitätserfassung. Disparität, die sich auf die horizontale Verschiebung räumlicher Punkte in Stereopaaren bezieht, wird durch Stereo-Matching erreicht. Das Ziel der Stereo-Matching-Aufgabe besteht darin, aus einem Paar korrigierter binokularer Bilder eine genaue Disparitätskarte zu erhalten.

Zu den herkömmlichen Stereo-Matching-Algorithmen gehören lokale Algorithmen, globale Algorithmen und semi-globale Algorithmen. Lokale Algorithmen wie korrelationsbasierte Methoden verfügen über effiziente Implementierungen, die sie für Echtzeitsysteme geeignet machen24. Im Vergleich zu lokalen Algorithmen können globale Stereo-Matching-Algorithmen genauere Disparitäten berechnen, indem sie eine globale Energiefunktion erstellen und die globalen Kosten minimieren25,26. Allerdings ist der Zeitaufwand für globale Algorithmen relativ hoch. Darüber hinaus gibt es einen semi-globalen Stereo-Matching-Algorithmus27, der gegenseitige Informationen berechnet, um die Ähnlichkeit zweier Bilder zu messen. Anschließend wird dynamische Programmierung verwendet, um den optimalen passenden Pfad zu finden und die globale Energie zu minimieren.

Mit der Entwicklung von Deep-Learning-Netzwerken sind Stereo-Matching-Algorithmen entstanden, die auf Faltungs-Neuronalen Netzwerken basieren. Zbontar und LeCun28 waren die ersten, die CNNs zur Berechnung der Matching-Kosten und zur Messung der Ähnlichkeit zwischen Bildfeldern einführten. Luo et al.29 führten eine Produktschicht im siamesischen Netzwerk ein und schlugen ein Multi-Label-Klassifizierungsnetzwerk vor, das die lokalen Matching-Kosten berechnet, um eine Multi-Skalen-Klassifizierung über Disparitäten hinweg zu ermöglichen. Displets30 führte Bildklassifizierungstechniken ein, um die Objektdisparität genau zu bestimmen. GC-Net31 führte ein 4D-Kostenvolumen ein und nutzte 3D-CNNs, um geometrische und kontextbezogene Informationen zu erfassen. PSMNet32 schlug das räumliche Pyramiden-Pooling-Modul vor, um die mehrskaligen Merkmale von Bildern zu erhalten, und führte die Sanduhrstruktur zur Kostenaggregation ein. GWC-Net33 schlug eine Gruppenkorrelationsstrategie vor, um durch Berücksichtigung der Korrelation zwischen verschiedenen Kanalmerkmalen ein besser passendes Kostenvolumen zu erstellen. Dieser Ansatz ermöglichte es dem Netzwerk, eine genauere Disparitätskarte zu erhalten. Im SegStereo9 wurde ein semantischer Segmentierungszweig vorgeschlagen, um zusätzliche semantische Informationen in Stereo-Matching-Aufgaben zu integrieren. PG-Net13 schlug ein panoptisches Analyse-gesteuertes tiefes Netzwerk vor, um die Stereo-Matching-Aufgaben zu lösen. PDSNet34 führt ein Engpass-Matching-Modul ein, das die Fähigkeit zur Nutzung globaler Feature-Informationen verbessert. Darüber hinaus verbesserte NLCA-Net-v215 die Stereo-Matching-Leistung des vorhandenen Modells durch Umschulung mit einer neuen Trainingsstrategie.

In den letzten Jahren ist die Forschung zu domänenadaptiven Modellen zu einem heißen Thema geworden. Das in35 vorgeschlagene Netzwerk nutzte verschiedene Zweige und stufenübergreifende Kontextinformationen, um Funktionen bei verschiedenen Auflösungen zu nutzen, und schlug ein verzweigungsübergreifendes Kodierungsmodul vor, um das Kostenvolumen zu regulieren. EdgeStereo36 untersuchte die Beziehung zwischen Stereo- und Kanteninformationen in einem einheitlichen Lernmodell. HITNet37 führte einen schnellen Initialisierungsschritt mit mehreren Auflösungen ein und verwendete einen differenzierbaren geometrischen 2D-Ausbreitungs- und Verformungsmechanismus, um die Disparitätshypothese abzuleiten. Mit dem Erfolg des Attention-Mechanismus38 und Transformer39 haben einige neue Methoden wie CREStereo40 das Stereo-Matching aus neuen Perspektiven überarbeitet. Williem et al.41 stellten eine tiefgreifende, selbstgesteuerte Kostenaggregationsmethode vor, mit der aus Stereobildern eine genaue Disparitätskarte erstellt werden kann. Cheng et al.42 schlugen Faltungs-Spatial-Propagation-Netzwerke (CSPN) vor, die auf Spatial-Propagation-Netzwerken (SPN) basieren, und erweiterten CSPN auf 3D für domänenadaptive Stereo-Matching-Aufgaben. Cheng et al.43 integrierten geometrisches Wissen in das Suchframework für neuronale Architektur und schlugen LEAStereo vor. Es ist das erste durchgängige hierarchische NAS-Framework für Deep Stereo Matching. Ein auf Kaskade und Fusion basierendes Kostennetzwerk wird vorgeschlagen, um die Robustheit des Stereo-Matchings zu verbessern14. DSMNet44 ist mit zwei neuartigen trainierbaren neuronalen Netzwerkschichten ausgestattet, die sich ohne Feinabstimmung oder Domänenanpassung gut über Domänen hinweg verallgemeinern lassen.

In dieser Arbeit haben wir unsere Netzwerkstruktur basierend auf PSMNet32 und ResNet7 entworfen. Darüber hinaus verwendeten wir Transferlerntechniken, um allgemeine Domänenmerkmale in Stereo-Matching-Aufgaben einzuführen. Um bessere Matching-Kosten zu erzielen, haben wir ein domänenadaptives Kostenoptimierungsmodul entwickelt, das den Disparitätssuchbereich adaptiv anpassen kann. In der Zwischenzeit wurde eine Trainingsstrategie verwendet, um die oben genannten Module in unser Stereo-Matching-Framework zu integrieren. Weitere Details werden weiter unten beschrieben.

Für die Stereo-Matching-Aufgabe wird in diesem Artikel ein stufenweise trainiertes Deep-Learning-Netzwerk vorgeschlagen. Die Gesamtstruktur ist in Abb. 1 dargestellt. In der ersten Trainingsphase wird ein Prototyp als Ausgangsstruktur des Netzwerks erstellt, um Parameter bereitzustellen Initialisierung für die nachfolgende Stufe. In der zweiten Trainingsphase wird die ursprüngliche Merkmalsextraktionsstruktur durch den allgemeinen Merkmalsextraktor (GFE) ersetzt, der auf ImageNet45 vorab trainiert wurde, und ein U-förmiger Merkmalsadapter wird trainiert, um die vorab trainierten Merkmale an das Kostenoptimierungsmodul von anzupassen das Netzwerk. In der dritten Stufe wird die Kostenoptimierung im Prototyp durch ein domänenadaptives Kostenoptimierungsmodul (DACOM) ersetzt, um eine bessere Disparitätskarte zu erhalten. Das Modelltraining wird unter Verwendung des Smooth l1-Verlusts zusammen mit dem Mean Absolute Error (MAE)-Verlust über mehrere Stufen hinweg gemeinsam überwacht.

Als erste Stufe des Modelltrainingsprozesses kann der Prototyp eine bessere Parameterinitialisierung für die nächste Trainingsstufe bieten. Daher ist die Auswahl des Prototyps von entscheidender Bedeutung. PSMNet weist einen hervorragenden Stereo-Matching-Effekt auf und behält gleichzeitig eine relativ einfache Struktur32 bei. Daher verwenden wir die Gesamtstruktur von PSMNet als Prototyp.

Nach Abschluss der ersten Trainingsstufe werden die gelernten Parameter des Kostenoptimierungsmoduls im Prototyp für das Training des Feature-Adapters in der zweiten Stufe festgelegt.

Überblick über die Netzwerkarchitektur und Trainingsstrategie. Das Netzwerk besteht aus drei Ausbildungsstufen. In Stufe 1 verwenden wir PSMNet als Prototyp und in der nächsten Stufe den trainierten Prototyp als initialisierte Parameter. Anschließend werden die Modellparameter Schritt für Schritt aktualisiert. In Stufe 2 führen wir einen General Feature Extractor (GFE) ein, der aus einem Teil des auf ImageNet vorab trainierten ResNet-Modells und einem Feature-Adapter besteht, um den Feature-Extraktor im Prototyp zu ersetzen, und trainieren dann das verbesserte Netzwerk. In Stufe 3 ersetzen wir basierend auf dem trainierten Modell in Stufe 2 die gestapelte Sanduhrstruktur im Prototyp durch das Domain Adaptive Cost Optimization Module (DACOM) und verwenden dann das optimale Modell in Stufe 2 als Initialisierungsparameter Trainieren Sie das endgültige verbesserte Modell und erhalten Sie eine genaue Disparitätskarte.

Der General Feature Extractor (GFE) ist eine Schlüsselkomponente der Netzwerkstruktur. Das Extrahieren allgemeiner Merkmale ist für die Leistung des domänenadaptiven Stereo-Matching-Netzwerks sehr wichtig, und wir müssen ein Modell auswählen, das anhand eines großen Datensatzes vorab trainiert wurde, um Domänenverschiebungen zu mildern. Das Modell kann verschiedene Bildstile in großen Datensätzen wie dem ImageNet-Datensatz lernen. Daher ist diese Arbeit für domänenadaptive Aufgaben von Vorteil. Unser Algorithmus wählt das leistungsstarke ResNet-18-Modell, das auf ImageNet vorab trainiert wurde, als Grundstruktur des GFE aus und legt seine Parameter im Public-Domain-Feature-Extraktor fest, wie in Abb. 1 dargestellt. Das aufgepfropfte ResNet7-Modell kann Wide-Domain-Features weiter extrahieren Informationen aus den flachen Merkmalen. Im Gegensatz zur Klassifizierungsaufgabe verwendet das Modell nur die Struktur vor dem vierten Downsampling des ResNet7-Modells, um Merkmale im Maßstab 1/2, 1/4 bzw. 1/8 der ursprünglichen Bildgröße zu extrahieren. Die Grundstruktur umfasst 3\(\times \)3 Faltungsschichten (Conv), Batch-Normalisierungsschichten (BN), ReLU-Aktivierungsfunktionen und Downsampling-Schichten (Max-Pooling).

Ähnlich wie beim Pfropfen von Bäumen ist eine geeignete Schnittstelle erforderlich, um sicherzustellen, dass die bereitgestellten Funktionen im nächsten Schritt effektiv genutzt werden können. Daher integrieren wir auch einen Funktionsadapter, um die Funktionen für eine optimale Kompatibilität mit dem Netzwerk weiter zu verfeinern. Nach der Prototyp-Trainingsphase wird das aufgepfropfte Modell auch in der zweiten Phase verwendet, um Merkmale mithilfe von GFE zu extrahieren. Da das gepfropfte Modell auf ImageNet trainiert wurde, verfügt es über Generalisierungsfähigkeiten, die für das domänenadaptive Stereo-Matching von Vorteil sind, und wird nicht speziell auf große Stereodatensätze trainiert. Darüber hinaus kann der Feature-Adapter redundante Informationen effektiv eliminieren und Stereo-Aufgabeninformationen verbessern, um die Kostenkonstruktion in der nachfolgenden Trainingsphase anzupassen.

Die von GFE erhaltenen Merkmale enthalten umfangreiche semantische Informationen und erfordern eine weitere Verarbeitung mit einer tieferen Netzwerkstruktur. Darüber hinaus kann die Regression oder Klassifizierung durch die Konstruktion der Einzelskalenkosten zu redundanten oder unzureichenden Merkmalsinformationen führen, das Modell kann in einem bestimmten Bereich zu stark angepasst sein und die Robustheit des Algorithmus kann beeinträchtigt sein. Wie in verwandten Arbeiten46,47,48 erläutert, können Multiskalen-Merkmalsinformationen verwendet werden, um mehrere Empfangsfelder zu erhalten. Jeon et al.46 schlugen ein effizientes Netzwerk zur sequentiellen Merkmalsfusion in mehreren Maßstäben vor, um das Kostenvolumen vollständig zu regulieren. MSCVNet47 generiert zunächst mehrere 3D-Kostenvolumina mit unterschiedlichen Auflösungen zur Kostenaggregation. Ein mehrskaliges Pyramidenaggregationsmodul ist darauf ausgelegt, die Aggregationsinformationen verschiedener Skalen effektiv zu nutzen48. Daher verwendet Ct-Net Multiskalenmerkmale, die aus der entsprechenden Upsampling-Stufe des Feature-Adapters erhalten wurden, als Eingabe, um das Multiskalen-Kostenvolumen zu erstellen. Konkret werden die Multiskalen-Matching-Kostenvolumina durch die von Guo et al. vorgeschlagene Gruppenkorrelationsmethode33 konstruiert. Die Grundidee der Gruppenkorrelations-Matching-Kostenkonstruktionsmethode ist wie folgt: Zuerst werden die Merkmale gruppiert und die Korrelationszuordnung wird gruppenweise berechnet Gruppe. Der Feature-Kanal wird als \({N_{c}}\) dargestellt. Alle Features sind entlang der Kanaldimension in \({N_{g}}\) Gruppen unterteilt. Die Berechnungsformel der Gruppenkorrelation kann wie folgt ausgedrückt werden:

wobei \(<,>\) die innere Produktoperation darstellt und die Korrelation von Merkmalen für die Merkmalsgruppe g und alle Disparitätsniveaus d berechnet wird.

Aufgrund des Einflusses der schlecht gelegenen Regionen enthalten die anfänglichen Kosten umfangreiche Rauschinformationen. Die Rauschinformationen der Mehrskalenkosten werden durch den 3D-Codec weiter herausgefiltert. Der 3D-Codec umfasst hauptsächlich 3D-Faltungsschichten und 3D-Entfaltungsschichten. Abbildung 2 zeigt die Hauptstruktur des 3D-Codecs. Darüber hinaus kaskadieren wir die gefilterten Multiskalenkosten, um die Interaktion von Multiskaleninformationen zu erhöhen. Insbesondere werden die Kosten im hohen Maßstab mithilfe der Additionsoperation mit den hochgetasteten Kosten im niedrigen Maßstab zusammengeführt, was die Erfassung semantischer Informationen erhöht und den Verlust detaillierter Informationen verringert.

3D-Codec-Struktur.

Die Kosten spiegeln die übereinstimmende Ähnlichkeit zwischen Kandidatenpixeln wider. Die Kostenverteilung von Pixeln ist jedoch häufig multimodal, wie in den Kosten im niedrigen Maßstab in Abb. 2 dargestellt. Dies kann zu einem hohen Disparitätsfehler führen. Um das obige Problem zu lindern, passen wir nach der Fusion der drei passenden Kosten von niedrig nach hoch die nächste Kostenverteilung an, indem wir die Disparitätsstichproben vorhersagen. Zuerst sagen wir den Disparitätswert für jeden räumlichen Punkt voraus, der dann als Eingabe für die Konstruktion der letzten beiden Matching-Kosten verwendet wird. Die Formel der Disparitätsbewertungsvorhersage lautet wie folgt:

Unter diesen repräsentiert \(\hat{d}\) die vorhergesagte Disparität, d repräsentiert die Kandidatendisparität, \(\sigma \) repräsentiert die Softmax-Operation und \(c_{d}\) repräsentiert die Matching-Kosten. Der Disparitätssuchbereich der nächsten Stufe kann entsprechend der Disparitätsbewertung angepasst werden. Der Disparitätssuchbereich jedes Punkts (i, j) in der nächsten Stufe kann ausgedrückt werden als:

\(\alpha \) wird auf 1 initialisiert, was vom Netzwerk gelernt werden kann.

Aufgrund der unterschiedlichen Maßstäbe der vorhergesagten Disparitätsbewertungskarte werden die erhaltenen Disparitätsbereichskarten jeweils durch bilineare Interpolation hochgetastet. Danach erhalten wir durch einheitliches Abtasten zwischen \(d_{\min }\) und \(d_{\max }\) Disparitätsproben jedes Punktes als Eingabe für den nächsten Schritt. Die Disparitätsproben können ausgedrückt werden als:

Unter diesen stellt S die Disparitätsstichprobengröße von Punkt (i, j) und \(s \in (0,1,2, \ldots , S-1)\) dar. Wir verschmelzen die Disparitätsstichproben mithilfe einer Wrapping-Operation49 mit der richtigen Feature-Map und erstellen dann die Matching-Kosten mithilfe der Gruppenkorrelationsmethode. Diese Kosten werden mithilfe des 3D-Codecs optimiert.

Schließlich verwenden wir das Modul zur Vorhersage der letzten Disparitätsstichprobe, um das endgültige Disparitätsbild zu erhalten.

Um die Leistung unseres Algorithmus quantitativ zu bewerten, bewerten wir den vorgeschlagenen Algorithmus mithilfe von xPE, wobei xPE den Prozentsatz der Pixel darstellt, bei denen die vorhergesagte Disparität um mehr als x Pixel abweicht, und EPE sich auf die durchschnittliche Differenz zwischen der vorhergesagten Disparität bezieht und die Grundwahrheit.

Die Bewertungsmetriken können wie folgt ausgedrückt werden:

Unter diesen repräsentiert N die Gesamtzahl der Pixel, \(\hat{d}\) und \(d^{*}\) die vorhergesagte Disparität bzw. Grundwahrheit der Pixel.

In dieser Studie wird der vorgeschlagene Algorithmus mithilfe des PyTorch-Frameworks implementiert, auf einer einzelnen NVIDIA Tesla V100-GPU trainiert und getestet, wobei die Stapelgröße auf 2 eingestellt ist. Der Adam-Optimierer wurde verwendet und die Parameter wurden auf \(\beta _1\) = festgelegt 0,9 und \(\beta _2\) =0,999. Scene Flow50 wird als Datensatz vor dem Training verwendet und KITTI51, Middlebury52 und Apollo53 werden verwendet, um die Leistung des Algorithmus zu überprüfen.

Im experimentellen Teil verwenden wir SceneFlow-, KITTI-, Middlebury- und Apollo-Datensätze, um das Modell zu trainieren und zu testen.

Scene Flow50: Es handelt sich um einen großen synthetischen Datensatz mit einer Bildgröße von 960\(\times \)540 px, einschließlich 35.454 Trainingsbildpaaren und 4370 Testbildpaaren. Es liefert die Grundwahrheit der Disparität und die maximale Disparität beträgt 192. Das Netzwerktraining dauert etwa 50 Stunden für 10 Epochen und die Lernrate ist auf 0,001 eingestellt.

KITTI51: Einschließlich KITTI2012 und KITTI2015 handelt es sich um einen anspruchsvollen und vielfältigen Straßenszenendatensatz mit einer Größe von 1236\(\times\)376 Pixeln, und als Trainingsstandard wird nur eine Karte mit geringer Disparität bereitgestellt. Wir haben das Modell anhand dieser beiden Datensätze verfeinert. Es dauert etwa 48 Stunden, das Netzwerk für 300 Epochen zu trainieren, und die Lernrate ist für die ersten 200 Epochen auf 0,001 und für die letzten 100 Epochen auf 0,0001 festgelegt.

Middlebury52: Ein kleiner Indoor-Datensatz, der zur Überprüfung der Generalisierungsfähigkeit des Modells für reale Szenen verwendet wird. Das Bild ist in drei Skalen unterteilt: F, H und Q. Die Daten der Skala Q werden zur Überprüfung verwendet, und die maximale Disparität beträgt 256.

Apollo53: Der Apollo-Datensatz besteht aus 5165 Bildpaaren und entsprechenden Disparitätskarten, von denen 3324 Bildpaare zum Training, 832 Bildpaare zur Validierung und 1009 Bildpaare zum Testen verwendet werden. Die Grundwahrheit wurde durch die Akkumulation von 3D-Punktwolken aus Lidar und die separate Erfassung eines Datensatzes von 3D-Autoinstanzen ermittelt. Dieser Datensatz enthält verschiedene Verkehrssituationen mit starker Verdeckung, was eine Herausforderung darstellt.

Für jede Phase wird der SceneFlow-Datensatz als Vortrainingsdatensatz zum Trainieren des Modells verwendet, da er viele Bilder und Szenen enthält, während die Datensätze von Middlebury, KITTI und Apollo relativ klein sind und die Leistung des Modells nach der Feinabstimmung des Modells testen.

Wir führen Ablationsstudien zu den Trainingsstrategie- und Algorithmusmodulen der oben genannten fünf Datensätze durch.

Zunächst verwenden wir den Scene Flow-Datensatz, um die Auswirkung der Trainingsstrategie auf das Modell zu überprüfen. Die Ergebnisse der Ablationsexperimente sind in Tabelle 1 dargestellt. Im Vergleich zu dem direkt in Stufe 2 trainierten Modell werden 3PE und EPE verringert, wenn das Modell in der zweiten Stufe trainiert und in Stufe 1 vorab trainiert wird. Im Vergleich zu dem direkt in Stufe 3 trainierten Modell und dem in Stufe 3 trainierten Modell, das in Stufe 1 und Stufe 2 vortrainiert wurde, sinken die 3PE- und EPE-Metriken um 0,20 % bzw. 0,17 Pixel. Die obigen Ablationsexperimente zeigen, dass eine abgestufte Trainingsstrategie zur Verbesserung der Modellleistung hilfreich ist. Abbildung 3 zeigt den Konvergenzprozess verschiedener Trainingsstrategien. Verglichen mit dem End-to-End-Modell, das ausschließlich in Stufe 3 trainiert wurde, war das Modell, das mit der Strategie von Stufe 3 (Stufe 1, Stufe 2) trainiert wurde, hinsichtlich der Genauigkeit in verschiedenen Epochen besser. Darüber hinaus zeigte das Modell in Stufe 2 im Vergleich zum Prototyp in Stufe 1 einen Rückgang der 3PE- und EPE-Metriken, was bestätigt, dass der allgemeine Merkmalsextraktor die Leistung des Stereo-Matchings verbessern kann. Diese Experimente zeigen, dass unterschiedliche Trainingsstrategien die Leistung des endgültigen Modells beeinflussen. Die Ablationsstudien wurden an verschiedenen Modulen durchgeführt und die Ergebnisse der Experimente sind wie folgt.

Konvergenzprozess von Modellen mit unterschiedlichen Trainingsstrategien. (Stufe x) bedeutet das Vortrainingsmodell der Stufe x. Es zeigt, dass die abgestufte Trainingsstrategie die Matching-Fehlerrate im Vergleich zur End-to-End-Trainingsstrategie verringern kann und vernünftige Modelle die Obergrenze der Endergebnisse erhöhen können.

Vergleich von Merkmalsvisualisierungsbeispielen, die durch den Merkmalsextraktor von Prototyp und GFE erhalten wurden. Von links nach rechts, linkes Bild, das vom Feature-Extraktor des Prototyps erfasste Feature und die von GFE erfassten Features.

Wir vergleichen den Prototyp mit dem in diesem Artikel erwähnten aufgepfropften ResNet-Modell. Aus Tabelle 2 ist ersichtlich, dass für den KITTI-Datensatz die 3PE- und EPE-Metriken des Modells mit General Feature Extractor (GFE) von 4,6 % bzw. 0,89 Pixel auf 3,9 % bzw. 0,83 Pixel sinken. Und für Middlebury-Datensätze ist auch die Algorithmusgenauigkeit von GFE leicht verbessert. Da die Parameter des ResNet-Moduls in GFE gleichzeitig im ImageNet-Datensatz vorab trainiert wurden und die Parameter festgelegt sind, besteht gleichzeitig keine Notwendigkeit, die Parameter während der Modelltrainingsphase zu aktualisieren, was die Effizienz relativ verbessert das Model.

Es wurde eine qualitative Analyse der von verschiedenen Merkmalsextraktoren erfassten Merkmale durchgeführt. Die Muster zur Merkmalsvisualisierung sind in Abb. 4 dargestellt. Es kann festgestellt werden, dass es offensichtliche Unterschiede zwischen den beiden Merkmalen gibt, die durch den Merkmalsextraktor von Prototyp und GFE erhalten wurden. Letzteres enthält mehr Semantik- und Texturinformationen, die als Schlüsselinformationen zur Bewältigung der hohen Matching-Fehlerrate schlecht positionierter Regionen angesehen werden. Sowohl quantitative als auch qualitative Ergebnisse zeigen, dass die GFE für Stereo-Matching-Aufgaben von Vorteil ist.

Die experimentellen Ablationsergebnisse des domänenadaptiven Kostenoptimierungsmoduls sind in Tabelle 2 dargestellt. Darin wird gezeigt, dass das domänenadaptive Kostenoptimierungsmodul (DACOM) eine bessere Leistung erzielen kann als die gestapelte Sanduhrstruktur des Prototyps. Konkret sinken im KITTI-Datensatz im Vergleich zur gestapelten Sanduhrstruktur des Prototyps 3PE und EPE des Modells mit DACOM von 5,3 % und 0,94 auf 3,5 % und 0,82. Unterdessen sinken für den Middlebury-Datensatz die 3PE- und EPE-Kennzahlen von DACOM von 22,63 % bzw. 5,85 auf 22,01 % bzw. 5,35. Die quantitativen Ergebnisse zeigen, dass die adaptive Kostenoptimierungsstrategie eine bessere Leistung erzielt.

Darüber hinaus führten wir Ablationsexperimente zur Mehrskalen-Kostenkaskadenstrategie durch. Die experimentellen Ergebnisse sind in Tabelle 3 dargestellt. Aus den Ergebnissen geht hervor, dass mit steigenden Mehrskalenkosten die 3PE- und EPE-Metriken gleichzeitig sinken. Insbesondere für Scene Flow wurden die 3PE- und EPE-Metriken (hohe, mittlere und niedrige Kosten) im Vergleich zu nur hohen Kosten um 6,8 % und 0,05 Pixel verringert. Um die Rolle der Mehrskalenkosten bei Stereo-Matching-Aufgaben weiter zu untersuchen, wird das Kontrastexperiment aufgebaut und die Ergebnisse sind in Abb. 5 dargestellt. Aus den Ergebnissen lässt sich erkennen, dass die Kostenverteilung auf einer Ebene tendenziell multimodal ist. Skalenkosten (die durchgezogene blaue Linie in Abb. 5), was nicht vorteilhaft ist, um optimale Disparitätsergebnisse durch Kostenanpassung zu erhalten. Wenn wir die Mehrskalenkosten visualisieren, ist die Kostenverteilung tendenziell die unimodale Verteilung (die durchgezogene gelbe Linie in Abb. 5) und der optimale Kostenwert tendiert zur Disparitätsgrundwahrheit (der Disparitätswert entspricht der gelben gepunkteten Linie). in Abb. 5). Aus den quantitativen und qualitativen Ergebnissen lässt sich ableiten, dass Multiskalenkosten verteilungsbedingte Fehlanpassungen reduzieren können. Wir gehen davon aus, dass, da das Eingabebild schlecht positionierte Regionen enthält, ungenaue anfängliche Anpassungskosten im niedrigen Maßstab häufig zu Übereinstimmungsfehlern und irreversiblen Ergebnissen führen und die zusätzlichen Multiskaleninformationen das obige Phänomen optimieren.

Kostenverteilung multiskaliger Kosten. Mit zunehmender Kostenskala tendiert die Kostenverteilung allmählich zu einer unimodalen Verteilung und der Höhepunkt liegt nahe der Grundwahrheit.

Vergleich der anfänglichen Disparität, des anfänglichen Fehlers, des Disparitätswerts, der optimierten Disparität und des optimierten Fehlers. Das Fernglasbild von https://vision.middlebury.edu/stereo/. Die Fehlerkarte weist tendenziell eine wärmere Farbe auf, um auf eine höhere Fehlerrate hinzuweisen. Am Boden oder am Rand von Objekten liegt immer eine falsche Disparität vor, und der entsprechende Disparitätswert ist in diesen Bereichen relativ hoch. Nach der Anpassung an die Disparitätsbewertung werden warme Farben in der Fehlerkarte deutlich reduziert und die Disparitätskanten werden glatter.

Wie oben erläutert, hängen die Matching-Kosten eng mit den Disparitätsergebnissen zusammen, sodass die Frage, wie die Matching-Kosten weiter optimiert werden können, zum entscheidenden Schritt wird. Wir verwenden das Disparity Sample Prediction-Modul, um den Disparitätsbereich der Kandidaten adaptiv anzupassen, bevor wir die Matching-Kosten erstellen. Die Ergebnisse des Ablationsexperiments sind in Tabelle 2 aufgeführt. Aus den Ergebnissen geht hervor, dass die Zusammenführung der Disparitätsstichproben vor der Kostenkonstruktion zu einer Verringerung sowohl der 3PE- als auch der EPE-Metriken für Scene Flow- und KITTI-Datensätze führt. Dies legt nahe, dass das Hinzufügen von Disparitätsproben die Leistung des Stereo-Matchings verbessern kann. Da außerdem der Disparitätssuchbereich jedes räumlichen Punkts vor der Generierung der Disparitätsstichprobe vorhergesagt werden muss und die Generierung des Disparitätssuchbereichs auf der vorhergesagten Disparitätsbewertung basiert, visualisieren wir sowohl die Disparitätsbewertungskarte als auch die Fehlerkarte. Die Visualisierungsergebnisse sind in Abb. 6 dargestellt. Wie aus der Abbildung hervorgeht, weisen Regionen mit hohen Disparitätswerten immer höhere Fehler auf, was auf eine enge Beziehung zwischen dem Disparitätswert und den Regionen hindeutet, die optimiert werden müssen. Die mithilfe der Disparitätsbewertung optimierte Disparitätskarte und Fehlerkarte sind der anfänglichen Disparitätskarte und Fehlerkarte überlegen, was die Disparitätsanpassungsfähigkeit des domänenadaptiven Kostenoptimierungsmoduls hervorhebt.

Darüber hinaus haben wir Ablationsexperimente durchgeführt, um den Zusammenhang zwischen der Disparitätsstichprobengröße S und der Stereo-Matching-Leistung zu überprüfen. Die Ergebnisse sind in Tabelle 4 dargestellt. Wenn S allmählich zunimmt, nimmt die Stereoanpassungsleistung allmählich zu. Dies steht auch im Einklang mit dem gesunden Menschenverstand, dass die Disparitätsgenauigkeit umso höher ist, je mehr Disparitätsstichproben vorhanden sind. Unter Abwägung der vom Netzwerk verbrauchten Zeit und der Genauigkeit setzen wir in diesem Artikel S auf 30. Zusammenfassend lässt sich sagen, dass das Domain Adaptive Cost Optimization Module die Kostenverteilung optimieren und die Leistung des Stereo-Matchings weiter optimieren kann.

Abschließend haben wir ein Ablationsexperiment zur Verlustfunktion durchgeführt. Die Ergebnisse sind in Tabelle 2 aufgeführt. Das Mischen der MAE-Verlustfunktion führt zu besseren Ergebnissen als die alleinige Verwendung der Smooth L1-Verlustfunktion.

Basierend auf den obigen Diskussionen können wir den Schluss ziehen, dass die vorgeschlagenen Module und Trainingsstrategien die Leistung des Stereo-Matchings effektiv verbessern.

Eine der größten Herausforderungen beim domänenübergreifenden Stereo-Matching ist das Domänenverschiebungsproblem. Dieses Problem tritt auf, wenn ein Modell, das auf einer Domäne (oder einem Datensatz) trainiert wurde, bei der Anwendung auf eine andere Domäne aufgrund von Variationen in den Bildeigenschaften wie Lichtverhältnissen, Kameraparametern und Szenenzusammensetzungen eine schlechte Leistung erbringt.

In diesem Abschnitt haben wir zur Überprüfung der domänenübergreifenden Generalisierungsleistung des Algorithmus die Datensätze Middlebury, KITTI und Apollo als Testsatz und den Scene Flow-Datensatz als Trainingssatz ausgewählt.

Die Vergleichsergebnisse sind in den Tabellen 5, 6, 7 und 8 dargestellt. Die endgültigen Einreichungsergebnisse zum KITTI-Benchmark sind in den Tabellen 5 und 6 aufgeführt, und die Bewertungsmetriken sind xPE-Prozentsätze für alle Regionen und nicht-okkludierte (Noc) Regionen . Im KITTI 2012-Benchmark zeigte der vorgeschlagene Algorithmus eine deutliche Verbesserung des xPE-Prozentsatzes im Vergleich zum herkömmlichen Algorithmus SGM27. Darüber hinaus zeigte der vorgeschlagene Algorithmus im Vergleich zum hochpräzisen Deep-Learning-Algorithmus AANet+54, der die Kostenaggregation mithilfe einer spärlichen punktbasierten Merkmalsdarstellung effizient durchführt, in allen Regionen einen geringeren xPE. Im Vergleich zu anderen auf Deep Learning basierenden Stereo-Matching-Algorithmen wie PVStereo55, PDSNet34, SegStereo9 und HSM56 erreichte der vorgeschlagene Algorithmus den niedrigsten xPE-Prozentsatz. Allerdings schnitt der vorgeschlagene Algorithmus im Vergleich zu den hochmodernen Methoden CFNet und LEAStereo43 immer noch relativ schlecht ab.

Darüber hinaus können wir, wie in der Blackbox in Abb. 7 dargestellt, eine bessere Disparitätsvorhersage für Bilddetails und die gesamte Zielstruktur erzielen und im Vergleich zu SGM27 ein glatteres Disparitätsbild erzeugen. Obwohl der von SGM erzeugte Disparitätseffekt im Vergleich zu PSMNet32 besser ist als der des herkömmlichen Algorithmus, kann der Algorithmus in Bereichen wie Autofenstern keine korrekten Disparitätsergebnisse liefern, und der in diesem Artikel vorgeschlagene Algorithmus erzielt bessere Ergebnisse bei Autofenstern. SegStereo9 führt Bildkanteninformationen ein, um den Disparitätskanteneffekt zu verbessern. Im Vergleich zu SegStereo erzielt der vorgeschlagene Algorithmus bessere Ergebnisse bei Zaungeländern und Fahrzeugchassis. CFNet14 verwendet eine mehrskalige Kostenoptimierung, um bessere Disparitätsergebnisse zu erzielen. Im Vergleich zu CFNet erzielt der vorgeschlagene Algorithmus einen vergleichbaren Effekt im Disparitätsdetailbereich. Darüber hinaus schneiden die von diesem Algorithmus erzeugten Disparitätsergebnisse im Vergleich zu LEAStereo43, das in den letzten Jahren gut abgeschnitten hat, auch auf der Straße gut ab. Benchmark-Testergebnisse von KITTI 2012 zeigen, dass die Leistung dieses Algorithmus mit der Leistung bestehender fortgeschrittener Algorithmen vergleichbar ist.

Qualitative Ergebnisse des KITTI-Benchmarks. In diesem Artikel haben wir unsere Methode mit Disparitätskarten anderer Algorithmen verglichen. Die linken beiden Spalten sind KITTI2012-Beispiele und die rechten beiden Spalten sind KITTI2015-Beispiele. Der schwarze Kasten im Bild ist der Bereich mit offensichtlichen Unterschieden.

Qualitative Ergebnisse des Middlebury-Datensatzes. Das Fernglasbild von https://vision.middlebury.edu/stereo/. Von oben nach unten: das linke Bild, die Ground Truth GT, die Disparitätskarten von Census, die Disparitätskarten von FADNet, die Disparitätskarten von iResNet, die Disparitätskarten von Ct-Net (Ours).

Qualitative Ergebnisse des Apollo-Testdatensatzes. Das Fernglasbild von https://apolloscape.auto/stereo.html. Die erste Zeile enthält die linken Bilder, die zweite Zeile enthält die PSMNet-Disparitätskarten und die dritte Zeile enthält die von unserem Netzwerk vorhergesagten Disparitätskarten. Der schwarze Kasten im Bild ist der Bereich mit offensichtlichen Unterschieden.

Im KITTI 2015-Benchmark zeigte CtNet im Vergleich zum Prototyp PSMNet32 eine signifikante Verbesserung mit einem Rückgang von 19,3 bzw. 21,1 % in \(3PE-fg\) für alle Regionen bzw. nicht abgedeckten Regionen. Darüber hinaus erreichte der vorgeschlagene Algorithmus im Vergleich zu anderen einen geringeren xPE-Prozentsatz. Im Vergleich zum hochpräzisen Deep-Learning-Algorithmus AANet+54 ist der vorgeschlagene Algorithmus in der \(3PE-fg\)-Metrik für alle Regionen und Nicht-Okklusionsregionen verbessert. Darüber hinaus erzielt der vorgeschlagene Algorithmus im Vergleich zu anderen auf Deep Learning basierenden Stereo-Matching-Algorithmen wie PVStereo55, PDSNet34, SegStereo9 und HSM56 den niedrigsten xPE-Prozentsatz. Die qualitativen Ergebnisse des KITTI 2015-Benchmarks sind in Abbildung 7 dargestellt. Unser Algorithmus erzielt im Vergleich zu SGM detailliertere und genauere Vorhersagen. Im Vergleich zu PDSNet34, SegStereo9, HSM56 erzielt der vorgeschlagene Algorithmus bessere Ergebnisse bei Zaungeländern und Straßenschildern auf Autobahnen. Auch im Vergleich zu den hochmodernen Algorithmen CFNet und LEAStereo bietet der vorgeschlagene Algorithmus noch Raum für Verbesserungen. Allerdings zeigen qualitative und quantitative Ergebnisse des KITTI 2015-Benchmarks, dass unser Algorithmus gut für Stereo-Matching-Aufgaben in Straßenszenen geeignet ist.

Die Testergebnisse des Middlebury-Benchmarks sind in Tabelle 7 aufgeführt. Im Vergleich zu den auf Deep Learning basierenden Methoden wie FADNet57, PSMNet32 und AANet54 weist die vorgeschlagene Methode bei allen Stichproben eine geringere Fehlerrate auf. Im Vergleich zum hochpräzisen Deep-Learning-Algorithmus iResNet58 schneidet der vorgeschlagene Algorithmus bei den Beispielen Bicycle2, Crusade, DjembeL, Livingroom und Staircase besser ab. Im Vergleich zu anderen Stichproben ist der Unterschied in der Fehlerquote gering. Darüber hinaus sind die qualitativen Ergebnisse in Abb. 8 dargestellt, in der wir verschiedene Methoden an sechs Proben aus Middlebury vergleichen. Im Vergleich zur herkömmlichen Methode Census24 erreicht der vorgeschlagene Algorithmus eine bessere Disparitätskanten-Stereo-Matching-Leistung und verbessert die Erkennungsleistung schlecht positionierter Regionen wie dünner Strukturen und texturloser Regionen. Im Vergleich zur auf Deep Learning basierenden Methode PSMNet32 weist der vorgeschlagene Algorithmus eine bessere Stereo-Matching-Leistung für Details auf.

Abschließend verglichen wir den vorgeschlagenen Algorithmus mit PSMNet32 im Apollo-Datensatz. Wie in Tabelle 8 gezeigt, übertrifft unser Algorithmus PSMNet32 in allen Metriken. Die qualitativen Ergebnisse sind in Abb. 9 dargestellt. Im Vergleich zu PSMNet32 weist der Algorithmus in diesem Artikel eine bessere Stereoanpassungsleistung in Detailbereichen wie Fahrrädern und Fußgängern auf.

Die qualitativen und quantitativen Analyseergebnisse zeigen, dass der vorgeschlagene Algorithmus bei mehreren Datensätzen vielversprechende Ergebnisse erzielt.

In diesem Abschnitt wird die Leistung des im Artikel vorgeschlagenen Algorithmus in mehreren realen Szenen überprüft. Die in diesem Artikel verwendete experimentelle Plattform ist in Abb. 10 dargestellt und besteht aus einem binokularen Sichtsystem und einer mobilen Basis mit einer Bildgröße von 1280\(\times \)1024 px.

Die Hardwarekonfiguration des Autos ist wie folgt: Es umfasst ein Paar CMOS-Kameras, die das binokulare Kamerasystem bilden, mit dem Bilder von der linken und rechten Seite aufgenommen werden, und die Kamera nimmt 10 Bilder pro Sekunde auf. Darüber hinaus verfügt das Auto über einen eingebetteten Prozessor, das Betriebssystem ist Ubuntu 18.04, der Prozessor ist NVIDIA Jetson Nano. Für die Laufzeitumgebung wird der Algorithmus von OpenCV für C++ aufgerufen, um einen binokularen Stereoabgleich durchzuführen. Darüber hinaus wird das Auto unabhängig von einer Lithiumbatterie angetrieben. Zu den Entfernungsmessalgorithmen gehören unter anderem der Stereo-Matching-Algorithmus, die Entfernungsmessung und die Kartenmodellierung. Nehmen Sie mit diesem Gerät Bilder auf und erstellen Sie Disparitätskarten in mehreren Innen- und Außenszenen. Da die Disparität in Innenräumen normalerweise höher ist als die Disparität im Freien, nehmen wir die maximale Disparität in Innenräumen mit 256 und die maximale Disparität im Freien mit 192 an. Die Ergebnisse von Experimenten im Freien sind in Abb. 11 dargestellt, während die Ergebnisse von Experimenten in Innenräumen in Abb. 12 dargestellt sind .

Experimentelle Plattform für binokulare Vision-Roboter.

Das Ergebnis sind reale Szenen im Freien.

Führt zu realen Indoor-Szenen.

Es ist erwähnenswert, dass unser domänenübergreifendes Stereo-Matching-Modell die Disparität direkt in der realen Szene ohne erneutes Training vorhersagt, sodass die domänenübergreifende Fähigkeit unseres Modells getestet werden kann. Die experimentellen Ergebnisse der Generierung von Disparitätskarten in verschiedenen realen Innen- und Außenszenen zeigen, dass der in diesem Artikel vorgeschlagene Stereo-Matching-Algorithmus eine wertvolle Fähigkeit zur domänenübergreifenden Generalisierung aufweist und die Anforderungen für die Ausführung verschiedener Aufgaben in der Robotersicht erfüllen kann.

Computer Vision spielt eine entscheidende Rolle dabei, Roboter in die Lage zu versetzen, durch die Simulation des menschlichen visuellen Systems Tiefeninformationen über Objekte zu erfassen und Aufgaben zu erledigen. In diesem Artikel wurde ein auf Transferlernen basierendes Stereo-Matching-Netzwerk für domänenadaptive Stereo-Matching-Aufgaben in der Robotik vorgeschlagen. Das Modell wurde speziell entwickelt, um den Anforderungen von Robotern in mehreren Szenen gerecht zu werden, und es wurde eine umfassende Trainingsstrategie formuliert, um das Netzwerk effektiv zu trainieren. Darüber hinaus wird ein Extraktor für allgemeine Merkmale eingeführt, um allgemeine Merkmalsinformationen zu erhalten, und ein Adapter soll allgemeine Merkmale an ein kostenoptimiertes Modell des Netzwerks anpassen. Um das Domänenverschiebungsproblem zu reduzieren, wird in diesem Artikel ein adaptives Disparitätsoptimierungsmodul vorgeschlagen, um die Disparität schrittweise zu aktualisieren. Im Vergleich zum PSMNet-Prototyp verringerte sich beim KITTI 2015-Benchmark der \(3PE-fg\) von Ct-Net in allen Regionen und nicht abgedeckten Regionen um 19,3 % bzw. 21,1 %, und im Middlebury-Datensatz verbessert sich der vorgeschlagene Algorithmus Die Stichprobenfehlerrate beträgt mindestens 28,4 %, was der Treppenstichprobe entspricht. Experimente mit mehreren Datensätzen zeigen, dass der vorgeschlagene Algorithmus und die Trainingsstrategie die domänenübergreifende Leistung des Stereo-Matchings verbessern können.

Unsere zukünftige Forschung wird sich auf die Verbesserung der Generalisierungsfähigkeit des Algorithmus und die Durchführung von Experimenten in verschiedenen Bereichen konzentrieren. Konkret planen wir, den Aufmerksamkeitsmechanismus des Transformers zu integrieren, um die Matching-Genauigkeit zu verbessern und das Potenzial der Segmentierungsaufgabe zu erkunden, um das Matching-Ergebnis schlecht positionierter Regionen zu optimieren. Letztendlich wollen wir den vorgeschlagenen Algorithmus auf ein noch breiteres Spektrum realer Szenen anwenden.

Die Daten sind im Artikel enthalten. Die in dieser Studie präsentierten Daten sind in diesem Artikel verfügbar.

Suthakorn, J. et al. Stereovisionsbasierte Objekterkennung und Tiefenschätzung aus einer 3D-rekonstruierten Szene für eine autonome Rettungsmission mit mehreren Robotern (2022).

Li, P., Su, S. & Zhao, H. Rts3d: Echtzeit-Stereo-3D-Erkennung aus 4D-Funktionskonsistenz-Einbettungsraum für autonomes Fahren. Cornell University – arXiv (2020).

Zhao, H. & Wu, B. Dreidimensionale Gesichtsmodellierungstechnologie basierend auf 5G-Virtual-Reality-Binokular-Stereovision. Int. J. Commun. Syst.https://doi.org/10.1002/dac.4651 (2022).

Artikel Google Scholar

Du, S. et al. Eine umfassende Umfrage: Aufgabengesteuerte Leistungsanalyse zur Bildentwässerung und Stereoanpassung. IET-Bildprozess. 16, 11–28. https://doi.org/10.1049/ipr2.12347 (2022).

Artikel Google Scholar

Zaidi, SSA et al. Eine Übersicht über moderne, auf Deep Learning basierende Objekterkennungsmodelle. Digitaler Signalprozess. 126, 103514. https://doi.org/10.1016/j.dsp.2022.103514 (2022).

Artikel Google Scholar

Li, J., Huang, Int. J. Appl. Erdbeobachtung. Geoinform. 113, 103022. https://doi.org/10.1016/j.jag.2022.103022 (2022).

Artikel Google Scholar

He, K., Zhang, X., Ren, S. & Sun, J. Deep Residual Learning für die Bilderkennung. Im Jahr 2016 IEEE-Konferenz zu Computer Vision und Mustererkennung (CVPR), 770–778, https://doi.org/10.1109/CVPR.2016.90 (2016).

Ling, Z. et al. Domänenadaptive Module für Stereo-Matching-Netzwerke. Neurocomputing 461, 217–227. https://doi.org/10.1016/j.neucom.2021.06.004 (2021).

Artikel Google Scholar

Yang, G., Zhao, H., Shi, J., Deng, Z. & Jia, J. SegStereo: Ausnutzung semantischer Informationen zur Disparitätsschätzung. arXiv e-printsarXiv:1807.11699, https://doi.org/10.48550/arXiv.1807.11699 (2018). 1807.11699.

Xu, G., Cheng, J., Guo, P. & Yang, X. Achten Sie auf das Verkettungsvolumen für eine genaue und effiziente Stereoanpassung. Im Jahr 2022 IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (CVPR), 12971–12980, https://doi.org/10.1109/CVPR52688.2022.01264 (2022).

Rao, Z. et al. Nlca-net: Ein nicht-lokales Kontext-Aufmerksamkeitsnetzwerk für Stereo-Matching. APSIPA Trans. Signalinf. Verfahren. 9, e18. https://doi.org/10.1017/ATSIP.2020.16 (2020).

Artikel Google Scholar

Wu, Z., Wu, X., Zhang, X., Wang, S. & Ju, L. Semantisches Stereo-Matching mit Pyramidenkostenvolumina. Im Jahr 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 7483–7492, https://doi.org/10.1109/ICCV.2019.00758 (2019).

Chen, S., Xiang, Z., Qiao, C., Chen, Y. & Bai, T. Pgnet: Panoptic Parsing Guided Deep Stereo Matching. Neurocomputing 463, 609–622. https://doi.org/10.1016/j.neucom.2021.08.041 (2021).

Artikel Google Scholar

Shen, Z., Dai, Y. & Rao, Z. Cfnet: Kaskaden- und Fusionskostenvolumen für robustes Stereo-Matching. Im Jahr 2021 IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (CVPR), 13901–13910, https://doi.org/10.1109/CVPR46437.2021.01369 (2021).

Rao, Z., Dai, Y., Shen, Z. & He, R. Überdenken der Trainingsstrategie beim Stereo-Matching. IEEE Trans. Neuronales Netz. Lernen. Syst.https://doi.org/10.1109/TNNLS.2022.3146306 (2022).

Artikel PubMed Google Scholar

Sang, H., Wang, Q. & Zhao, Y. Mehrskaliges Kontext-Aufmerksamkeitsnetzwerk für Stereo-Matching. IEEE Access 7, 15152–15161. https://doi.org/10.1109/ACCESS.2019.2895271 (2019).

Artikel Google Scholar

Shankar, K., Tjersland, M., Ma, J., Stone, K. & Bajracharya, M. Ein erlerntes Stereo-Tiefensystem für die Robotermanipulation in Häusern. arXiv e-printsarXiv:2109.11644, https://doi.org/10.48550/arXiv.2109.11644 (2021).

Yang, J., Li, D. & Waslander, SL Probabilistische Multi-View-Fusion aktiver Stereo-Tiefenkarten für robotergestütztes Bin-Picking. IEEE-Roboter. Autom. Lette. 6, 4472–4479. https://doi.org/10.1109/LRA.2021.3068706 (2021).

Artikel Google Scholar

Lajoie, P.-Y. & Beltrame, G. Swarm-slam: Sparse dezentrale kollaborative simultane Lokalisierungs- und Kartierungs-Framework für Multi-Roboter-Systeme 2301, 06230 (2023)

Yang, X. et al. Ein neuartiges Stereobild-Selbstmalerei-Netzwerk für autonome Roboter. Roboter. Autonom. Syst. 156, 104197. https://doi.org/10.1016/j.robot.2022.104197 (2022).

Artikel Google Scholar

Shim, S., Lee, S.-W., Cho, G.-C., Kim, J. & Kang, S.-M. Ferngesteuertes Robotersystem zur 3D-Messung von Betonschäden im Tunnel mit Bodenfahrzeug und Manipulator. Berechnen. Hilfe. Zivil. Infrastruktur. Eng.https://doi.org/10.1111/mice.12982 (2023).

Artikel Google Scholar

Obasekore, H., Fanni, M., Ahmed, SM, Parque, V. & Kang, B.-Y. Landwirtschaftliche roboterzentrierte Erkennung des frühen Entwicklungsstadiums von Schädlingen basierend auf Deep Learning: Eine Fallstudie zum Herbst-Heerwurm (Spodoptera frugiperda). Sensorenhttps://doi.org/10.3390/s23063147 (2023).

Artikel PubMed PubMed Central Google Scholar

Xiang, L. et al. Feldbasierte Roboter-Blattwinkelerkennung und -charakterisierung von Maispflanzen mithilfe von Stereovision und tiefen Faltungs-Neuronalen Netzen. J. Field Robot.https://doi.org/10.1002/rob.22166 (2023).

Artikel Google Scholar

Hirschmüller, H., Innocent, PR & Garibaldi, JM Echtzeit-korrelationsbasiertes Stereosehen mit reduzierten Randfehlern. Int. J. Comput. Vis. 47, 229–246 (2002).

Artikel MATH Google Scholar

Kolmogorov, V. & Zabih, R. Berechnung der visuellen Korrespondenz mit Verdeckungen mithilfe von Diagrammschnitten. Proz. Achte internationale IEEE-Konferenz zum Thema Computer Vision. ICCV 2001 Bd. 2, 508–515 (2001).

Sun, J., Zheng, N.-N. & Shum, H.-Y. Stereo-Matching mittels Glaubensausbreitung. IEEE Trans. Musteranalyse. Mach. Intel. 25, 787–800. https://doi.org/10.1109/TPAMI.2003.1206509 (2003).

Artikel MATH Google Scholar

Hirschmüller, H. Präzise und effiziente Stereoverarbeitung durch semi-globales Matching und gegenseitige Information. Im Jahr 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), vol. 2, 807–814, https://doi.org/10.1109/CVPR.2005.56 (2005).

Žbontar, J. & LeCun, Y. Berechnung der Stereo-Matching-Kosten mit einem Faltungs-Neuronalen Netzwerk. Im Jahr 2015 IEEE-Konferenz zu Computer Vision und Mustererkennung (CVPR), 1592–1599, https://doi.org/10.1109/CVPR.2015.7298767 (2015).

Luo, W., Schwing, AG & Urtasun, R. Effizientes Deep Learning für Stereo-Matching. Im Jahr 2016 IEEE-Konferenz zu Computer Vision und Mustererkennung (CVPR), 5695–5703, https://doi.org/10.1109/CVPR.2016.614 (2016).

Güney, F. & Geiger, A. Displets: Auflösung von Stereo-Ambiguitäten mithilfe von Objektwissen. Im Jahr 2015 IEEE-Konferenz zu Computer Vision und Mustererkennung (CVPR), 4165–4175, https://doi.org/10.1109/CVPR.2015.7299044 (2015).

Kendall, A. et al. Durchgängiges Erlernen von Geometrie und Kontext für eine tiefe Stereoregression. Im Jahr 2017 IEEE International Conference on Computer Vision (ICCV), 66–75, https://doi.org/10.1109/ICCV.2017.17 (2017).

Chang, J.-R. & Chen, Y.-S. Pyramiden-Stereo-Matching-Netzwerk. Im Jahr 2018 IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung, 5410–5418, https://doi.org/10.1109/CVPR.2018.00567 (2018).

Guo, X., Yang, K., Yang, W., Wang, X. & Li, H. Gruppenweises Korrelationsstereonetzwerk. Im Jahr 2019 IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (CVPR), 3268–3277, https://doi.org/10.1109/CVPR.2019.00339 (2019).

Tulyakov, S., Ivanov, A. & Fleuret, F. Practical Deep Stereo (pds): Auf dem Weg zu anwendungsfreundlichem Deep Stereo Matching. In Neural Information Processing Systems, (2018).

Zhang, Y., Li, Y., Kong, Y. & Liu, B. Aufmerksamkeitsaggregations-Encoder-Decoder-Netzwerk-Framework für Stereo-Matching. IEEE-Signalprozess. Lette. 27, 760–764 (2020).

Artikel ADS Google Scholar

Song, X., Zhao, X., Fang, L., Hu, H. & Yu, Y. Edgestereo: Ein effektives Multitasking-Lernnetzwerk für Stereo-Matching und Kantenerkennung. Int. J. Comput. Vis. 128, 910–930 (2019).

Artikel Google Scholar

Tankovich, V. et al. Hitnet: Hierarchisches iteratives Kachelverfeinerungsnetzwerk für Stereo-Matching in Echtzeit. AdRR abs/2007.12140 (2020).

Hu, J., Shen, L. & Sun, G. Squeeze-and-Excitation-Netzwerke. 2018 IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung 7132–7141 (2017).

Vaswani, A. et al. Aufmerksamkeit ist alles, was Sie brauchen. In Advances in Neural Information Processing Systems Vol. 30 (Curran Associates Inc., 2017).

Google Scholar

Li, J. et al. Praktische Stereoanpassung über kaskadiertes rekurrentes Netzwerk mit adaptiver Korrelation. 2022 IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (CVPR) 16242–16251 (2022).

Park, IK Deep selbstgesteuerte Kostenaggregation für Stereo-Matching. Mustererkennung. Lette. 112, 168–175. https://doi.org/10.1016/j.patrec.2018.07.010 (2018).

Artikel ADS Google Scholar

Cheng, X., Wang, P. & Yang, R. Lerntiefe mit Faltungsnetzwerk zur räumlichen Ausbreitung. IEEE Trans. Muster Anal. Mach. Intel. 42, 2361–2379 (2018).

Artikel Google Scholar

Cheng, X. et al. Hierarchische neuronale Architektursuche für tiefes Stereo-Matching. ArXiv abs/2010.13501 (2020).

Zhang, F. et al. Domäneninvariante Stereo-Matching-Netzwerke. In Computer Vision-ECCV 2020 (Hrsg. Vedaldi, A. et al.) 420–439 (Springer International Publishing, 2020).

Kapitel Google Scholar

Krizhevsky, A., Sutskever, I. & Hinton, GE Imagenet-Klassifizierung mit tiefen Faltungs-Neuronalen Netzen. Komm. ACM 60, 84–90 (2012).

Artikel Google Scholar

Jeon, S. & Heo, Y. Effizientes Multiskalen-Stereo-Matching-Netzwerk mit adaptiver Kosten-Volumen-Filterung. Sensoren 22, 5500. https://doi.org/10.3390/s22155500 (2022).

Artikel ADS PubMed PubMed Central Google Scholar

Jia, X. et al. Mehrskaliges Kostenvolumen-Kaskadennetzwerk für Stereoanpassung. Im Jahr 2021 IEEE International Conference on Robotics and Automation (ICRA), 8657–8663, https://doi.org/10.1109/ICRA48506.2021.9560864 (IEEE Press, 2021).

Zhu, Z., Guo, W., Chen, W., Li, Q. & Zhao, Y. Mpanet: Multiskaliges Pyramiden-Aggregationsnetzwerk für Stereo-Matching. Im Jahr 2021 IEEE International Conference on Image Processing (ICIP), 2773–2777, https://doi.org/10.1109/ICIP42928.2021.9506705 (2021).

Zhong, Y., Dai, Y. & Li, H. Selbstüberwachtes Lernen für Stereo-Matching mit selbstverbessernden Fähigkeiten. arXiv e-printsarXiv:1709.00930, https://doi.org/10.48550/arXiv.1709.00930 (2017). 1709.00930.

Mayer, N. et al. Ein großer Datensatz zum Trainieren von Faltungsnetzwerken für die Schätzung von Disparität, optischem Fluss und Szenenfluss. Im Jahr 2016 IEEE-Konferenz zu Computer Vision und Mustererkennung (CVPR), 4040–4048, https://doi.org/10.1109/CVPR.2016.438 (2016).

Geiger, A., Lenz, P. & Urtasun, R. Sind wir bereit für autonomes Fahren? die Kitti Vision Benchmark-Suite. Im Jahr 2012 IEEE-Konferenz zu Computer Vision und Mustererkennung, 3354–3361, https://doi.org/10.1109/CVPR.2012.6248074 (2012).

Scharstein, D. et al. Hochauflösende Stereodatensätze mit subpixelgenauer Ground Truth. In der Deutschen Konferenz zur Mustererkennung (2014).

Huang, X. et al. Der offene Apolloscape-Datensatz für autonomes Fahren und seine Anwendung. IEEE Trans. Muster Anal. Mach. Intel. 42, 2702–2719. https://doi.org/10.1109/TPAMI.2019.2926463 (2020).

Artikel PubMed Google Scholar

Xu, H. & Zhang, J. Aanet: Adaptives Aggregationsnetzwerk für effizientes Stereo-Matching. 2020 IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (CVPR) 1956–1965 (2020).

Wang, H., Fan, R., Cai, P. & Liu, M. Pvstereo: Pyramid-Voting-Modul für durchgängiges selbstüberwachtes Stereo-Matching. IEEE-Roboter. Autom. Lette. 6, 4353–4360. https://doi.org/10.1109/LRA.2021.3068108 (2021).

Artikel Google Scholar

Yang, G., Manela, J., Happold, M. & Ramanan, D. Hierarchisches Deep-Stereo-Matching auf hochauflösenden Bildern. Im Jahr 2019 IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (CVPR), 5510–5519, https://doi.org/10.1109/CVPR.2019.00566 (2019).

Wang, Q., Shi, S., Zheng, S., Zhao, K. & Chu, X. Fadnet: Ein schnelles und genaues Netzwerk zur Disparitätsschätzung. Im Jahr 2020 IEEE International Conference on Robotics and Automation (ICRA), 101–107, https://doi.org/10.1109/ICRA40945.2020.9197031 (2020).

Liang, Z. et al. Lernen zur Disparitätsschätzung durch Merkmalskonstanz. Im Jahr 2018 IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung, 2811–2820, https://doi.org/10.1109/CVPR.2018.00297 (2018).

Referenzen herunterladen

Diese Arbeit wurde von der National Natural Science Foundation of China im Rahmen des Grant 62272405 und dem Youth Innovation Science and Technology Support Program der Provinz Shandong im Rahmen des Grant 2021KJ080 finanziert.

School of Computer Control and Engineering, Yantai University, Yantai, 264005, China

Yuanwei Bi, Chuanbiao Li, Xiangrong Tong, Guohui Wang und Haiwei Sun

Sie können diesen Autor auch in PubMed Google Scholar suchen

YB, CL haben den Algorithmus entworfen und die Experimente durchgeführt. YB, CL, XT, HS und GW haben das Manuskript geschrieben. YB hat dieses Projekt finanziert. Alle Autoren haben die veröffentlichte Version des Manuskripts gelesen und ihr zugestimmt.

Korrespondenz mit Chuanbiao Li.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Bi, Y., Li, C., Tong, X. et al. Eine Anwendung eines Stereo-Matching-Algorithmus basierend auf Transferlernen bei Robotern in mehreren Szenen. Sci Rep 13, 12739 (2023). https://doi.org/10.1038/s41598-023-39964-z

Zitat herunterladen

Eingegangen: 08. April 2023

Angenommen: 02. August 2023

Veröffentlicht: 06. August 2023

DOI: https://doi.org/10.1038/s41598-023-39964-z

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.