Uma aplicação de algoritmo de correspondência estéreo baseado em aprendizagem por transferência em robôs em múltiplas cenas
Scientific Reports volume 13, Artigo número: 12739 (2023) Citar este artigo
Acessos de 1982
5 Altmétrico
Detalhes das métricas
A tecnologia de visão robótica baseada na visão binocular possui um enorme potencial de desenvolvimento em vários campos, incluindo reconstrução de cenas 3D, detecção de alvos e direção autônoma. No entanto, os métodos atuais de visão binocular utilizados na engenharia robótica apresentam limitações como altos custos, algoritmos complexos e baixa confiabilidade do mapa de disparidade gerado em diferentes cenas. Para superar esses desafios, um algoritmo de correspondência estéreo de domínio cruzado para visão binocular baseado em aprendizagem por transferência foi proposto neste artigo, denominado Adaptação de Domínio Cruzado e Rede de Aprendizagem por Transferência (Ct-Net), que mostrou resultados valiosos em múltiplas cenas de robô. Primeiro, este artigo apresenta um Extrator de Recursos Gerais para extrair informações ricas de recursos gerais para tarefas de correspondência estéreo adaptativa de domínio. Em seguida, um adaptador de recursos é usado para adaptar os recursos gerais à rede de correspondência estéreo. Além disso, um Módulo de Otimização de Custo Adaptativo de Domínio foi projetado para otimizar o custo correspondente. Um módulo de previsão de pontuação de disparidade também foi incorporado para ajustar de forma adaptativa o intervalo de pesquisa de disparidade e otimizar a distribuição de custos. A estrutura geral foi treinada usando uma estratégia em fases, e experimentos de ablação foram realizados para verificar a eficácia da estratégia de treinamento. Comparado com o protótipo PSMNet, no benchmark KITTI 2015, o 3PE-fg do Ct-Net em todas as regiões e regiões não ocluídas diminuiu 19,3 e 21,1% respectivamente, enquanto isso, no conjunto de dados de Middlebury, o algoritmo proposto melhora a taxa de erro da amostra pelo menos 28,4%, que é a amostra Staircase. Os resultados quantitativos e qualitativos obtidos de Middlebury, Apollo e outros conjuntos de dados demonstram que o Ct-Net melhora significativamente o desempenho entre domínios da correspondência estéreo. Experimentos de correspondência estéreo em cenas do mundo real mostraram que ele pode resolver com eficácia tarefas visuais em múltiplas cenas.
Nos últimos anos, os robôs tornaram-se assistentes essenciais em diversas áreas, incluindo reconstrução de cenas 3D, detecção de alvos, condução autónoma, entre outras. A aplicação generalizada da tecnologia robótica em vários setores contribuiu para o seu papel integral na vida moderna. A visão computacional, uma tecnologia que emula o sistema visual humano e converte as informações coletadas da imagem em informações de disparidade alvo, desempenha um papel crucial no auxílio aos robôs na realização de suas tarefas. Atualmente, a maioria dos robôs depende de equipamentos caros de radar a laser para obter informações de disparidade de alta precisão. No entanto, o princípio da visão binocular, que reproduz de perto a maneira humana de observar objetos, é amplamente utilizado em inúmeras tarefas visuais. O algoritmo de correspondência estéreo binocular, um componente fundamental da teoria da visão binocular, impacta diretamente a precisão da detecção de alvos de um robô. Ao empregar a teoria da visão binocular, o robô pode converter informações bidimensionais em informações tridimensionais da cena alvo, obtendo assim informações precisas da cena alvo.
Algoritmos de correspondência estéreo são cruciais para a compreensão e reconstrução de cenas 3D e têm sido amplamente utilizados em vários campos, incluindo navegação robótica1, condução autônoma2, realidade virtual3 e muitos outros. Esses algoritmos visam calcular disparidades, que representam o deslocamento horizontal dos pixels correspondentes em dois pares estéreo retificados. Os métodos tradicionais muitas vezes dependem do conhecimento prévio da imagem para construir uma função de correspondência estéreo que permite a geração de um mapa de disparidades denso.
Atualmente, as redes neurais convolucionais (CNNs) são amplamente utilizadas em diversas tarefas de visão devido às suas poderosas capacidades de representação de recursos, incluindo detecção de objetos5, classificação de imagens6 e muito mais. Nos últimos anos, os algoritmos de correspondência estéreo supervisionados baseados na CNN melhoraram significativamente o desempenho da correspondência estéreo e se tornaram a atual direção de pesquisa principal. As etapas principais do algoritmo de correspondência estéreo supervisionado baseado em CNN incluem extração de recursos, construção de custos e otimização de custos.