Reconocimiento de lugares en entornos de exterior e interior mediante técnicas de aprendizaje profundo e información multisensorial

Cabrera Mora, Juan José

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/11000/39855

Reconocimiento de lugares en entornos de exterior e interior mediante técnicas de aprendizaje profundo e información multisensorial

Ver/Abrir:
Tesis SF Juan Jose Cabrera Mora.pdf

48,57 MB
Adobe PDF
Compartir:

Título :
Reconocimiento de lugares en entornos de exterior e interior mediante técnicas de aprendizaje profundo e información multisensorial

Autor :
Cabrera Mora, Juan José

Tutor:
Payá Castelló, Luis
Gil Aparicio, Arturo

Editor :
Universidad Miguel Hernández

Departamento:
Departamentos de la UMH::Ingeniería de Sistemas y Automática

Fecha de publicación:
2026

URI :
https://hdl.handle.net/11000/39855

Resumen :
This thesis addresses the problem of place recognition in mobile robotics, a fundamental task for localization, autonomous navigation and mapping in complex and dynamic environments. An integrated approach is proposed that explores and develops robust and efficient methods based on different sensory modalities: omnidirectional cameras, LiDAR, pseudo-LiDAR and cross-modal place recognition between cameras and LiDAR. First, visual place recognition techniques using panoramic images captured by omnidirectional cameras are studied. Two approaches are presented and analyzed: a hierarchical method based on room classification followed by a fine position estimation and a global method based on Siamese neural networks and contrastive learning. The importance of data augmentation techniques specific to panoramic images is demonstrated, improving robustness against illumination variations under real operating conditions. Subsequently, MinkUNeXt is introduced, a new neural network architecture based on sparse 3D convolutions, optimized for place recognition from LiDAR point clouds. This architecture, together with the MinkNeXt 3D residual block, sets a new milestone in the state of the art, validated on benchmark datasets such as Oxford RobotCar and In-house. The thesis also explores the use of pseudo-LiDAR techniques in the context of visual place recognition. The proposed technique generates synthetic point clouds from panoramic images using advanced depth estimators. The Distilled Depth Variations data augmentation technique is proposed to simulate the inaccuracies in depth estimation by combining different estimators to generate the training data for the place recognition model. In this way, the model is more robust to depth inconsistencies caused by illumination changes. The results show that robust recognition can be achieved using only visual information, reducing costs and sensory complexity. Finally, place recognition between different sensor modalities is addressed by proposing CrossPlace, a method that transforms both 360º images captured by omnidirectional fisheye cameras and LiDAR scans into a common space of intensity, depth and semantic information. This allows the use of a single network architecture for both sensor modalities, avoiding the need to recapture databases and facilitating interoperability between heterogeneous robotic platforms. Experiments on the KITTI-360 dataset demonstrate that the proposed approach outperforms existing methods in both urban and highway scenarios. Overall, this thesis introduces novel architectures, data augmentation techniques, and sensor fusion strategies, setting new benchmarks in place recognition and paving the way for more autonomous, flexible, and adaptable robotic systems in real-world environments.
Esta tesis aborda el problema del reconocimiento de lugares en robótica móvil, una tarea fundamental para la localización, la navegación autónoma y el mapeo en entornos complejos y cambiantes. Se propone un enfoque integral que explora y desarrolla métodos robustos y eficientes basados en diferentes modalidades sensoriales: cámaras omnidireccionales, LiDAR, pseudo-LiDAR y reconocimiento cruzado entre cámaras y LiDAR. En primer lugar, se estudian técnicas de reconocimiento visual de lugares utilizando imágenes panorámicas capturadas por cámaras omnidireccionales. Se presentan y analizan dos enfoques: un método jerárquico basado en la clasificación de estancias y una posterior estimación fina de la posición, y un método global basado en redes neuronales siamesas y aprendizaje por contraste. Se demuestra la importancia de técnicas de aumento de datos específicas para imágenes panorámicas, mejorando la robustez ante variaciones de iluminación en condiciones reales de operación. Posteriormente, se introduce MinkUNeXt, una nueva arquitectura de red neuronal basada en convoluciones 3D dispersas, optimizada para el reconocimiento de lugares a partir de nubes de puntos LiDAR. Esta arquitectura, junto con el bloque residual MinkNeXt 3D, establece un nuevo hito en el estado del arte, y han sido validados en conjuntos de datos de referencia como Oxford RobotCar e In-house. La tesis explora también el uso de enfoques pseudo-LiDAR, generando nubes de puntos sintéticas a partir de imágenes panorámicas mediante estimadores de profundidad avanzados. Se propone la técnica de aumento de datos Distilled Depth Variations para simular las inexactitudes en las estimaciones de profundidad al combinar diferentes estimadores para generar los datos de entrenamiento del modelo de reconocimiento de lugares. De este modo, el modelo es más robusto ante las inconsistencias de profundidad debidas a los cambios de iluminación. Los resultados muestran que es posible alcanzar un reconocimiento robusto utilizando únicamente información visual, reduciendo costes y complejidad sensorial. Finalmente, se aborda el reconocimiento de lugares entre diferentes modalidades de sensor, proponiendo CrossPlace, un método que transforma tanto las imágenes 360º capturadas por cámaras omnidireccionales fisheye como las lecturas LiDAR al espacio común de la intensidad, la profundidad y la información semántica. Esto permite el uso de una única arquitectura de red para ambas modalidades de sensor, evitando la recaptura de bases de datos y facilitando la interoperabilidad entre plataformas robóticas heterogéneas. Los experimentos en el conjunto KITTI-360 demuestran que el enfoque propuesto supera a los métodos existentes tanto en escenarios urbanos como de autovía. En conjunto, la tesis contribuye con nuevas arquitecturas, técnicas de aumento de datos y estrategias de fusión sensorial, estableciendo nuevas referencias en el reconocimiento de lugares y abriendo líneas de investigación para sistemas robóticos con mayor autonomía, flexibilidad y adaptabilidad a entornos reales.

Palabras clave/Materias:
robótica móvil
visión omnidireccional
localización
deep learning
aumento de datos
imagen omnidireccional
descripción holística
red neuronal siamesa
mobile robotics
omnidirectional vision
localization
data augmentation
omnidirectional imaging
holistic description
siamese neural network

Área de conocimiento :
CDU: Ciencias aplicadas: Industrias, oficios y comercio de artículos acabados. Tecnología cibernética y automática
CDU: Generalidades.: Ciencia y tecnología de los ordenadores. Informática.
CDU: Ciencias aplicadas: Ingeniería. Tecnología

Tipo de documento :
info:eu-repo/semantics/doctoralThesis

Derechos de acceso:
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivatives 4.0 Internacional

Aparece en las colecciones:
Tesis doctorales - Ciencias e Ingenierías

Mostrar el registro Dublin Core completo del ítem Ver estadísticas

La licencia se describe como: Atribución-NonComercial-NoDerivada 4.0 Internacional.