Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

Learning Equivariant Features for Visual Correspondence and Pose Estimation

Title
Learning Equivariant Features for Visual Correspondence and Pose Estimation
Authors
이종민
Date Issued
2024
Publisher
포항공과대학교
Abstract
This dissertation presents a comprehensive study on advancing visual correspondence and pose estimation, which are among the most fundamental and crucial problems in computer vision. Traditional hand-crafted algorithms often fail in unexpected corner cases, and existing learning-based models struggle with generalizing to unseen data during training. To address these issues, this research introduces a novel approach by incorporating equivariant learning into deep feature extraction, ensuring geometric robustness and improved generalization in visual correspondence and pose estimation tasks. This equivariant feature learning leverages the strengths of both classical hand-crafted algorithms and modern learning-based algorithms. Additionally, the proposed equivariant framework enables modeling uncertainty arising from pose ambiguity and 3D symmetries while enhancing data sampling efficiency. By representing the output as a non-parametric probability distribution, our method also benefits from the advantages of probabilistic prediction. The outcomes of this research have profound implications for various spatial intelligence system applications, including 3D reconstruction, robotics, autonomous vehicles, visual recognition and perception, and augmented reality and virtual reality (AR/VR). The study introduces several novel methodologies for equivariant local feature extraction to tackle the challenges of visual geometry, particularly in visual correspondence and pose estimation tasks. The initial method proposes a self-supervised learning framework to obtain characteristic local scales and orientations that remain consistent under geometric and photometric changes. This framework evolves into a dense histogram alignment loss technique, assigning local orientations from dense equivariant maps to keypoints for better regional discrimination. Furthermore, the research advances to extract discriminative and invariant descriptors from equivariant features through a group-aligning method, which maps equivariant features to invariant representations without losing feature discriminability. Finally, the dissertation extends these methodologies to predict 3D poses in an end-to-end manner using an SO(3) equivariant network on a sphere, addressing the limitations of 3D rotation representations. The four methodologies proposed in this dissertation create a cohesive system that scales from pixel-level to local and global analysis, setting a new standard for visual correspondence and pose estimation. This research contributes the development of spatial AI by extending current AI systems from purely computational environments to real-world applications in physical space, demonstrating substantial potential in various industrial fields, including 3D vision, computer graphics, robotics, and AR/VR. Future research directions may explore rotational equivariance in other tasks, investigate more effective 3D spatial representations, and further optimize computational efficiency, building on the solid foundation laid by this dissertation for continued advancement in the field of computer vision and beyond.
이 논문은 컴퓨터 비전에서 가장 근본적이고, 중요한 문제인 시각적 대응 및 자세 추정을 위한 새로운 접근법을 제시합니다. 기존 기법들은 수작업 알고리즘이나, 심층 학습 모델을 사용하여 지역 특징을 추출합니다. 그러나, 수작업 알고리즘은 연구자와 엔지니어가 고려하지 못한 코너 케이스에 취약하며, 기존의 학습 기반 모델은 학습 시 사용하지 않은 데이터에 대해 일반화 성능이 부족합니다. 본 연구는 이러한 문제를 해결하기 위해, 기하학적 조건을 심층 학습 네트워크에 추가한 등변 학습을 도입하여, 모델 개발 당시에 예상하지 못한 코너 케이스에 강인하고, 일반화 성능이 뛰어난 시각적 대응 및 자세 추정 기법을 제안합니다. 제안하는 등변 특징 추출은 고전적인 수작업 알고리즘의 장점과, 최신 학습 기반 알고리즘의 장점을 조화롭게 결합한 새로운 방식입니다. 이 방식은 자세 모호성과 대칭성으로 인한 불확실성을 모델링할 수 있으며, 데이터 샘플링 효율성을 향상시켜, 기존 수작업 알고리즘과 심층 학습 모델의 한계를 극복합니다. 본 연구의 결과는 3D 공간 재구성, 로봇 공학 및 자율 주행 차량, 시각 인식 및 인지, 증강 현실 및 가상 현실(AR/VR) 등 학계와 산업계를 아우르는, 다양한 공간 지능 시스템 응용에 중요한 영향을 미칩니다. 이 논문의 기술적인 기여는 시각 기하학의 문제, 특히 시각적 대응 및 자세 추정 작업의 문제를 해결하기 위해 등변 로컬 특징 추출을 위한 여러 혁신적인 방법론을 제안합니다. 먼저, Self-Supervised Scale and Orientation Learning (Self-Sca-Ori) 방법은 전통적인 로컬 특징 추출 기법에서 벗어나, 히스토그램 정렬을 활용하여 심층 신경망의 출력 분포 벡터를 주요 값으로 이동시키는 방식을 제안합니다. 이를 통해 자기 지도 학습을 통해 기하학적 변동을 효과적으로 해결할 수 있는 포괄적인 패치 포즈 표현을 제공하였습니다. 또한, Rotation-Equivariant Keypoint Detection (REKD) 방법은 명시적인 회전 등변 CNN을 활용하여 로컬 방향에 대한 회전 등변성을 보장합니다. 이 방법은 세상에서 가장 빈번하게 나타나는 패턴인 회전 변화에 집중하여, 이전 연구의 히스토그램 정렬을 이미지 전역으로 적용하는 조밀한 히스토그램 정렬 학습으로 확장합니다. 또한, 창 기반 키포인트 탐지 손실을 앵커 기반 및 호모그래피 적응과 결합하여, 더 신뢰할 수 있고 반복 가능한 키포인트 탐지 및 일관된 정확한 방향 추정을 가능하게 합니다. 더 나아가, Rotation-Equivariant Local Features (RELF) 방법은 그룹 정보를 유지하면서 등변 특징을 불변 특징으로 매핑하는 새로운 그룹 정렬 기법을 도입합니다. 이 방법은 다양한 불변 매핑 방법과 호환되며, 자기 지도 방식으로 극단적인 회전 변화에 대한 강인성을 향상시킵니다. 마지막으로, 3D Equivariant Pose Harmonics Estimator는 단일 이미지 자세 추정의 효율성과 정확성을 크게 향상시켰습니다. 특히, 자세 모호성과 3D 대칭성 상황에서 SO(3) 등변 네트워크를 활용하여 계산 비용을 줄이고, 주파수 도메인에서 구면 조화 함수의 회전인 Wigner-D 행렬을 예측하여, 기존의 3D 회전 표현의 한계를 극복하였습니다. 이 논문에서 제안된 네 가지 방법론은 이미지의 픽셀 수준부터 로컬, 글로벌로 확장되는 하나의 시스템을 만듭니다. 이는 시각적 매칭의 새로운 기준을 제시하며, 3D 비전, 컴퓨터 그래픽스, 로봇 공학 및 AR/VR 등 다양한 산업 응용 분야에서 상당한 잠재력을 보여줍니다. 이 연구는 현재 기술의 한계를 넘어서 보다 적응력 있고 효율적인 컴퓨터 비전 시스템의 개발에 기여합니다. 또한, 현재 컴퓨터 속에서만 존재하는 인공지능 (AI) 시스템을, 물리적 공간에서 작동하도록 확장하는 공간 지능 (Spatial AI)으로 확장하는 데에 중요한 역할을 합니다. 미래 연구 방향으로는 다른 작업에서의 회전 등변성을 탐구하고, 3D 공간에서 더 효과적인 회전 표현을 조사하며, 계산 효율성을 더욱 최적화하는 것이 포함될 수 있습니다. 이 논문에서 이루어진 진보는 이러한 탐구를 위한 견고한 토대를 마련하여 시각적 대응 분야 및 그 이상에서의 지속적인 발전을 약속합니다.
URI
http://postech.dcollection.net/common/orgView/200000806125
https://oasis.postech.ac.kr/handle/2014.oak/124059
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse