본문 바로가기

Paper

TartanVO: A Generalizable Learning-based VO (arxiv 2021)

Abstract

Domain generalization의 first learning-based visual odometry

 

up-to-scale loss function을 제안 - monocular VO의 고질적인 문제인 scale ambiguity를 커버

 

camera intrinsic parameter를 모델에 포함

Introduction

왜 learning based 모델이 geometry-based method를 이기지 못할까?

 

기존 learning based method들은 

 

1) data의 diversity에 약해서 이다.

 

2) well-formulated geometry knowledge를 무시해서이다.

 

Introduction

<Main contribution>

1) data diversity on the generalization ability of VO model이 왜 중요한지 실험적으로 보여줬다.

 

2) up-to-scale loss 제안

 

3) Intrinsics Layer (IL)을 제안하여 다른 카메라에 대해서 generalization할 수 있는 모델

 

Method

Matching network(pretrained PWC-Net 사용) 와 modified pose network(Resnet50 backbone)로 구성. Pretrained Matching Network를 먼저 고정시키고 PoseNet을 학습한다음에(100000 iteration 후) 두개를 joint하게 학습

 

Training on large scale diverse data

* diverse scene과 motion pattern이 담겨있는 Tartan Air dataset을 쓰겠다.

* end-to-end loss function 

optical flow, pose에 대한 Ground truth 존재

 

Up-to-scale loss function

* KITTI dataset과 같은 경우에는 카메라의 height가 고정되어 있기 때문에, 만약에 조금이라도 바뀐다면, 동작을 잘 못하게된다.

 

* scale ambiguity를 바로 잡기 위하여 R값에 constraint를 걸어준다.

카메라 translation 정보에 cosine similarity loss를 걸어주었고, Rotation 정보에 L1 loss를 걸어준다.
translation vector를 normalization 해준다. 

 

Cross-camera generalization by encoding camera intrinsics

* Visual geometry 방법에서는 Essential matrix를 구하기 위해 camera intrinsic 정보가 필요하다.

 

* 기존 방법에서는 camera가 바뀌는 상황에 대한 generalization을 고려하지 않았다.

 

* camera가 기본적으로 가지고 있는 resolution 및 Field of View를 맞춰주는 작업

 

 

Intrinsic layer

1) Random cropping and resizing 2) original 크기로 resize

 

(a) 카메라마다 각 resolution이 가지는 Field Of View(FOV)가 다르다. (b) Fig 3.의 K들을 만드는 과정, 하나는 x방향으로 나머지는 y방향으로

Data generation for various camera intrinsics

 

* TartanAir 는 오직 하나의 f_x = f_y = 320, o_x =320, o_y = 240의 intrinsic을 가지고 있다.

 

* 하지만 우리 method를 적용해봤을 때, generalization performance가 improved되더라