【StereoDepth】GC-Net: End-to-End로 Stereo Matching



End-to-End의 Stereo Depth Estimation의 기본 모델
Stereo Depth의 Deep Learning을 배우고 싶다고 사람은 우선 이 논문을 읽는 것을 추천

· Feature Extraction
・Cost Volume
· Learning Context
・Soft ArgMin

Feature Extraction



오른쪽과 왼쪽의 Feature Map을 추출하기 위해 2D Convolution을 실시한다.
이때 Shared-weight로 하는 것으로 오른쪽과 왼쪽의 이미지로 같은 특징을 포착할 수 있으므로, Left와 right의 Similarity를 ​​계산하는데 도움이 된다.

Cost Volume



입력           出力
[Width,Height,Channel]=>[Width,Height,Disparity+1,Channel]

Cost Volume은 입력의 Feature Map을 0~MaxDisparity(임의의 값)까지 1pixel씩 해 갈 뿐.

Learning Context



Cost Volume을 만든 시점에서 오른쪽과 왼쪽의 특징량이 가까운 것을 계산하면 Disparity는 출력할 수 있지만, 더 정밀도를 올리고 싶다!
Local의 컨텍스트의 Matching뿐만 아니라 이미지 전체(Global)의 Context도 학습하기 위해 3D Convolution을 실시한다.

요컨대 Refinement를 하는 네트워크

Soft ArgMin



얻은 [Width,Height,Disparity]에서 [Width,Height]의 Disparity Map을 얻기 위해 Matching Cost의 가장 높은 Disparity Layer를 출력하는 것이 아니라 가중치를 붙여 출력하는 것으로 sub pixel accuracy에서 Disparity를 ​​요구할 수 있다.


결론



매우 간단하고 알기 쉽다.
앞으로는 이 구조를 개량한 모델에 대해 보고 싶다!

참고문헌



End-to-End Learning of Geometry and Context for Deep Stereo Regression
htps : // 아 rぃ v. rg / pdf / 1703. 04309. pdf

좋은 웹페이지 즐겨찾기