【StereoDepth】PDS : SoftArgMin을 대체하는 Disparity 추정

Practical Deep Stereo (PDS): Toward applications-friendly deep stereo matching



기존의 DeepLearning base로 한 Stereo Matching에서는 SoftArgMin이 사용되고 있었다.

그러나 기존의 SoftArgMin을 사용하여 Disprity를 ​​요구하는 경우 2가지 손상이 있다

· 서로 떨어진 값의 Disparity에서 Matching Cost가 높은 경우, 어중간한 위치에 Disparity를 ​​추정해 버린다.
・재교육 없이 모델을 보다 큰 시차 범위에 적용하고 싶은 경우는, 추정 정밀도가 악화될 가능성이 있다.

이것들을 해소하기 위해
inference => Sub-pixel MAP
training => Sub-pixel cross-entropy
두 가지를 제안한다.

SoftArgMin VS Sub-pixel MAP(maximum a posteriori)





SoftArgMin은 0~MaxDisparity까지의 모든 값을 고려하고 있기 때문에 어중간한 추정을 할 수 있다.
반면 Sub-pixel MAP은 최대값 근처만을 보고 Disparity를 ​​추정하므로 다른 Matching Cost가 높은 곳에 영향을 받지 않고 Disparity를 ​​추정할 수 있다.


d^가 모든 Disparity 중에서 Probability가 최대일 때의 Disparity.
d~가 d^에서 +-δ의 범위에서 SoftArgMin을 수행한다.

δ는 4로 설정

*P는 SoftMax에 의해 정규화되고 있다.

L1 Loss VS Sub-pixel cross-entropy




일반적으로 Cross Entropy Loss를 계산합니다. 종래의 방법에서는 하나의 Disparity의 출력에 대해 Loss를 계산하고 있었던 것에 대해, 전부의 Disparity에 있어서의 Probability의 값을 Ground Truth로부터의 거리를 바탕으로 Loss를 계산하고 있다.
*P는 SoftMax에 의해 정규화되고 있다.


Qgt(d)는 Laplacian 분포을 나타낸다.



그림과 같이 Laplace Distribuion은 Qgt(d)의 식으로 표현된다.

결과




Sub-Pix CrossEntropy Loss는 L1 Loss보다 빨리 수렴한 것 같다.

결론



Sub-pixel MAP을 사용하는 것으로 정밀도 좋고, 다양한 화상 사이즈의 입력에 대응할 수 있게 되었다.
Sub-pixel cross-entropy는 전체 Disparity에 대해 Loss를 계산하는 것은 재미 있다고 생각했지만, Disparity의 Ground Truth가 필요하다는 것은 Un-Supervised Learning을 할 수 없게 되므로, 범용성은 낮다고 느꼈다 .

그것과 Sub-pixel MAP를 Training에 사용할 수 있으면 재미있다고 느꼈기 때문에, 실제로 시험해 보고 싶다.

참고문헌



Practical Deep Stereo (PDS): Toward applications-friendly deep stereo matching
htps : // / r ぃ v. rg / pdf / 1806. 01677. pdf

좋은 웹페이지 즐겨찾기