논문 요약: A simple yet effective baseline for 3d human pose estimation

소개



다음 논문
[1] J. Martinez, et. al.
A simple yet effective baseline for 3d human pose estimation
요약. ICCV2017에 accept되었습니다.

2년 전에 발표된 낡은 논문이지만, 그 후의 논문에 준 영향을 생각해, 쭉 리서치 한다.

arXiv 링크:
htps : // 아 rぃ v. rg/아bs/1705.03098

코드가 저자인지 확실하지 않지만
htps : // 기주 b. 코 m / 우나 - 사우리아 / 3d 포세 바세
등 일부 존재.

개요


  • 단안 RGB 영상에서 3 차원 골격을 추정 할 때 발생하는 오차가 2 차원 골격을 추정 할 때의 오차에서 유래하거나 2 차원 골격을 3 차원 골격으로 변환 할 때의 오차로부터 유래 하는지 리서치했다
  • 결론은 2 차원 골격을 추정 할 때의 오차에서 유래했다
  • 그 때 단순한 MLP에서도 2차원 골격을 3차원 골격으로 정밀도 좋게 변환할 수 있음을 나타냈다

  • 문제 설정



    관절의 개수를 $n$로 한다.

    2차원에서의 각 관절의 좌표를 ${\rm\bf x}\in\mathbb{R}^{2n}$ , 3차원에서의 각 관절의 좌표를 ${\rm\bf y}\in\mathbb{ R}^{3n}$ 라고 한다.

    검증하고 싶은 내용은 $f^* :\mathbb{R}^{2n}\to\mathbb{R}^{3n}$ 되는 $f^*$ 가 얼마나의 정밀도를 가지고 있는가.

    따라서
    f^* = \min_f \frac{1}{N} \sum^N_{i=1} \mathcal{L} (f({\rm \bf x}_i) - ({\rm \bf y \rm}_i))
    

    를 요구한다. $f^*$ 는 신경망이다.

    신경망 아키텍처



    $f^* :\mathbb{R}^{2n}\to\mathbb{R}^{3n}$ 의 $f^*$ 는 다음과 같은 아키텍처입니다.


    [1] figure1부터

    (전 결합-batch norm-relu-dropout) x2 한 것에 입력을 add 하는 resicual block가 2개.

    2 차원 골격은 [2]의 stacked hourglass를 사용하여 구한다.

    결과



    결과 중 하나는 이런 느낌.


    [1]table2에서

    다른 방법보다 손실이 상당히 낮습니다. ··· 2차원 골격에서 3차원 골격으로의 변환 부분은 오차가 적다고 말할 수 있다.

    참조



    [2] A. Newell, K. Yang, and J. Deng. Stacked hourglass net-
    works for human pose estimation. In ECCV, 2016.

    좋은 웹페이지 즐겨찾기