[논문 읽기] Egocentric Gesture Recognition Using Recurrent 3D Convolutional Neural Networks With Spatiotemporal Transformer Modules(ICCV2017)

Egocentric Gesture Recognition Using Recurrent 3D Convolutional Neural Networks With Spatiotemporal Transformer Modules(ICCV2017)



description: 논문 읽은 정리 기사

url : h tp // 오페나세스 s.ぇ cvf. 코 m / 콘텐 t_ 가 cV_2017 / 파페 rs / 카오_ 에고 센 t c_ 게 s 얽힘_ 레코 g 치오 온_ cV_2017_ 페이 r. pdf

나름대로 해석한 메모가 됩니다.
실수가 있으면 부드럽게 말해주세요.

  • Title
    Egocentric Gesture Recognition Using Recurrent 3D Convolutional Neural Networks With Spatiotemporal Transformer Modules
  • Conference
    ICCV2017
  • Authors
    Congqi Cao, Yifan Zhang, Yi Wu, Hanqing Lu, and Jian Cheng
    중국 대학에서 나온 논문


  • 무슨 일이야?



    본 연구에서는 VR 기기와 같은 헤드 마운트 카메라로부터 착용자 자신의 제스처 동작을 end-to-end인 3D-RCNN으로 추정하는 수법을 제안한다.

    특징적인 점으로서 STN을 재귀 결합과 함께 사용한 모듈(RSTTM)을 제안하고 있다.
    이 구조는 공간 및 시간 차원 모두에서 3D 특징 맵을 표준 관점으로 변환합니다.



    선행 연구에 비해 무엇이 대단한가?



    헤드 마운트 카메라로부터의 인식을 실시하는 경우에는 카메라가 움직인다는 것과 시야가 좁다는 점이 어려웠다.
    본 연구에서는 카메라의 움직임에 대해 연구하고 있으며, 명시적으로 머리의 움직임을 추정하지 않고 end-to-end인 추정을 실시한다.

    기술의 방법이나 간은?



    STN (NIPS2015)은 이미지 데이터에 공간 불변성을 얻기위한 모듈이었습니다.
    본 연구에서는 STN을 확장하여 3D의 특징 맵을 공간과 시간 양쪽 차원에서 표준 시점으로 변환하는 STTM(spatiotemporal transformer module)을 제안한다.
    STTM은 다음 세 가지 요소로 구성됩니다.
  • LocalizationNetwork
    변환의 매개 변수 추정.
    이번에는 가장 일반적인 투영 변환 인 호모 그래피 변환을 선택했습니다 (4x4).
    아핀은 직사각형을 평행 사변형으로 만들었지만 호모 그래피는 사다리꼴로 변환 할 수 있습니다
  • GridGenerater
    추정 된 매개 변수로 이동 한 점의 좌표는 소수점 이하의 값이므로 정수로 반올림하여 이동 후 좌표를 수정합니다.
  • Sampler
    위의 요소에서 얻은 값에서 실제로 변환을 수행합니다

  • STTM에 재귀 레이어가있는 모듈 (RSTTM)을 사용합니다.

    어떻게 유효하다고 검증했는가?



    자작 데이터 세트를 사용하여 검증했다.

  • 자체 제작 데이터 세트
  • RGBD
  • 샘플 수
    24,000 gesture
    3,000,000 프레임

  • 기존 방법과의 비교

    정지시에는 1.6%의 정밀도 향상, 보행 시에는 4.0%의 정밀도 향상이 되었다.
    보행시에는 특히 정밀도의 차이가 보였다.
  • 혼합 행렬의 고찰

    움직임이 비슷한 분류의 어려운 동작을 잘 분류할 수 있게 되었다는 것.

  • 참고문헌

    좋은 웹페이지 즐겨찾기