【semantic segmentation】PSPNet : Pyramid Pooling 최강설

개요





매우 단순한 네트워크이지만 좀처럼 정밀도가 나오는 PSPNet

a) 이미지 입력 ​​b) ResNet에서 특징을 추출한다 c) Pyramid Pooling에서 다양한 스케일의 특징을 학습하고 이미지 크기를 맞추어 결합한다. d) 1x1 convolution에서 출력 채널 수를 클래스 수와 일치시키는 semantic map을 출력한다.

github에 코드를 올릴 예정입니다.
htps : // 기주 b. 코 m / 요코 슌 / 세그 g t

비교 실험




  • max pooling보다 average pooling 쪽이 정밀도가 높았던 것 같다. max pooling이 특징이 명확하게 남아 좋다고 생각했지만, ,
  • B1236 쪽이 복수 사이즈로 pooling 하고 있기 때문에 B1보다 정밀도는 물론 것 높아지고 있다.
  • Pooling한 후 convolution으로 차원을 삭감하는 것으로 다소 정밀도가 오르고 있다. 여분의 차원이 줄어서 학습하기 쉬워진 것이 아닐까.

  • auxiliary loss



    (b) Feature Map을 생성하기 위한 ResNet의 중간층에서도 classification을 실시하고, d)와 같이 loss를 계산한다. 깊은 네트워크를 사용할 때 소실 경사를 줄일 수 있을 것 같다.

    결과



    입력


    ground truth


    출력


    batch size8에서 23epoch밖에 training 하지 않는데 좋은 느낌!
    resnet50의 pretrained weight를 사용했기 때문일까

    결론



    Pyramid Pooling은 역시 정확도가 올라갑니다.

    참고문헌



    Pyramid Scene Parsing Network
    htps : // 아 rぃ v. rg / pdf / 1612. 01105. pdf

    좋은 웹페이지 즐겨찾기