Group Normalization에 대해 설명

소개



Group Normalization에 대해 조사하고 있었으므로, 정리했습니다.

Group Normalization이란?



Group Normalization(GN)은 입력 채널을 더 작은 하위 그룹으로 나누고 평균과 분산을 기준으로 이 값을 정규화합니다. GN은 단일 예제에서 작동하기 때문에 이 기술은 배치 크기에 의존하지 않습니다.

htps //w w. 천식 rfぉw. 오 rg / 아동 s / 쓰리 아 ls / ぁ ぇ rs_ r 마자 치온 s

정규화 유형





각 서브플롯은 입력 텐서를 나타냅니다. N은 배치 축, C는 채널 축, (H, W)는 공간 축(이미지 높이 및 폭 등)입니다. 파란색 픽셀은 이러한 픽셀의 값을 집계하여 계산된 동일한 평균과 분산으로 정규화됩니다.

htps //w w. 천식 rfぉw. 오 rg / 아동 s / 쓰리 아 ls / ぁい rs_의 r 마자 치온 s

Group Norm을 도입하면



ResNet-50





ImageNet의 분류 오차와 배치 크기의 비교 다이어그램. 이것은 ImageNet 훈련 세트에서 훈련된 ResNet-50 모델이며 검증 세트에서 평가됩니다. Group Norm은 배치 크기에 의존하지 않으므로 더 나은 성능을 기대할 수 있습니다.



ResNet-50의 검증 오차를 나타낸 그림. 배치 사이즈를 바꾸면 BN은 오차에 흔들림이 있지만 GN은 거의 같다는 것을 알 수 있다.



보기 좋게 보이지만 정확도를 비교해 보면 배치 크기가 낮아짐에 따라 GN의 정확도가 낮아지는 것을 알 수 있다. 특히 배치 사이즈 2일 때는 (-10.6)으로 상당히 낮아진다.
이러한 결과는 배치 평균 및 분산 추정이 지나치게 확률적이고 부정확할 수 있음을 보여준다.

VGG-16



정규화를 실시하지 않는 경우와 비교하여 GN/BN을 검토하기 위해 정규화층이 없어도 건전하게 학습할 수 있는 VGG-16을 생각한다. 각 컨벌루션 층 직후에 BN 또는 GN을 적용한다.



VGG-16에서 GN은 BN보다 0.4% 뛰어납니다. 이것은 VGG-16에서는 BN의 정규화 효과의 혜택이 적고 학습 오차가 적은 GN이 BN보다 우수하다는 것을 시사하고 있다고 생각된다.

향후 전망



GN 기반 모델은 최적이 아닐 수 있다는 점에 유의해야 합니다. 시스템을 재설계하거나 GN에 대한 새로운 하이퍼파라미터를 탐색하면 더 나은 결과를 얻을 수 있습니다. 게다가 우리는 GN이 회복모델(RNN/LSTM)이나 제네레티브모델(GAN)의 훈련에 적응하고 있기 때문에 앞으로 기대하고 있습니다.

요약



배치 사이즈가 늘어나면 메모리가 늘어나 힘들었기 때문에, 간이적인 모델 구축을 실시하고 있는 몸으로서는 고맙습니다.

참고문헌

좋은 웹페이지 즐겨찾기