논문 요약: Learning both Weights 및 d Connections for Efficient Neural Networks
8688 단어 기계 학습
저자: Song Han, Jeff Pool, John Tran, William J. Dally
원저 링크
Abstract
Introduction
읽기 가능한 DRAM 액세스가 에너지 소비량
Related Work
8자리의 고정 소수점을 이용하여 계산을 절단하는 연구
연구에 따르면 원시 신경 네트워크와 1% 이내의 정밀도가 낮아진 저급 근사 파라미터
벡터 양적 압축 심층 권적 네트워크 연구를 통해
파라미터의 희소함과 다른 방법의 네트워크 압축 방법
상기 연구의 발전, 또는 이 건의와 상기 양적화와Huffman 인코딩 압축의 세 가지 조합
글로벌 average pooling으로 모든 결합층을 교체하여 매개 변수의 수를 삭감하는 연구
네트워킹 기술을 사용한 제품
위에 GoogLenet을 사용했어요.
사전에 학습한 파라미터를 이용한 전송 학습에서 이런 방법은 정교하게 조화되기 매우 어렵다
헤더에 선형층을 추가하여 전송 학습 문제에 효과적
초기 연구에서 Weight Decay를 바탕으로 하는 네트워크 복잡성과 과도한 일치를 방지하는 파라미터 사이의 간격
Hessian 손실 함수를 바탕으로 네트워크 연결을 줄이는 연구
Weight Decay의 크기를 바탕으로 하는 희소 기법의 정밀도보다 더 좋은 방안을 제시했다
하지만 계산량이 증가했다
동상
HashedNets가 산열 함수를 이용하여 무작위 그룹 연결을 이용하여 모델 사이즈를 줄이는 최근 방법에 대한 연구
그룹화된 매개 변수는 하나의 매개 변수로 대표된다
이 연구는 파라미터의 희소함과 일치할 수 있다
동상
상술한 관련
해싱 충돌 최소화 및 효율성 향상
Learning Connections in Addition to Weights
제안 방법은 왼쪽 그림에서 보듯이 3단계
1. 일반 신경 네트워크 훈련
- 단, L1 또는 L2의 정규화
2. 간격(오른쪽 그림)
- 임계값 이하의 가중 매개 변수가 0으로 간격 연결
- 0으로 입력하거나 출력하는 신경원(번역문: 단원을 가리키는 말)마다 신경원 간격
- 해당 조건에 부합하는 뉴런은 네트워크에 아무런 기여도 하지 않으며, 궁극적으로는 해당 뉴런에 대한 모든 연결을 제거합니다.
- 볼륨신경망(CNN)의 경우 먼저 볼륨층을 고정시켜 모든 결합층만 희소하게 하고, 반대로 모든 결합층을 간헐적 볼륨층으로 고정한다
- 네트워크가 깊어져 사다리 인멸 문제가 뚜렷해지면 희소함으로 인한 오류를 복구하기 어렵다
3. 간격을 두고 훈련
- 정규화는 1과 같다
- 드롭다운 출력을 다음과 같이 설정합니다.
- Ni: i층의 뉴런 수
- Ci: i 레이어 의도 연결 수
- Cio: 원래 네트워크 모델의 레이어 i 연결
- Cir: 간격이 지정된 네트워크 모델의 레이어 i 연결
- DO: 원본 네트워크 모델의 종료율
- Dr: 분할 후 적용해야 할 드롭다운 비율
Experiments
다음 표는 이 방법을 각종 네트워크 모델에 응용한 결과
2열은 오류율, 3열은 매개변수 수, 맨 오른쪽은 매개변수 수의 압축률, Ref가 있는 것은 원시값, Pund는 희석 후
다음 표는 이 방법을 각종 네트워크 모델에 응용한 결과
2열은 오류율, 3열은 매개변수 수, 맨 오른쪽은 매개변수 수의 압축률, Ref가 있는 것은 원시값, Pund는 희석 후
위의 그림에서 가로축은 1층의 전체 결합층의 입력을 나타내고 세로축은 출력을 나타내며 색의 농도는 각 파라미터의 크기를 나타낸다
28개의 테이프가 형성된 것은 이미지가 28x28이기 때문이다
중앙 부근이 짙어지는 것은 구석이 특징으로 쓰이는 물건이 적고 중앙으로 갈수록 중요한 정보가 평가된 결과
AlexNet은 ImageNet(ILSVRC-2012), 1.2M을 훈련 샘플로 하고 50K를 검증 샘플로 한다
Discussion
정밀도와 간발율의 절충 조사 결과는 아래 그림과 같다
권적층은 간헐성이 낮다
겹겹이 쌓이는 것은 불필요성이 작기 때문이라고 여겨진다
항약성이 비교적 낮은 층에 대해 비교적 낮은 간격 한도값을 조정하였다
상기 이외의 네트워크의 적용 결과는 다음과 같다.
간격 전(왼쪽)과 후(오른쪽)의 매개 변수 분포
Conclusion
AlexNet으로 1/9 압축, VG-16 압축 매개변수로 1/13
Reference
이 문제에 관하여(논문 요약: Learning both Weights 및 d Connections for Efficient Neural Networks), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/naomi7325/items/701a74e65cd504ae26a9
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(논문 요약: Learning both Weights 및 d Connections for Efficient Neural Networks), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/naomi7325/items/701a74e65cd504ae26a9텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)