논문 요약: Learning both Weights 및 d Connections for Efficient Neural Networks

8688 단어 기계 학습
쓰기 시간: 2015/6/8
저자: Song Han, Jeff Pool, John Tran, William J. Dally
원저 링크

Abstract

  • 신경 네트워크를 희석하는 불필요한 권한을 통해 계산 효율을 높이는 건의
  • Introduction

  • 신경 네트워크의 발전에 따라 파라미터 수량이 증가하고 계산 원가가 증가한다
  • D램 액세스도 증가하여 더 많은 에너지 필요

    읽기 가능한 DRAM 액세스가 에너지 소비량
  • 정밀도를 유지하는 동시에 희소한 파라미터로 계산 원가를 낮춘다
  • 모바일 장치에서 실시간 처리 가능
  • Related Work

  • [11] Vincent Vanhoucke, Andrew Senior, and Mark Z Mao. Improving the speed of neural networks on cpus. In Proc. Deep Learning and Unsupervised Feature Learning NIPS Workshop, 2011.
    8자리의 고정 소수점을 이용하여 계산을 절단하는 연구
  • [12] Emily L Denton, Wojciech Zaremba, Joan Bruna, Yann LeCun, and Rob Fergus. Exploiting linear structure within convolutional networks for efficient evaluation. In NIPS, pages 1269–1277, 2014.
    연구에 따르면 원시 신경 네트워크와 1% 이내의 정밀도가 낮아진 저급 근사 파라미터
  • [13] Yunchao Gong, Liu Liu, Ming Yang, and Lubomir Bourdev. Compressing deep convolutional networks using vector quantization. arXiv preprint arXiv:1412.6115, 2014.
    벡터 양적 압축 심층 권적 네트워크 연구를 통해
    파라미터의 희소함과 다른 방법의 네트워크 압축 방법
  • [14] Song Han, Huizi Mao, and William J Dally. Deep compression: Compressing deep neural network with pruning, trained quantization and huffman coding. arXiv preprint arXiv:1510.00149, 2015.
    상기 연구의 발전, 또는 이 건의와 상기 양적화와Huffman 인코딩 압축의 세 가지 조합
  • [15] Min Lin, Qiang Chen, and Shuicheng Yan. Network in network. arXiv preprint arXiv:1312.4400, 2013.
    글로벌 average pooling으로 모든 결합층을 교체하여 매개 변수의 수를 삭감하는 연구
    네트워킹 기술을 사용한 제품
  • [16] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. arXiv preprint arXiv:1409.4842, 2014.
    위에 GoogLenet을 사용했어요.
    사전에 학습한 파라미터를 이용한 전송 학습에서 이런 방법은 정교하게 조화되기 매우 어렵다
    헤더에 선형층을 추가하여 전송 학습 문제에 효과적
  • 제안
  • [17] Stephen Jose Hanson and Lorien Y Pratt. Comparing biases for minimal network construction with back-propagation. In Advances in neural information processing systems, pages 177–185, 1989.
    초기 연구에서 Weight Decay를 바탕으로 하는 네트워크 복잡성과 과도한 일치를 방지하는 파라미터 사이의 간격
  • [18] Yann Le Cun, John S. Denker, and Sara A. Solla. Optimal brain damage. In Advances in Neural Information Processing Systems, pages 598–605. Morgan Kaufmann, 1990.
    Hessian 손실 함수를 바탕으로 네트워크 연결을 줄이는 연구
    Weight Decay의 크기를 바탕으로 하는 희소 기법의 정밀도보다 더 좋은 방안을 제시했다
    하지만 계산량이 증가했다
  • [19] Babak Hassibi, David G Stork, et al. Second order derivatives for network pruning: Optimal brain surgeon. Advances in neural information processing systems, pages 164–164, 1993.
    동상
  • [20] Wenlin Chen, James T. Wilson, Stephen Tyree, Kilian Q. Weinberger, and Yixin Chen. Compressing neural networks with the hashing trick. arXiv preprint arXiv:1504.04788, 2015.
    HashedNets가 산열 함수를 이용하여 무작위 그룹 연결을 이용하여 모델 사이즈를 줄이는 최근 방법에 대한 연구
    그룹화된 매개 변수는 하나의 매개 변수로 대표된다
    이 연구는 파라미터의 희소함과 일치할 수 있다
  • [21] Qinfeng Shi, James Petterson, Gideon Dror, John Langford, Alex Smola, and SVN Vishwanathan. Hash kernels for structured data. The Journal of Machine Learning Research, 10:2615–2637, 2009.
    동상
  • [22] Kilian Weinberger, Anirban Dasgupta, John Langford, Alex Smola, and Josh Attenberg. Feature hashing for large scale multitask learning. In ICML, pages 1113–1120. ACM, 2009.
    상술한 관련
    해싱 충돌 최소화 및 효율성 향상
  • Learning Connections in Addition to Weights



    제안 방법은 왼쪽 그림에서 보듯이 3단계
    1. 일반 신경 네트워크 훈련
    - 단, L1 또는 L2의 정규화
    2. 간격(오른쪽 그림)
    - 임계값 이하의 가중 매개 변수가 0으로 간격 연결
    - 0으로 입력하거나 출력하는 신경원(번역문: 단원을 가리키는 말)마다 신경원 간격
    - 해당 조건에 부합하는 뉴런은 네트워크에 아무런 기여도 하지 않으며, 궁극적으로는 해당 뉴런에 대한 모든 연결을 제거합니다.
    - 볼륨신경망(CNN)의 경우 먼저 볼륨층을 고정시켜 모든 결합층만 희소하게 하고, 반대로 모든 결합층을 간헐적 볼륨층으로 고정한다
    - 네트워크가 깊어져 사다리 인멸 문제가 뚜렷해지면 희소함으로 인한 오류를 복구하기 어렵다
    3. 간격을 두고 훈련
    - 정규화는 1과 같다
    - 드롭다운 출력을 다음과 같이 설정합니다.
    - Ni: i층의 뉴런 수
    - Ci: i 레이어 의도 연결 수
    - Cio: 원래 네트워크 모델의 레이어 i 연결
    - Cir: 간격이 지정된 네트워크 모델의 레이어 i 연결
    - DO: 원본 네트워크 모델의 종료율
    - Dr: 분할 후 적용해야 할 드롭다운 비율

    Experiments


    다음 표는 이 방법을 각종 네트워크 모델에 응용한 결과

    2열은 오류율, 3열은 매개변수 수, 맨 오른쪽은 매개변수 수의 압축률, Ref가 있는 것은 원시값, Pund는 희석 후
  • LeNet-300-100은 Mnist에서 총 300개의 셀과 100개의 셀이 결합된 두 개의 숨겨진 레이어


    위의 그림에서 가로축은 1층의 전체 결합층의 입력을 나타내고 세로축은 출력을 나타내며 색의 농도는 각 파라미터의 크기를 나타낸다
    28개의 테이프가 형성된 것은 이미지가 28x28이기 때문이다
    중앙 부근이 짙어지는 것은 구석이 특징으로 쓰이는 물건이 적고 중앙으로 갈수록 중요한 정보가 평가된 결과
  • LeNet-5는 Mnist의 CNN 네트워크 모델입니다.

  • AlexNet은 ImageNet(ILSVRC-2012), 1.2M을 훈련 샘플로 하고 50K를 검증 샘플로 한다
  • Caffe를 사용한 AlexNet 모델
  • Nvidia Titan XGPU에서 75시간 학습 후 학습률 1/100173시간 지연

  • VG-16 위의 AlexNet 모델을 VG-16 모델로 대체
  • Discussion


    정밀도와 간발율의 절충 조사 결과는 아래 그림과 같다
  • 자색: L2가 정규화되어 간격을 두고 공부하지 않는 경우
  • 물: L1정규화, 희소한 학습을 하지 않는 경우
  • 주황색: L1 정규화 후 희소 학습을 하는 경우
  • 그린: L2를 정규화하여 간격을 두고 학습한 경우
  • 홍: L2를 정규화하여 간격 학습을 한 후 간격 학습을 한 경우
  • 다음 Figure 6는 CNN 폴딩 레이어(CONV)와 요약 레이어(FC)를 비교한 것입니다.

    권적층은 간헐성이 낮다
    겹겹이 쌓이는 것은 불필요성이 작기 때문이라고 여겨진다
    항약성이 비교적 낮은 층에 대해 비교적 낮은 간격 한도값을 조정하였다
    상기 이외의 네트워크의 적용 결과는 다음과 같다.

    간격 전(왼쪽)과 후(오른쪽)의 매개 변수 분포

    Conclusion


    AlexNet으로 1/9 압축, VG-16 압축 매개변수로 1/13

    좋은 웹페이지 즐겨찾기