Adaptive Inference Graphs로 Convolutional Networks 읽기

2736 단어 기계 학습
Andreas Veit, Serge Belongie
arxiv , pdf

1. 어떤 물건?


클래스가 증가함에 따라 층수도 끊임없이 증가하고 있지만 서로 다른 클래스에 대해서는 필요하지 않은 층이 많이 포함되어 있다.
따라서 이 네트워크는 등급 식별에 필요한 층만 사용한다.

2. 선행 연구에 비해 어디가 센가?


식별 등급에 필요한 층만 실행함으로써 계산 시간도 단축할 수 있고 필요하지 않은 층을 통과하지 않기 때문에 정밀도도 높아진다.

3. 기술과 기법의 관건은 어디에 있는가?


일반적인 층의 관계는 하식으로 표시할 수 있다.
$$X_l=F_l(X_{l-1})$$
ResNet에는 다음과 같이 레이어를 건너뛰는 경로가 있습니다.
$$X_l=X_{l-1}+F_l(X_{l-1})$$
제시된 층은 다음과 같은 공식으로 표시할 수 있는 구조다.
$$
X_l=X_{l-1}+z(X_{l-1})\cdot F_l(X_{l-1})\\
where z(X_{l-1})\in {0,1}
$$
$z(X_{l-1})$는 다음 층의 문을 실행할지 여부를 결정하는 문입니다. 분리가 필요하지만 학습할 때 사다리가 필요하기 때문에 Gumbel-Max trick과softmax relaxation을 사용합니다.

특징도에서 최대치 필터링을 통해 얻은 데이터는 2층 FC 층을 통해 연관성 득점을 추정한다.
순차적으로 전파될 때, 추정 득점의argmax에서 이산된 결과를 얻는다.
역방향으로 전파할 때softmax를 통해 사다리를 얻을 수 있다.

4. 어떻게 유효성을 검증합니까?


ImageNet을 사용하여 ResNet과 비교



그 결과 동일한 구조의 ResNet 이상의 성능을 제공합니다.
또 층의 사용률을 낮추면 처리 속도를 높일 수 있다.

위 그림은 각 범주에서 도면층을 어떻게 사용하는지 시각화한 것이다.
각 범주에 특징이 있음을 알 수 있다.
그림의 왼쪽에서 볼 수 있듯이 입력 측의 첫 번째 층은 분류와 관계가 없기 때문에 101층 모델에서 입력 측의 층은 자주 사용된다.

비교적 적은 층의 이미지와 비교적 많은 층의 이미지를 사용하는 예



영상에서 전체를 잘 촬영하는 것은 매우 적은 층에서 추정된다.
반대로 대상이 작거나 일부분만 찍히면 층이 많이 필요하다.

adversarial attacks 검증



왼쪽의 도표는 적의 강도 횡축의 정밀도 세로축을 나타내며 ResNet에 비해 강건함을 알 수 있다.
오른쪽 도표는 층의 사용률을 나타내는데 큰 차이를 발견하지 못했다. 이는 원래 소음을 부여했기 때문에 추가적인 소음의 영향이 적다고 여겨진다.

5. 논란이 있습니까?


대항적인 공격이 강하다는 건 알겠지만 문을 대상으로 한 공격을 조사하면 재미있을 것 같다.

좋은 웹페이지 즐겨찾기