E자격 심층 학습DAY2

딥러닝 DAY2
◆복습
0NN의 구조
중간 레벨에서 입력한 정보를 처리하고 출력 레벨에서 출력합니다.
오차 함수로 대답의 차를 계산하다.그 차분으로 최적화하다.
◆ 학습의 흐름
중간층의 증가 방법
중간층이 증가할수록 복잡한 정보를 처리할 수 있지만 사다리가 사라지는 문제가 발생한다.
◆중간층을 늘리는 방법
☆ 테스트 확인(연쇄율의 원리를 사용하여dz/dx를 구한다)
z=t2, t=x+y
2t=2(x+y)=2x+2y
◆오차 역전파법의 문제점
0계단 사라짐 문제
사다리꼴 하강법에 관하여 사다리꼴이 점점 완화되고 하층의 매개 변수는 기본적으로 변하지 않는다.
0신호 함수의 특징
값 자체는 0~1이지만 미분시의 최고치가 0.25이기 때문에 중간층이 증가하고 곱셈의 횟수가 증가할수록 값이 0에 가까워지면서 사다리가 사라지는 문제가 발생한다.
☆ 테스트 확인(신호 함수를 내보낼 때 최대치는)
0.25
◆ 사다리가 사라지는 것을 막기 위해 애쓴다
303개
함수 선택 활성화
가중치의 초기 값 설정
배치 사양
0ReLU 함수(① 활성화 함수 선택)
음수의 경우 0보다 크고 0보다 큰 경우 Y=X는 미분되면 1로 이 값을 전파한다.
사다리가 사라지는 문제는 1을 곱해서 발생하지 않는 것이다.0의 경우 해당 부분의 가중치와 무관하므로 필요한 위치만 사용하는 값 = 모델이 해결됨(유효한 부분만 사용하는 모델이 됨)
0Xavier(②―1 가중치의 초기값 설정)
무게는 어떤 규칙에 따라 설정된다(대부분은 랜덤수이다)
그 규칙이 바로 사비엘(Xavier)입니다.
표준 정적 분포에 따라 권중치를 교정하는 방법을 잘 채택하였다.평균치는 0이고 방차는 1의 정적 분포(중심은 0, 최대치)
self.params['W1'] = np.random.randn(input_size, hidden_size)/nq.sqrt(input_layer_size)
self.params['W2']=np.random.randn(hidden_size,output_size)/nq.sqrt(hidden_layer_size)
중점은 상기 노드의 근수를 제외하고는
0He(②-2 무게의 초기값 설정)
루트 2/n으로 활성화 함수 제거
ReLU 함수를 사용할 경우 활성 함수가 거의 모두 0이 되므로 사용할 수 없습니다.
가중 원소를 상기 층의 노드수의 제곱근을 제외하고 얻은 값을 √2로 곱하여 얻은 값
self.params['W1'] = np.random.randn(input_size, hidden_size)/nq.sqrt(input_layer_size)*np.sqrt(2)
self.params['W2'] = np.random.randn(hidden_size, output_size)/nq.sqrt(hidden_layer_size)*np.sqrt(2)
☆ 확인 테스트(무게의 초기값을 0으로 설정하면 어떤 문제가 발생)
권중은 개성을 잃고, 권중갱신량은 모두 같아 역할을 발휘할 수 없다.
0회 처리 규범화 (③회 처리 규범화)
소량 단위로 입력값 데이터를 억제하는 방법
학습용 데이터를 작은 덩어리로 나누는 것을 소량이라고 한다.
GPU의 경우 소량으로 1~64장의 이미지를 처리할 수 있습니다.
TPU의 경우 1소량으로 1~256장의 이미지를 처리할 수 있습니다.
소량 단위로 입력치의 편차를 억제하는 방법을 소량 정규화라고 한다.
활성화 함수에 수치를 전달하기 전에 대량 귀일화 처리층을 넣었다
과잉 학습을 억제하다.
연습 문제
프로그램을 실행하는 동시에 각 방법을 사용할 때의 학습 진도를 실현하다
대량 정규화의 상황이 가장 순조롭게 학습되고 있음을 알 수 있다
☆ 확인 테스트
(일괄 처리 알고리즘과 미니 일괄 처리 알고리즘의 충식 문제)
정답: ①
◆ 학습률 최적화 방법
모듈
AdaGrad
RMSProp
Adam
◆모듈
오차를 매개 변수로 내보낸 후 학습률의 곱셈을 뺀 후 현재의 권중에 지난번 감법권중의 값과 관성의 곱셈을 더한다
Vt=μVt−1−ϵ∇EVt=μVt−1−ϵ∇E
self.v[key] = self.momentum* self.v[key] -self.learning_rate* grad[key]
국부적 으로 가장 잘 풀리는 것 이 아니라 전체적 으로 가장 잘 풀리는 것 이다
산골짜기에서 가장 낮은 위치까지의 시간이 매우 빠르다
요점은 관성을 사용하는 것이다.μ방법적당한 값을 드리겠습니다
전체 국면이 가장 잘 풀리다
◆AdaGrad
오차를 매개 변수로 내보내고 다시 정의한 학습률의 곱셈을 줄입니다.
0AdaGrad의 이점
사다리가 느린 사면에 비해 최적치에 가깝다.
0AdaGrad의 단점
학습률이 점점 낮아지기 때문에 때때로 안장 문제를 일으킬 수 있다.
◆RMSProp
오차를 매개 변수로 내보내고 다시 정의한 학습률의 곱셈을 줄입니다.
0RMMSProp의 이점
국부적 최적해가 아니라 전체적인 최적해다.
슈퍼 파라미터를 조정해야 하는 경우는 매우 적다.
〇Adam
과거의 사다리를 가리키는 지수의 쇠퇴 평균치.
과거의 경사율 제곱지수의 쇠퇴 평균치.
0 Adam의 이점
Momentam과 RMMSProp의 장점을 포함하는 알고리즘입니다.
실장연습Section2
아래에 기재하다.
기타 최적화 방법
AdamW
Adabound
RAdam
섹션 3 과외
과잉 학습
테스트 오차와 훈련 오차는 학습 곡선을 배반시킨다.
◆정규화
네트워크의 자유도(층수, 노드수, 파라미터 값 등)를 제한한다.
정규화 방법을 이용하여 과도한 학습을 억제하다.
로드 감소(Weight decay)
큰 가치를 얻으면 때때로 학습이 일어나기도 한다.
오차에 정규화항을 더해서 권중을 억제한다.
0L1 정규화(Lasso 정규화)
정규화항(벌칙항)은'L1 범수'를 적용한 정규화를 말한다.
0 L2 정규화(Riidge 정규화)
정규화항(벌칙항)은'L2 범수'를 적용한 정규화를 말한다.
드롭다운 출력
노드를 무작위로 삭제하여 학습합니다.
○ 훈련Section 실시 3
아래에 기재하다.
0할인 정규화
단원의 활성 비례를 제어하는 정규화 방법.
초파라미터로서 해석 정규화에 대해 얼마나 많은 계수와 활성을 중시하는지를 결정하는 비율을 설정한다.
◆ 권적신경망의 개념
권적층
첩층은 3차원 공간 정보를 배울 수 있는 층을 가리킨다.
단순형 세포를 모델로 고려한 것이다.
메우다
입력 이미지의 픽셀 주위를 픽셀로 둘러싸는 기술.
그림의 크기를 바꾸지 않는 방법입니다.
끝 부분의 특징량도 잘 잡아줍니다.
스트라이크
필터가 이미지를 이동하는 간격을 나타냅니다.
채널
각 필터에 대응하는 권적층 내의 신경원조를 가리킨다.
전체 결합층
각 밴드 링에서 나온 출력을 일반적인 신경 네트워크에 연결하는 층을 말한다.
○ 영상 학습 시 과제 전결합
RGB 채널 간의 연관성은 학습에 반영되지 않습니다.
공대환층
복잡형 세포를 모델링한 결과물이다.
기능은 입력 이미지에서 필터 모양의 위치 편차를 흡수하는 것이다.
실장연습Section4
아래에 기재하다.
◆ 추가 풀결합층
볼륨 필터 층과 볼륨 층을 통해 특징 부분을 추출한 이미지 데이터를 하나의 노드에 결합시켜 함수 변환을 활성화하는 값을 출력합니다.
◆ 최신 CNN
〇AlexNet
이 모델은 그 뒤에 이어지는 3층의 모든 결합층으로 구성되어 있으며 5층 권적층과 환층을 포함한다.
드롭다운 출력은 치수 4096의 모든 결합층 출력에 사용됩니다.
힐튼 교수진이 발표한 물체 식별 모델을 가리킨다.
물체 식별을 위해 이 구조는 처음으로 심층 학습의 개념과 권적 신경 네트워크의 개념을 채택했다.
0AlexNet의 특징
0 활성화 함수 ReLU
Max Pooling
GPU 활용
데이터 Augmentation(데이터 확장)
Dropout
◆ 실복연습 섹션5
아래에 기재하다.
다른 CNN 혜택
ZFNet(2013년)
GoogLeNet(2014년)
VGGnet(2014년)
ResNet(2015년)
SENet(2017년)

좋은 웹페이지 즐겨찾기