solver.prototxt 매개 변수 설명(3)

http://www.mamicode.com/info-detail-1368127.html
solver.prototxt

net: "models/bvlc_alexnet/train_val.prototxt"  test_iter: 1000 #  test_interval: 1000 #  base_lr: 0.01 #        lr_policy: "step" #     drop  gamma        gamma: 0.1 stepsize: 100000 #  stepsize        ：  gamma display: 20 #  display     loss max_iter: 450000 # train     max_iter  momentum: 0.9 # weight_decay: 0.0005 # snapshot: 10000 #    snapshot ，       snapshot_prefix:  "models/bvlc_reference_caffenet/caffenet_train" solver_mode: GPU #       GPU

test_iter 테스트 할 때 교체 횟수,즉 test 가 필요 합 니 다.iter*batchsize(테스트 집합)=테스트 집합 크기,테스트 집합 batchsize 는 prototx 파일 에 설정 할 수 있 습 니 다
test_interval 훈련 할 때마다 testinterval 회 테스트 한번 만..
momentum 영감 은 뉴턴 의 제1 법칙 에서 나온다.기본 적 인 사고방식 은 우수한 것 을 찾기 위해'관성'의 영향 을 넣 는 것 이다.그러면 오차 곡면 에 평탄 한 구역 이 존재 할 때 SGD 는 더욱 빠 른 속도 로 공부 할 수 있다.
wi←m?wi?η?E?wi

train_val.prototxt

layer { #     name: "data" type: "Data" top: "data" top: "label" include { phase: TRAIN #                } transform_param { #          mirror: true #       crop_size: 227 #        mean_file: "data/ilsvrc12/imagenet_mean.binaryproto" } data_param { #         source: "examples/imagenet/ilsvrc12_train_lmdb" batch_size: 256 backend: LMDB } }

layer { name: "data" type: "Data" top: "data" top: "label" include { phase: TEST #      } transform_param { mirror: false #       crop_size: 227 #        mean_file: "data/ilsvrc12/imagenet_mean.binaryproto" } data_param { source: "examples/imagenet/ilsvrc12_val_lmdb" batch_size: 50 backend: LMDB } }

lr_mult 학습 율,하지만 최종 학습 율 은 solver.prototxt 설정 파일 의 base 를 곱 해 야 합 니 다.lr .
하면,만약,만약...mult 는 첫 번 째 는 weight 의 학습 율 을 나타 내 고 두 번 째 는 bias 의 학습 율 을 나타 낸다. "보통 비 아 스 의 학 습 률 은 weight 학 습 률 의 2 배 입 니 다."

decay_mult 가중치 감쇠,모델 의 over-fitting 을 피하 기 위해 서 는 cost function 에 규범 항목 을 추가 해 야 합 니 다.
wi←wi?η?E?wi?ηλwi

num_output 볼 륨 핵(filter)의 개수kernel_size 볼 륨 핵 크기.
볼 륨 핵 의 길이 와 너비 가 같 지 않 으 면 kernel 을 사용 해 야 합 니 다.h 와 kernel각각 설정

stride 권 적 핵의 보폭 은 기본적으로 1 이다.strideh 와 stridew.설정 합 니 다
pad 확장 가장자리,기본 값 0,확장 하지 않 습 니 다.
확장 할 때 좌우,상하 대칭 이다.예 를 들 어 볼 륨 핵 의 크기 가 5*5 이면 pad 를 2 로 설정 하면 네 개의 가장자리 가 모두 2 개의 픽 셀 을 확대 한다.즉,너비 와 높이 가 모두 4 개의 픽 셀 을 확대 하면 볼 륨 연산 후의 특징 도 는 작 아 지지 않 는 다. pad 를 통 해서 도h 와 padw.각각 설정 합 니 다.

weight_filler 가중치 초기 화.기본 값 은"constant"이 고 값 은 모두 0 입 니 다. 'xavier'알고리즘 으로 초기 화 할 때 도 많 고'gaussian'으로 설정 할 수도 있 습 니 다.

weight_filler { type: "gaussian" std: 0.01 }

bias_filler
편향 항목 의 초기 화.일반적으로"constant"로 설정 되 어 있 으 며,값 은 모두 0 입 니 다.

bias_filler { type: "constant" value: 0 }

bias_term 편향 항목 오픈 여부,기본 값 은 true,오픈group 그룹 을 나 누 면 기본적으로 1 그룹 입 니 다.만약 1 보다 크 면,우 리 는 볼 륨 의 연결 작업 을 하위 집합 에서 제한 합 니 다. 볼 륨 그룹 은 네트워크 의 인 자 를 줄 일 수 있 으 며,다른 역할 이 있 는 지 는 분명 하지 않다.
모든 input 는 모든 kernel 과 연결 해 야 하지만,그룹 을 나 누 는 이유 로 일부 kernel 과 만 연결 되 어 있 습 니 다. 예 를 들 어 그림 의 채널 에 따라 그룹 을 나 누 면 i 번 째 출력 그룹 은 i 번 째 입력 그룹 과 만 연결 할 수 있 습 니 다.

pool 풀 화 방법,기본 값 은 MAX 입 니 다.현재 사용 가능 한 방법 은 MAX,AVE 또는 STOCHASTIC
dropout_ratio 데 이 터 를 버 릴 확률

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

다양한 언어의 JSON

JSON은 Javascript 표기법을 사용하여 데이터 구조를 레이아웃하는 데이터 형식입니다. 그러나 Javascript가 코드에서 이러한 구조를 나타낼 수 있는 유일한 언어는 아닙니다. 저는 일반적으로 '객체'{}...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

solver.prototxt 매개 변수 설명(3)

좋은 웹페이지 즐겨찾기