solver.prototxt 매개 변수 설명(3)

http://www.mamicode.com/info-detail-1368127.html
solver.prototxt
net: "models/bvlc_alexnet/train_val.prototxt"  test_iter: 1000 #  test_interval: 1000 #  base_lr: 0.01 #        lr_policy: "step" #     drop  gamma        gamma: 0.1 stepsize: 100000 #  stepsize        :  gamma display: 20 #  display     loss max_iter: 450000 # train     max_iter  momentum: 0.9 # weight_decay: 0.0005 # snapshot: 10000 #    snapshot ,       snapshot_prefix:  "models/bvlc_reference_caffenet/caffenet_train" solver_mode: GPU #       GPU 

test_iter  테스트 할 때 교체 횟수,즉 test 가 필요 합 니 다.iter*batchsize(테스트 집합)=테스트 집합 크기,테스트 집합 batchsize 는 prototx 파일 에 설정 할 수 있 습 니 다
test_interval  훈련 할 때마다 testinterval 회 테스트 한번 만..
momentum  영감 은 뉴턴 의 제1 법칙 에서 나온다.기본 적 인 사고방식 은 우수한 것 을 찾기 위해'관성'의 영향 을 넣 는 것 이다.그러면 오차 곡면 에 평탄 한 구역 이 존재 할 때 SGD 는 더욱 빠 른 속도 로 공부 할 수 있다. 
wi←m?wi?η?E?wi

train_val.prototxt
layer { #     name: "data" type: "Data" top: "data" top: "label" include { phase: TRAIN #                } transform_param { #          mirror: true #       crop_size: 227 #        mean_file: "data/ilsvrc12/imagenet_mean.binaryproto" } data_param { #         source: "examples/imagenet/ilsvrc12_train_lmdb" batch_size: 256 backend: LMDB } }
layer { name: "data" type: "Data" top: "data" top: "label" include { phase: TEST #      } transform_param { mirror: false #       crop_size: 227 #        mean_file: "data/ilsvrc12/imagenet_mean.binaryproto" } data_param { source: "examples/imagenet/ilsvrc12_val_lmdb" batch_size: 50 backend: LMDB } }

lr_mult  학습 율,하지만 최종 학습 율 은 solver.prototxt 설정 파일 의 base 를 곱 해 야 합 니 다.lr .
하면,만약,만약...mult 는 첫 번 째 는 weight 의 학습 율 을 나타 내 고 두 번 째 는 bias 의 학습 율 을 나타 낸다.  "보통 비 아 스 의 학 습 률 은 weight 학 습 률 의 2 배 입 니 다."

decay_mult  가중치 감쇠,모델 의 over-fitting 을 피하 기 위해 서 는 cost function 에 규범 항목 을 추가 해 야 합 니 다. 
wi←wi?η?E?wi?ηλwi

num_output  볼 륨 핵(filter)의 개수kernel_size  볼 륨 핵 크기.
볼 륨 핵 의 길이 와 너비 가 같 지 않 으 면 kernel 을 사용 해 야 합 니 다.h 와 kernel각각 설정

stride  권 적 핵의 보폭 은 기본적으로 1 이다.strideh 와 stridew.설정 합 니 다
pad  확장 가장자리,기본 값 0,확장 하지 않 습 니 다.
확장 할 때 좌우,상하 대칭 이다.예 를 들 어 볼 륨 핵 의 크기 가 5*5 이면 pad 를 2 로 설정 하면 네 개의 가장자리 가 모두 2 개의 픽 셀 을 확대 한다.즉,너비 와 높이 가 모두 4 개의 픽 셀 을 확대 하면 볼 륨 연산 후의 특징 도 는 작 아 지지 않 는 다.  pad 를 통 해서 도h 와 padw.각각 설정 합 니 다.

weight_filler  가중치 초기 화.기본 값 은"constant"이 고 값 은 모두 0 입 니 다.  'xavier'알고리즘 으로 초기 화 할 때 도 많 고'gaussian'으로 설정 할 수도 있 습 니 다.
weight_filler { type: "gaussian" std: 0.01 }

bias_filler
편향 항목 의 초기 화.일반적으로"constant"로 설정 되 어 있 으 며,값 은 모두 0 입 니 다.
bias_filler { type: "constant" value: 0 }

bias_term 편향 항목 오픈 여부,기본 값 은 true,오픈group  그룹 을 나 누 면 기본적으로 1 그룹 입 니 다.만약 1 보다 크 면,우 리 는 볼 륨 의 연결 작업 을 하위 집합 에서 제한 합 니 다.  볼 륨 그룹 은 네트워크 의 인 자 를 줄 일 수 있 으 며,다른 역할 이 있 는 지 는 분명 하지 않다.
모든 input 는 모든 kernel 과 연결 해 야 하지만,그룹 을 나 누 는 이유 로 일부 kernel 과 만 연결 되 어 있 습 니 다.  예 를 들 어 그림 의 채널 에 따라 그룹 을 나 누 면 i 번 째 출력 그룹 은 i 번 째 입력 그룹 과 만 연결 할 수 있 습 니 다.

pool  풀 화 방법,기본 값 은 MAX 입 니 다.현재 사용 가능 한 방법 은 MAX,AVE 또는 STOCHASTIC
dropout_ratio  데 이 터 를 버 릴 확률

좋은 웹페이지 즐겨찾기