사내 학습: AWS DeepRacer에서 기초 편(슈퍼 파라미터)을 개최

4899 단어 DeepRacerAWS

개시하다


사내 AWS 딥레이서 인구가 늘어 조금 따라가지 못하는 사람을 대상으로 사내에서 AWS 딥레이서 학습회 기초편을 개최하고 그 내용을 공개했다.
이 글은 기초편의 초파라미터에 대해 해설을 진행하였다.
기타 학습회의 내용에 관해서는 아래 보도를 확인해 주십시오.
  • 사내 학습회: AWS DeepRacer에서 기초편(모형 제작) 개최
  • 사내 학습회: AWS DeepRacer 기초편 개최(기록 취득)
  • 사내 학습회: AWS DeepRacer 응용편(로그 분석, 시각화) 개최
  • 하이퍼매개변수 개요


    슈퍼 파라미터는 기계 학습 알고리즘의 행위를 통제하기 위해 설정한 파라미터를 가리킨다.
    AWS DeepRacer는 다음과 같은 하이퍼매개변수를 사용합니다.
    슈퍼 매개 변수
    유효값
    의향
    계단이 내려간 대량 크기
    32/64/128/256/512
    최근 차량 Experience의 수량은 Experience 버퍼에서 무작위로 추출된 것으로 기초 신경 네트워크의 무게를 업데이트하는 데 사용된다.
    매거수
    3-10
    사다리가 내려가는 과정에서 훈련 데이터를 통해 신경망의 무게를 갱신하는 횟수다.
    학습률
    1e-8 - 1e-3
    학습률 제어의 경사도가 떨어지는 업데이트가 네트워크의 무게에 얼마나 기여하는지.
    엔트로피
    0 - 1
    정책에 임의적인 시기를 추가하는 것을 결정하는 데 사용됩니다.
    할인 계수
    0 - 1
    장래 보수를 기대하는 보수에 얼마나 기여할지 지정한다.
    손실 유형
    평균 제곱 오차/Huber 손실
    네트워크 권한을 업데이트하는 데 사용할 분실 함수 형식을 지정합니다.
    모든 정책 업데이트 교체 사이의 확장 에피소드 수량
    5 - 100
    학습 정책 네트워크의 무게를 측정하는 훈련 데이터를 가져오는 데 사용되는 빈틈 버퍼의 크기입니다.
    출처)AWS DeepRacer 개발자 가이드 > 모델의 훈련 및 평가 > AWS DeepRacer 콘솔을 사용하는 모델의 트레이닝 및 평가 > 수퍼 매개 변수를 체계적으로 조정

    용어 정의


    초파라미터의 의미를 이해하는 데 필요한 용어의 정의를 확인하다.

  • 에피소드: 차량이 임의의 출발점에서 출발하여 최종적으로 트럭을 완주하거나 트럭을 떠나는 기간

  • Experience 버퍼: 훈련 과정에서 일정 수량의 서로 다른 길이의 부분에서 수집된 대량의 질서정연한 데이터 포인트
  • 작은 이야기의 집합체
  • 자원 버퍼에서 무작위로 추출한 데이터를 사용하여 모델 학습
  • 하이퍼패라메트릭 이미지


    모든 정책 업데이트 교체 사이의 확장 세션 수


    AWS 딥레이서에 사용되는 강화된 모델의 트레이닝 알고리즘은 PPO(Proximal Policy Optimzation)다.

    Experience Replay Buffer와 하이퍼매개변수 정책 업데이트 반복 사이의 Experience 에피소드 수 이미지는 다음과 같습니다.

    경사율 하락의 대량 크기, epoke수, 학습률, 손실형


    AWS DeepRacer를 비롯한 기계학습 목표는 모델의 예측치와 실제 값 사이의 오차를 없애는 것이다.
    손실 함수로 모델의 예측치와 손실 값의 차이를 정의할 수 있고 손실 함수의 최소치를 계산하는 것은 기계 학습의 목표라고 할 수 있다.
    일반적으로 기계 학습에서 사다리꼴 하강법이라는 방법을 사용하여 최적해(손실 함수의 최소값)를 탐색한다.
    계단식 하강법의 그림은 아래 그림과 같다.

    손실 유형


    AWS DeepRacer에서는 평균 제곱 오차와 Huber 손실 중에서 모델 예측치와 절대치의 차이에 사용되는 손실 함수를 선택할 수 있다.

    학습률


    학습률(α)한 번에 얼마나 많은 공부를 해야 하는지를 정의했다.가치가 클수록 공부가 빨라지지만, 너무 크면 발산할 위험이 있다.반대로 그것을 작게 만들면 더 자세히 공부할 수 있지만 국부해에 빠질 위험이 있다.

    매거수


    Epoke 수(k)는 학습 데이터를 반복해서 학습하는 횟수를 가리킨다.Epoke 수는 학습 데이터의 정밀도 및 유효성 검사 데이터의 정밀도가 향상된 값으로 너무 많은 학습이 발생하지 않도록 지정해야 합니다.

    계단이 내려간 대량 크기


    학습 데이터 집합을 서브집합으로 나눌 때의 데이터 수.

    엔트로피


    엔트로피는'불분명','불확실성','예측불가'라는 뜻으로, AWS 딥레이스에서 엔트로피가 클수록 동작 공간이 넓어진다.훈련 중인 동작 공간의 선택을 랜덤으로 할 수 있다는 것이다.

    할인 계수


    장래 보수를 계산하는 공식은 다음과 같은 공식에 의해 정의된다.

    할인 계수(γ)장래의 보수에 대한 기대의 보수가 얼마나 큰 영향을 미칠지 결정하는 행동에서 미래의 얼마를 고려하는 것이다.
    예제)
  • γ=0의 경우: 현재 상태와 행동만 고려
  • γ=0.9의 경우: 머지않은 미래를 고려해

  • 슈퍼 파라미터의 고찰


    수치를 높일 때의 장점과 단점에 대한 고찰은 다음과 같다.
    매개 변수
    장점
    결점
    계단이 내려간 대량 크기
    가중치 갱신 안정화
    단련에 소요되는 시간이 길어지다
    매거수
    훈련의 정밀도를 높일 수 있다
    단련에 소요되는 시간이 길어지다
    학습률
    그로 하여금 되도록 빨리 단련하게 할 수 있다
    보수는 거두기 어렵다.
    엔트로피
    행동을 랜덤으로 할 수 있다
    단련에 소요되는 시간이 길어지다
    할인 계수
    미래의 절차를 고려하여 동작 공간을 선택하다
    단련에 소요되는 시간이 길어지다
    모든 정책 업데이트 교체 사이의 확장 에피소드 수량
    가중치 갱신 안정화
    단련에 소요되는 시간이 길어지다

    총결산


    이 문서에서는 AWS DeepRacer에 사용되는 하이퍼매개변수에 대해 설명합니다.
    해명에 착오가 있을 수 있지만 용서해 주시기 바랍니다.

    좋은 웹페이지 즐겨찾기