[논문] Proximal Policy Optimization Algorithms(PPO, 2017)

Proximal Policy Optimization
Releasing PPO, a new class of reinforcement learning algorithms that excel at simulated robotics tasks: https://t.co/MsGrJDCfxK pic.twitter.com/MC8rL3lB0c — OpenAI (@OpenAI) 2017년 7월 20일

개요


  • 방략적 사다리법을 바탕으로 하는 방법
  • 을 제시했다. 이 방법은 반복적으로 환경과의 교환을 통해 데이터와'대리'목적 함수의 최적화를 얻는다.
  • 에서 제시한 방법은 PPO로 명명되었다.TRPO의 장점을 계승하는 동시에 설치가 쉽고 일반적이며 (실험) 샘플 효율이 좋다
  • PPO는 로봇 제어의 시뮬레이션이든 Atari든 이전의 방법보다 더 좋은 결과를 얻을 수 있다

배치


  • 심층 강화 학습에서 DQN/(원시적)방략 사다리법/TRPO/자연방략 사다리법이 선행되지만 큰 모델과 병렬 설치에 대해 축소, 데이터 효율이 좋고 노봉(=파라미터 조정이 없으면 각종 문제를 해결할 수 있다)의 방법의 개발 여지가 있다
    • (함수 근사한) Q 학습이 연속 상태보다 약하거나 이론 분석에 진전이 없음
    • 원시 방략 사다리법 데이터 효율성과 노봉성 차이
    • TRPO는 복잡하여 삭제 및 매개변수 공유 등의 아키텍처를 지원할 수 없음

  • 비율을 제거하고 비관적인 평가 방안과 같은 새로운 목적 함수를 만들어 TRPO를 개선하는 새로운 방법을 제시했다
  • 방안의 최적화는 방안에서 나온 데이터 샘플링과 수주 동안의 최적화를 반복적으로 진행
  • 제안법(향후 PPO라고 함)은 연속 제어 작업의 성능이든 Atari의 성능이든 모두 좋다

배경: 정책 최적화


방략 계단법



의 사다리에 따라 사다리법을 진행하다.단,


  • $\pi_\theta$는 확률 정책
  • $\hat{A_t}$는 시각 t의 우세 추정량
  • $\hat{\mathbb{E}}_t$는 기대치의 견본과 평균 비슷하다

자동 미분을 위해 목적 함수를 양으로 지정하려면 다음과 같이 하십시오.


Trust Region Methods


TRPO에서 목적 함수("프록시(surrogate)"목적 함수)는 업데이트에 제한이 있습니다.


이것은 공멍 사다리법을 통해 효과적으로 해답을 구할 수 있다. 그 중에서 선형 근사를 목표 함수에 설정하고 2단계 근사를 제약에 설정할 때p>
TRPO를 정당화하는 이론은 사실상 제한이 아니라 정규화된 방법을 제시한다.


위의 목적 함수, KL 집합의 기대치가 아닌 최대치를 얻기 위해 방책 $\pi$의 비관적 평가(하한선) 형성sup id="fnref1">


Clipped Surrogate Objective


로 작성하면 TRPO의 프록시 목적 함수는



'CPI'는'conservative policy iteration'(보수적인 방법의 반복)을 가리킨다.

그냥 그렇다면 업데이트량이 너무 많아져서 $r_제한p>
제안법 PPO의 주요 목적 함수는 다음과 같습니다.



$\epsilon=0.2$는 하이퍼패라메트릭입니다.

(7)식의min은 비관적인 평가를 나타낸다p>

적응 KL 벌칙 인자


$L^{\text{CLIP}}$를 대체하거나 그 외에 다음과 같은 방법을 고려한 (단, CLIP의 정밀도가 더 좋음):



1.5 또는 2 이런 숫자는 계발식으로 결정된다p>

알고리즘


분산을 줄이기 위해 $L_t^{\text{VF}} = (V_\theta(s_t) - V_^2$
검색을 촉진하기 위해 엔트로피 도입(=fnref4) > $S[\pi_\theta](s_t)$
다음 기능을 최대화합니다.


추가적인 이점 함수 고려 T단계:


또한 (10)식은 다음과 같이 일반화할 수 있습니다 ($\lambda=1$일치).


PPO에서 N개의 actor를 병행하여 T걸음을 걷고 데이터를 수집하며 사다리꼴을 실행합니다p>

실험


대체 함수 비교



비교의 각 방법을 통해 각각 초파라미터를 찾았기 때문에 실험 대상의 환경이 비교적 가벼운 방법을 이용하였다br/>
즉, OpenAI Gym을 이용한 MuJoCo의 7가지 로봇 제어 작업이다.

각 하이퍼패라메트릭은 각각 100만 단계의 업데이트를 진행했습니다.

각 임무의 점수를 조정하여 무작위 방안에 따라 0점, 최고 1점을 얻는다p>

방법의 근사한 사용은 신경망을 사용한다. 이 신경망은 64개 단원의 전체 결합층을 두 겹으로 쌓고tanh를 통해 고스 분포의 평균치와 표준 편차를 출력한다.

전략과 가치 네트워크의 매개 변수는 공유되지 않고 엔트로피 항목을 이용하지 않는다p>

연속 제어 임무를 처리할 수 있는 다른 방법과의 비교



PPO는 방금 실험에서 가장 좋은 슈퍼 파라미터를 이용했다.


인간계의 주행과 조타


PPO가 고차원에 대한 연속적인 제어 임무도 강하다는 것을 보여주기 위해 유인원에게 돌을 던지면서 주행, 조타, 상승을 배우게 한다p>
동영상은 공식.에 있습니다.돌을 많이 던져서 불쌍해요.p>

Atari에서 비교



PPO는 이산 행위인 아타리에서도 좋은 결과를 얻었습니다.p>

참고 자료








  1. 여기서 말하는 것은'최대치가 기대치보다 크기 때문에 최대치로 평가하는 식의 하한선은 낮아질 것 같다. 즉 비관적인 평가'라는 뜻이지만 자신감이 떨어진다

  2. 대상 함수에 KL을 추가합니다. 그 계수는 $\beta$이지만 알고리즘의 두 번째 단계에서 이 계수를 자동으로 수정합니다.그러니까'적응성 KL 벌칙 계수'.

  3. $V_t^{\text{targ}}$는 DQN 등에서 사용하는 target value입니다. 즉, 조금 전의 매개 변수에 근거한 추정값입니까? 



  4. 일반적으로 방안에 관한 엔트로피라는 뜻

  5. TRPO의 논문과 같다.즉, 출력이 최종적으로 출력하고자 하는 벡터와 같은 비트의 평균과 표준 편차(즉, 비트의 2배)의 네트워크를 생성하고 이 평균과 표준 편차의 고스값에 따라 값을 샘플링한다.하지만 TRPO를 제대로 읽지 못해 자신이 없다

  6. 'A2C가 A3C보다 낫다'고 쓰여 있는데, 강화 학습은 결국 아무것도 모른다


좋은 웹페이지 즐겨찾기