【논문 시리즈】강화 학습과 심층 학습을 조합한다

원문



강화 학습에서 자체 인코더가있는 심층 신경망
Sascha Lange and Martin Riedmiller (2010)

1. 요약


  • (메모리 기반) 배치 강화 학습 (Reinforcement Learning; RL) 알고리즘을 고안했다. 이것에 의해, 자기 인코더로 DNN(Deep Neural Network)을 학습하고, 특징 공간을 창출할 수 있다.
  • 주요 기계 학습 알고리즘은 MLP (Multi Layer Perceptions), 소위 다층 자기 인코더를 사용합니다.

  • 2. 배경



    강화 학습은 다음 두 단계로 구성됩니다.
    ① 입력 데이터로부터 특징을 추출한다
    ②특징공간에서 교리(Policy)를 배우고 행동에 떨어뜨린다
    지금까지 ①은 사람의 손으로 행해져 왔지만, Deep Learning이 대체하도록 기대되고 있다.

    3. 골자의 이론



    전체 분석 구조는 아래에 나와 있습니다.
    포인트는 DL로 취득한 특징 공간을 종래의 RL의 학습 알고리즘(Fitted Q-Iteration)에 통합하는 점이다.
    강화 학습의 기초는, 타서에 양보하지만, 에이전트(학습하는 주체)는, Q값(함수)을 탐욕법(Greedy method)이라고 하는 계산 규칙으로 산출해, 그 값에 근거해, 행동 규범(Policy) 결정합니다.





    3. 모델 적용 예



    6 * 6 = 36 픽셀의 이미지를 준비하고 알고리즘 하에서 사전 학습 (특징 추출).
    400 에포크에서 분류가 완성되었다.



    위 그림의 분류는 자기 인코더의 맥락에서 이루어집니다. 입력 데이터를 재구성 할 때 원래 데이터와의 오차를 다른 방법과 비교했습니다.



    주성분 분석에 비해 오차가 길항하는 점도 있다.
    하지만, 매뉴얼의 특징 추출이 가능한 점에서, 이 수법의 우위성이 선다.
    마지막으로, 학습 된 패턴에 따라 에이전트가 행동 할 때 보상 함수의 결과를 보여줍니다 (이것은 강화 학습의 맥락).
    300회당 극대에 가까워 600 에피소드 경과한 곳에서 거의 최대 보수에 수렴했다.

    좋은 웹페이지 즐겨찾기