【논문 시리즈】강화 학습과 심층 학습을 조합한다
2123 단어 강화 학습심층 학습신경망DeepLearning
원문
강화 학습에서 자체 인코더가있는 심층 신경망
Sascha Lange and Martin Riedmiller (2010)
1. 요약
2. 배경
강화 학습은 다음 두 단계로 구성됩니다.
① 입력 데이터로부터 특징을 추출한다
②특징공간에서 교리(Policy)를 배우고 행동에 떨어뜨린다
지금까지 ①은 사람의 손으로 행해져 왔지만, Deep Learning이 대체하도록 기대되고 있다.
3. 골자의 이론
전체 분석 구조는 아래에 나와 있습니다.
포인트는 DL로 취득한 특징 공간을 종래의 RL의 학습 알고리즘(Fitted Q-Iteration)에 통합하는 점이다.
강화 학습의 기초는, 타서에 양보하지만, 에이전트(학습하는 주체)는, Q값(함수)을 탐욕법(Greedy method)이라고 하는 계산 규칙으로 산출해, 그 값에 근거해, 행동 규범(Policy) 결정합니다.
3. 모델 적용 예
6 * 6 = 36 픽셀의 이미지를 준비하고 알고리즘 하에서 사전 학습 (특징 추출).
400 에포크에서 분류가 완성되었다.
위 그림의 분류는 자기 인코더의 맥락에서 이루어집니다. 입력 데이터를 재구성 할 때 원래 데이터와의 오차를 다른 방법과 비교했습니다.
주성분 분석에 비해 오차가 길항하는 점도 있다.
하지만, 매뉴얼의 특징 추출이 가능한 점에서, 이 수법의 우위성이 선다.
마지막으로, 학습 된 패턴에 따라 에이전트가 행동 할 때 보상 함수의 결과를 보여줍니다 (이것은 강화 학습의 맥락).
300회당 극대에 가까워 600 에피소드 경과한 곳에서 거의 최대 보수에 수렴했다.
Reference
이 문제에 관하여(【논문 시리즈】강화 학습과 심층 학습을 조합한다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/To_Murakami/items/c552852049a93d2ccd74텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)