OpenAIGym PPO의 하이퍼파라미터 메모 #2b: 배치 사이즈 & 버퍼 사이즈(연속 행동 공간)편 에 이어, 이번은 연속 행동 공간의 환경에서 PPO를 학습시킬 때의 배치 사이즈, 그리고 (이어서) 버퍼 사이즈에 대해. 배치 크기 (batch_size)는 경사 강하의 각 업데이트에 얼마나 많은 샘플을 사용하는지에 해당합니다 배치 크기의 배수가 버퍼 크기 (buffer_size) 여야합니다 행동 공간이 이산 할 때는 작고, 연속일 때는 큰 것이 좋다 이전의 검증에서, 이산 행동 공간에 대해... OpenAIGym강화 학습메모chainerRLPPO PPO의 하이퍼파라미터 메모 #2a: 배치 사이즈(이산 행동 공간)편 이번에는 이산 행동 공간의 환경에서 PPO를 학습시킬 때의 배치 사이즈에 대해. 이라는 기사가 있어 배치 사이즈에 대해서 다음과 같은 것이 쓰여져 있다. batch_size corresponds to how many experiences are used for each gradient descent update. This should always be a fraction of the buff... OpenAIGym강화 학습메모chainerRLPPO PPO의 하이퍼파라미터 메모 #1: 최적화 기법편 전회의 기사 「 PPO의 원논문에서는 Adam이 권장됩니다. 그러나 이런 논의를 보았다. 실험을보고하는 논문도 있습니다. (그림은 상기 논문의 Figure 1.에서 인용) 논문 말하자면, PPO에서 학습률을 변경했을 때의 최적화 기법마다의 성능 변화가 이러한 것이다. 그렇다면 학습률 등을 최적화 방법이 제안하는 권장 값으로 비교할 때 어떻게 될까? CPU : Intel Core i7-8700... OpenAIGym강화 학습메모chainerRLPPO 강화 학습 34 연속적인 Agent의 동영상을 만든다 중학생으로부터 대학생의 AI 초학자를 대상으로 하고 있습니다. 강화 학습 28을 종료하고 있는 것이 전제입니다. 강화 학습의 도중에, 예를 들면 10000 스텝마다 agent를 보존하고, 그것을 한 번씩 연속해서 재생하고 싶습니다. 이렇게 하면 학습의 성장 과정이 보기 쉬울까. Youtube등으로 보는, 점점 능숙해져 가는 녀석입니다. chokozainerRL로 강화 학습을 하면, 이런 느낌... 강화 학습파이썬OpenAIGym 강화 학습 28 colaboratory+OpenAI+chainerRL 소 정리 (2019년 12월 8일에 chokozainerRL을 갱신하고 있습니다.) 중학생부터 대학생까지의 AI 초학자를 대상으로 하고 있습니다. 강화 학습 시리즈를 27까지 써 왔습니다. 하루 1개의 페이스였으므로, 약 1개월. 여기부터 시작하면 편해진다고 하는, 정리를 씁니다. 새로운 것은 없습니다. 손쉽게 GPU를 사용한 기계 학습을 시작한다면 colaboratory는 무료이므로 추천합니다. 번... OpenAIGym강화 학습파이썬colaboratorychainerRL 강화 학습 13 Mountain_car를 ChainerRL로 해 본다. 강화 학습 12까지 달성하고 있는 것이 전제가 됩니다. Ubuntu18.04쪽으로 갑니다. 먼저 만든 CartPole에서 CartPole-v0을 MountainCar-v0 대신 실행해 보았습니다. 난이도가 오르는 것 같습니다. 그대로 교체해 보았습니다만, 뭔가 다르다. gamma를 0.99로 하고 있습니다만. 사이트를 둘러보면 학습량이 많다. 많이 하는 것이 요령일까? 다음과 같이 설정했습니... 강화 학습파이썬chainerRLOpenAIGym OpenAI Gym의 CartPole-v0을 DQN으로 해결 OpenAI Gym의 CartPole-v0을 Keras-RL 샘플 DQN 으로 해결하려고했습니다. DQN 버전 과 Duel-DQN 버전 이 있으며 DQNAgent 생성자에서 구성 가능 DQN 버전 Duel-DQN 버전 50,000 단계 정도 시도했지만 둘 다 풀리지 않았습니다. 생성자시의 파라미터를 설정하면 풀 수 있을지도 모르지만, Keras==2.0.6라면, 제대로 움직이지 않게 되어 있... 강화 학습KerasKeras-RLOpenAIGym
PPO의 하이퍼파라미터 메모 #2b: 배치 사이즈 & 버퍼 사이즈(연속 행동 공간)편 에 이어, 이번은 연속 행동 공간의 환경에서 PPO를 학습시킬 때의 배치 사이즈, 그리고 (이어서) 버퍼 사이즈에 대해. 배치 크기 (batch_size)는 경사 강하의 각 업데이트에 얼마나 많은 샘플을 사용하는지에 해당합니다 배치 크기의 배수가 버퍼 크기 (buffer_size) 여야합니다 행동 공간이 이산 할 때는 작고, 연속일 때는 큰 것이 좋다 이전의 검증에서, 이산 행동 공간에 대해... OpenAIGym강화 학습메모chainerRLPPO PPO의 하이퍼파라미터 메모 #2a: 배치 사이즈(이산 행동 공간)편 이번에는 이산 행동 공간의 환경에서 PPO를 학습시킬 때의 배치 사이즈에 대해. 이라는 기사가 있어 배치 사이즈에 대해서 다음과 같은 것이 쓰여져 있다. batch_size corresponds to how many experiences are used for each gradient descent update. This should always be a fraction of the buff... OpenAIGym강화 학습메모chainerRLPPO PPO의 하이퍼파라미터 메모 #1: 최적화 기법편 전회의 기사 「 PPO의 원논문에서는 Adam이 권장됩니다. 그러나 이런 논의를 보았다. 실험을보고하는 논문도 있습니다. (그림은 상기 논문의 Figure 1.에서 인용) 논문 말하자면, PPO에서 학습률을 변경했을 때의 최적화 기법마다의 성능 변화가 이러한 것이다. 그렇다면 학습률 등을 최적화 방법이 제안하는 권장 값으로 비교할 때 어떻게 될까? CPU : Intel Core i7-8700... OpenAIGym강화 학습메모chainerRLPPO 강화 학습 34 연속적인 Agent의 동영상을 만든다 중학생으로부터 대학생의 AI 초학자를 대상으로 하고 있습니다. 강화 학습 28을 종료하고 있는 것이 전제입니다. 강화 학습의 도중에, 예를 들면 10000 스텝마다 agent를 보존하고, 그것을 한 번씩 연속해서 재생하고 싶습니다. 이렇게 하면 학습의 성장 과정이 보기 쉬울까. Youtube등으로 보는, 점점 능숙해져 가는 녀석입니다. chokozainerRL로 강화 학습을 하면, 이런 느낌... 강화 학습파이썬OpenAIGym 강화 학습 28 colaboratory+OpenAI+chainerRL 소 정리 (2019년 12월 8일에 chokozainerRL을 갱신하고 있습니다.) 중학생부터 대학생까지의 AI 초학자를 대상으로 하고 있습니다. 강화 학습 시리즈를 27까지 써 왔습니다. 하루 1개의 페이스였으므로, 약 1개월. 여기부터 시작하면 편해진다고 하는, 정리를 씁니다. 새로운 것은 없습니다. 손쉽게 GPU를 사용한 기계 학습을 시작한다면 colaboratory는 무료이므로 추천합니다. 번... OpenAIGym강화 학습파이썬colaboratorychainerRL 강화 학습 13 Mountain_car를 ChainerRL로 해 본다. 강화 학습 12까지 달성하고 있는 것이 전제가 됩니다. Ubuntu18.04쪽으로 갑니다. 먼저 만든 CartPole에서 CartPole-v0을 MountainCar-v0 대신 실행해 보았습니다. 난이도가 오르는 것 같습니다. 그대로 교체해 보았습니다만, 뭔가 다르다. gamma를 0.99로 하고 있습니다만. 사이트를 둘러보면 학습량이 많다. 많이 하는 것이 요령일까? 다음과 같이 설정했습니... 강화 학습파이썬chainerRLOpenAIGym OpenAI Gym의 CartPole-v0을 DQN으로 해결 OpenAI Gym의 CartPole-v0을 Keras-RL 샘플 DQN 으로 해결하려고했습니다. DQN 버전 과 Duel-DQN 버전 이 있으며 DQNAgent 생성자에서 구성 가능 DQN 버전 Duel-DQN 버전 50,000 단계 정도 시도했지만 둘 다 풀리지 않았습니다. 생성자시의 파라미터를 설정하면 풀 수 있을지도 모르지만, Keras==2.0.6라면, 제대로 움직이지 않게 되어 있... 강화 학습KerasKeras-RLOpenAIGym