강화 학습 13 Mountain_car를 ChainerRL로 해 본다.

강화 학습 12까지 달성하고 있는 것이 전제가 됩니다.
Ubuntu18.04쪽으로 갑니다.
먼저 만든 CartPole에서 CartPole-v0을 MountainCar-v0 대신 실행해 보았습니다.
난이도가 오르는 것 같습니다.

그대로 교체해 보았습니다만, 뭔가 다르다. . . .
gamma를 0.99로 하고 있습니다만.

사이트를 둘러보면 학습량이 많다.
많이 하는 것이 요령일까?
다음과 같이 설정했습니다.

chainerrl.experiments.train_agent_with_evaluation(
    agent, env,
    steps=1000000,           # Train the agent for 2000 steps
    eval_n_steps=None,       # 10 episodes are sampled for each evaluation
    eval_n_episodes=1,       # 10 episodes are sampled for each evaluation
    eval_max_episode_len=200,  # Maximum length of each episodes
    eval_interval=100,   # Evaluate the agent after every 1000 steps
    outdir='result')      # Save everything to 'result' directory
print('Finished.')

epsilon=0.003 했습니다.

나름대로 학습 시간이 걸렸지만 올라가고 있습니다.

2000회 학습의 곡선이 이쪽.

10000회 학습의 곡선이 이쪽.

10000회라면 85분 정도 걸립니다. 사용하지 않는 PC라면 좋지만.
모바일에서 평상시 사용하고 있는 PC라면 어떻게 해야 할까.

30번째 정도를 목표로 GPU를 시작하려고 합니다.
그 준비라고 하는지 조사를 하고 있습니다만, Chainer는 프로그램량이 극단적으로 적다. HDD상에서 8Mb 정도. tensorflow는 크고 300Mb 이상. GPU로서 Radeon을 사용하고 싶지만, chainer는 움직일까.

Reference

이 문제에 관하여(강화 학습 13 Mountain_car를 ChainerRL로 해 본다.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/chokozainer/items/16fcdb12a6cd559ad3a0

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다