강화 학습 13 Mountain_car를 ChainerRL로 해 본다.

강화 학습 12까지 달성하고 있는 것이 전제가 됩니다.
Ubuntu18.04쪽으로 갑니다.
먼저 만든 CartPole에서 CartPole-v0을 MountainCar-v0 대신 실행해 보았습니다.
난이도가 오르는 것 같습니다.

그대로 교체해 보았습니다만, 뭔가 다르다. . . .
gamma를 0.99로 하고 있습니다만.

사이트를 둘러보면 학습량이 많다.
많이 하는 것이 요령일까?
다음과 같이 설정했습니다.
chainerrl.experiments.train_agent_with_evaluation(
    agent, env,
    steps=1000000,           # Train the agent for 2000 steps
    eval_n_steps=None,       # 10 episodes are sampled for each evaluation
    eval_n_episodes=1,       # 10 episodes are sampled for each evaluation
    eval_max_episode_len=200,  # Maximum length of each episodes
    eval_interval=100,   # Evaluate the agent after every 1000 steps
    outdir='result')      # Save everything to 'result' directory
print('Finished.')

epsilon=0.003 했습니다.

나름대로 학습 시간이 걸렸지만 올라가고 있습니다.

2000회 학습의 곡선이 이쪽.


10000회 학습의 곡선이 이쪽.


10000회라면 85분 정도 걸립니다. 사용하지 않는 PC라면 좋지만.
모바일에서 평상시 사용하고 있는 PC라면 어떻게 해야 할까.

30번째 정도를 목표로 GPU를 시작하려고 합니다.
그 준비라고 하는지 조사를 하고 있습니다만, Chainer는 프로그램량이 극단적으로 적다. HDD상에서 8Mb 정도. tensorflow는 크고 300Mb 이상. GPU로서 Radeon을 사용하고 싶지만, chainer는 움직일까.

좋은 웹페이지 즐겨찾기