강화 학습 28 colaboratory+OpenAI+chainerRL 소 정리
중학생부터 대학생까지의 AI 초학자를 대상으로 하고 있습니다.
강화 학습 시리즈를 27까지 써 왔습니다. 하루 1개의 페이스였으므로, 약 1개월.
여기부터 시작하면 편해진다고 하는, 정리를 씁니다. 새로운 것은 없습니다.
손쉽게 GPU를 사용한 기계 학습을 시작한다면 colaboratory는 무료이므로 추천합니다. 번거로운 설치도 필요없고.
다만, 그것만으로는 움직이지 않기 때문에, 순서를 정리해 보자고 하는 것입니다.
프레임 워크에 chainerRL을 선택했습니다. tensorflow도 좋지만, 사용한 적이 없기 때문에,,,.
그중 tensorflow도 사용해 보겠습니다.
도중에도 쓰지만 가능한 한 소스 코드를 보자. github에 게시되었습니다. 함수명을 알기 쉽기 때문에 이해하기 쉽다고 생각합니다. chainer는 일본인이 만들고 있기 때문에 영어로 읽기 쉽습니다. 라고 할까, chrome로 일본어 번역하면, 제대로 된 일본어가 됩니다. tensorflow는? ? ? 입니다.
chainerRL의 래퍼인 chokozainerRL을 공개하고 있습니다. 큰 일은 하고 있지 않습니다만, 강화 학습의 「인간의 학습」에 도움이 된다고 생각합니다.
1 Google 계정 취득
여기에서 작성하십시오.
Google 계정 만들기
htps : // 꼬리 rt. 오, ぇ. 코 m/아코응 ts/안수ぇr/27441? hl = 그럼
2 Colaboratory 페이지 열기
여기에서 엽니다.
htps : // 코 b. 레세아 rch. 오, ぇ. 코 m / 노보보 ks / ぇ l 코메. 아니 pyn b? hl = 그럼
북마크 해 둡시다.
3 chokozainer 샘플 페이지를 열고 자신의 폴더에 저장
3-1 노트북 열기
파일 - 노트북 열기
GitHub 탭을 선택합니다.
chokozainer로 검색하고,
ipynbs/abc.ipynb
를 선택합니다.
열린 abc.ipynb는 그대로 사용할 수 없으므로 드라이브에 복사본을 만듭니다.
그런 다음 복사된 파일의 이름을 바꿉니다.
4 노트북을 실행한다.
노트북의 실행은 여러 사이트에서 자세히 설명되어 있으므로 자력으로 해 주세요.
학습 전에는 몇 단계 밖에 할 수 없었던 것이, 학습 후에는 설정의 200 단계까지 밸런스 잡을 수 있는 것을 알 수 있습니다.
이런 느낌의 동영상이 만들어집니다.
학습 실행 결과는 이런 느낌입니다.
elapsed는 실행 시간(초)이므로, 15분 정도로 학습이 종료합니다.
Reference
이 문제에 관하여(강화 학습 28 colaboratory+OpenAI+chainerRL 소 정리), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/chokozainer/items/38592c3c81df5ec4399c
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
여기에서 엽니다.
htps : // 코 b. 레세아 rch. 오, ぇ. 코 m / 노보보 ks / ぇ l 코메. 아니 pyn b? hl = 그럼
북마크 해 둡시다.
3 chokozainer 샘플 페이지를 열고 자신의 폴더에 저장
3-1 노트북 열기
파일 - 노트북 열기
GitHub 탭을 선택합니다.
chokozainer로 검색하고,
ipynbs/abc.ipynb
를 선택합니다.
열린 abc.ipynb는 그대로 사용할 수 없으므로 드라이브에 복사본을 만듭니다.
그런 다음 복사된 파일의 이름을 바꿉니다.
4 노트북을 실행한다.
노트북의 실행은 여러 사이트에서 자세히 설명되어 있으므로 자력으로 해 주세요.
학습 전에는 몇 단계 밖에 할 수 없었던 것이, 학습 후에는 설정의 200 단계까지 밸런스 잡을 수 있는 것을 알 수 있습니다.
이런 느낌의 동영상이 만들어집니다.
학습 실행 결과는 이런 느낌입니다.
elapsed는 실행 시간(초)이므로, 15분 정도로 학습이 종료합니다.
Reference
이 문제에 관하여(강화 학습 28 colaboratory+OpenAI+chainerRL 소 정리), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/chokozainer/items/38592c3c81df5ec4399c
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
노트북의 실행은 여러 사이트에서 자세히 설명되어 있으므로 자력으로 해 주세요.
학습 전에는 몇 단계 밖에 할 수 없었던 것이, 학습 후에는 설정의 200 단계까지 밸런스 잡을 수 있는 것을 알 수 있습니다.
이런 느낌의 동영상이 만들어집니다.
학습 실행 결과는 이런 느낌입니다.
elapsed는 실행 시간(초)이므로, 15분 정도로 학습이 종료합니다.
Reference
이 문제에 관하여(강화 학습 28 colaboratory+OpenAI+chainerRL 소 정리), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/chokozainer/items/38592c3c81df5ec4399c텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)