심층 학습 Day4_ 학습 보고서

3757 단어 심층 학습

1.TensorFlow



■연습
・constant


・placeholder


・variables
!

· 선형 회귀


· 비선형 회귀


· 분류 1 층 (mnist)


・분류 3층(mnist)


· 분류 CNN (mnist)


2. 강화 학습



· 강화 학습
"장기적으로 보상을 극대화 할 수 있도록 환경에서 행동
"선택 가능한 에이전트를 만드는 것을 목표로하는 기계 학습의 한 분야
 →행동의 결과로서 주어지는 이익(보수)을 바탕으로,
  행동을 결정하는 원리를 개선해 나가는 구조.

・탐색과 이용의 트레이드 오프
검색이 부족한 상태
과거의 데이터로, 베스트로 되는 행동만을 계속 취하면
 그 밖에 더 베스트인 행동을 찾을 수 없다.
 
↕︎ 트레이드 오프 관계

이용이 부족한 상태
미지의 행동만을 계속 취하면 과거의 경험을 살릴 수 없다.

· 강화 학습과 교사 없음 있음 학습의 차이
  목표가 다르다

교사 없음 있음 학습
데이터에 포함된 패턴을 찾아내고 그 데이터로부터 예측하는 것이 목표

강화 학습
뛰어난 전략을 찾는 것이 목표

· 강화 학습의 역사
계산 속도의 진전에 의해 대규모 상태를 가진 경우의 강화 학습을 가능하게 하고 있다.
함수 근사법과 Q학습을 조합하는 수법의 등장

 Q학습
행동 가치 함수를 행동 할 때마다 업데이트하여 학습을 진행하는 방법

함수 근사법
가치 함수와 전략 함수를 함수 근사하는 기법

· 행동 가치 함수
'가치를 나타내는 함수로는 상태가치함수와 행동가치함수의 2종류가 있다.
 
상태 가치 함수
어떤 상태의 가치에 주목한다

행동 가치 함수
상태와 가치를 결합한 가치에 주목한다

・방책 함수
정책 기반 강화 학습 방법에서,
어떤 상태에서 어떤 행동을 취할지 확률을 부여하는 함수

・방책 반복법
정책을 모델링하고 최적화하는 방법

정의 방법
 평균 보상
 할인 보상 합

3.Keras



· 선형 회귀


· 단순 퍼셉트론


· 분류 (iris)


・cifr10


· RNN

좋은 웹페이지 즐겨찾기