[독서노트][기계학습 실전] 제1장: 기계학습 개관

독서책이'한즈온 머신 레어닝 with Scikit-Learn & Tensor Flow'왕정원 등이 번역한 중국어 번역판'머신러닝 실전, Scikit-Learn과 Tensor Flow 기반'
1.머신러닝이란 무엇인가?Arthur Samuel, 1959: 명확한 프로그램 없이도 컴퓨터가 학습할 수 있는 능력을 갖추도록 하는 기계 학습 연구.이 책의 관점: 기계 학습은 시스템이 데이터에서 배울 수 있는 컴퓨터 과학이다.기계 학습의 핵심 임무: 견본에서 추리한다.
2.기계학습은 왜 하는가?전통적인 프로그래밍 방법은 신속하게 변화하는 외부 수요와 데이터에 제때에 적응할 수 없다.환경 변동 - 새로운 데이터에 대한 자동 적응을 제공하는 머신 러닝 시스템입니다.어떤 복잡한 문제에 대해 전통적인 기술 수단으로 해결할 수 없다. - 기계 학습 기술은 해결 방안을 찾을 수 있다. 예를 들어 음성 식별이다.기존의 해결 방안은 대량의 수동 조정이 필요하거나 규칙 목록이 긴 문제가 존재한다. - 기계 학습의 알고리즘은 코드를 효과적으로 간소화하고 실행 표현을 추출하여 유지보수와 변경의 원가를 효과적으로 낮출 수 있다.기계 학습은 또한 대량의 데이터에서 새로운 통찰을 얻어 사람들이 문제를 더욱 잘 이해하도록 도와줄 수 있다.
3. 기계 학습의 분류?인류의 감독하에 학습하는지에 따라 감독학습, 반감독학습, 무감독학습, 강화학습으로 나뉜다.매번 학습의 견본 수량에 따라 대량 학습과 증량 학습으로 나뉜다.일치 실례 또는 모델 검측에 따라 실례 학습과 모델 학습으로 나뉜다.
4. 각종 학습의 정의는?
  • 감독학습
      1.   :               。
      2.     :  (    ),  (  ,     )。
      3.      6 :
     	 1.K-    (KNN)
     	 2.    (Linear Regression)
     	 3.    (Logistic Regression)
     	 4.     (SVM, Support Vector Machines)
     	 5.        (Decision Trees and Random Forests)
     	 6.    (Neural Network,                )
    
  • 무감독 학습
      1.   :                。
      2.   :  (    ),      (      ),
          (           ),       (        
         )
      4.      3  9  :
     	 1.    :K-Means(k-    ),      (HCA
     	 Hierarchical Cluster Analysis),        (Expectation
     	 Maximization)。
     	 2.        :     (PCA),      (Kernel
     	 PCA),      (LLE), t-        (t-SNE)。
     	 3.        :Apriori, Eclat。
    
  • 반감독학습
      1.   :                         。
      2.     :                          。
      	                       (       )。
      	                   ,              
           。
    
  • 강화학습
    1.  :         (      ),      ,    ,    ,
         (      )。                          。
    2.         :AlphaGo                 。
    
  • 대량 학습 시스템은 사용 가능한 모든 데이터를 한꺼번에 불러와서 훈련한다.자원을 많이 소모하기 때문에 일반적으로 오프라인으로 완성한다(먼저 시스템 학습을 훈련하고 학습 과정이 끝난 후에 생산 환경에 투입한다).새로운 데이터를 배워야 한다면 새로운 데이터와 낡은 데이터를 통합하여 새로운 훈련 집합 재훈련 시스템을 만들고 원시 시스템을 대체해야 한다.시간이 많이 걸리고 실시간성에 대한 요구가 높지 않으며 데이터 양이 적은 프로젝트는 정기적으로 업데이트 전략을 실시하여 데이터 변화에 천천히 적응할 수 있다.일단 프로젝트 데이터가 엄청나면, 변화가 빠른 대량 학습은 문제를 해결할 수 없다.
  • 온라인 학습(증량 학습)은 대량 학습에 비해 차례대로 시스템에 훈련 데이터를 제공하고 학습 성과를 점차적으로 축적할 수 있다.소량의 그룹 데이터로 훈련을 할 수 있어 빠르고 가볍다.온라인 학습 시스템에 대해 더욱 정확한 것을 증량 학습 시스템이라고 부른다.훈련 과정과 대량 학습이 비슷하기 때문에 오프라인으로 완성된다.증량 학습은 소량의 데이터 로딩 훈련 때문에 대량의 계산 자원과 저장 공간을 절약할 수 있다.초대형 데이터 집합의 경우 - 증량 학습 시스템도 적시에 핵 외부 학습이라고 할 수 있다(주 메모리는 매번 일정 수량의 데이터만 불러오고 모든 데이터의 계산이 끝날 때까지 반복된다.)
  • 실례 학습 시스템을 바탕으로 억지로 외우는 방식으로 훈련 데이터를 완전히 기억한 다음에 어떤 싱크로율 평가 방식을 통해 이를 새로운 실례로 범화시킨다.범화: 배운 지식을 새로운 실례에 응용하는 과정.개인적으로 KNN은 아주 좋은 실례 학습의 예라고 생각한다.목표와 이미 알고 있는 실례의 유사성을 판단함으로써 예측하거나 분류한다.
  • 모델 기반 학습은 실례를 바탕으로 하는 것과 달리 모델을 바탕으로 하는 학습은 먼저 훈련 데이터의 모델을 구축한 다음에 시스템이 모델을 통해 새로운 실례를 예측해야 한다.개인이 선형 회귀 알고리즘을 이해하는 것은 모델 학습을 바탕으로 하는 좋은 예이다.훈련을 통해 하나의 선형 모형을 만들어 새로운 실례를 범화시키다.

  • 5. 머신러닝의 도전?
  • 나쁜 데이터
      1.      ;
      2.          ;
      3.       :   ,  ,   (      );
      4.      (      );
    
  • 나쁜 알고리즘
     	1.       (   ):
     		a:     :       ,         ,           ,   
     		     。
     		b:     :          。          (      )。
     	2.       (    ):
     		a:     :                。
     		b:     :        ,        。
    
    명사 해석: 초파라미터: 학습 알고리즘(모델이 아닌)의 파라미터는 알고리즘 자체의 영향을 받지 않고 훈련이 시작되기 전에 설정하고 훈련 기간에 변하지 않는 파라미터를 유지한다.정규화: 제약 모델을 통해 모델을 더욱 간단하게 하고 과도한 의합 위험을 낮춘다. 예를 들어 일원선형 모델이 데이터를 의합할 때 y=ax+b;두 개의 매개 변수 a와 b가 있다면 우리의 자유도는 2이다. 각각 경사율과 높이를 제어한다. 우리가 그 중의 어떤 매개 변수를 구속하면 자유도가 1로 변하고 모델은 자유도 2시보다 데이터를 맞추기 어려워 과도한 의합의 위험을 낮춘다.자유도를 제어하는 과정을 정규화라고 한다.의합 부족을 해결하는 상황에서 우리가 제약을 줄이는 것은 그 매개 변수를 증가시켜 의합이 더욱 쉽고 의합 부족의 위험을 줄이는 것이다.

  • 6. 기계 학습의 테스트와 평가?
  • 일반적인 상황에서 하나의 데이터가 집중되면 우리는 80%의 데이터를 훈련 모델에 사용하고 20%의 데이터를 검사 모델에 사용한다.
  • 일부 상황에서 더욱 정확한 효과를 얻기 위해 우리는 파라미터를 끊임없이 조정하여 훈련 집중에서 비교적 높은 평가를 받았지만 테스트 집합에 응용하면 효과가 만족스럽지 못하다.이 문제의 발생은 과도한 조정으로 인해 모델은 훈련집의 데이터에 무한히 적응했을 뿐 보편성이 좋지 않기 때문이다.해결 방법은 훈련집과 테스트집을 제외하고 구분할 때 검사집을 하나 더 늘리는 것이다.훈련 집합이 지나치게 일치하는지 확인하는 데 사용됩니다.데이터가 귀중하기 때문에 검사 집합을 많이 나누는 것은 약간 낭비된다.우리는 교차 검증의 방법을 도입할 것이다.
  • 교차 검증: 훈련집을 약간의 상호보완 서브집으로 나누고 각 모델과 이 서브집의 서로 다른 조합을 통해 훈련을 한 다음에 나머지 서브집으로 검증한다.이렇게 하면 모델과 슈퍼 파라미터가 모두 선정되면 최종 모델은 이런 슈퍼 파라미터를 가지고 전체 훈련 집합에 대해 하나의 훈련을 하고 마지막으로 테스트 집합에서 범화 오차, 즉 정확성을 측정한다.모든 데이터에 완벽하게 낭비 없이 적용되었다.

  • 7. 일부 명사의 범화 오차가 바로 정확성이다.온라인 학습은 온라인이 아니라 증량 학습이다.소음을 지도하는 것은 잘못된 데이터로 옳은 것을 틀리게 표시하고 틀린 것을 옳게 표시하는 것이다.귀납적 편향: 학습은 부적절한 문제이기 때문에 데이터 자체만으로는 해답을 찾을 수 없기 때문에 우리는 데이터의 유일한 해답을 찾기 위해 특별한 가설을 해야 한다.개인적으로 이 가설은 귀납적 편향이라고 생각하는데, 이 귀납적 편향은 우리가 흔히 말하는 모델이다.만약 학우가 다른 이해가 있다면, 평론과 댓글을 남기는 것을 환영합니다.

    좋은 웹페이지 즐겨찾기