머신러닝 야학 3일차

🤖 머신러닝의 분류

  • 지도 학습(supervised learning)
    • 지도
      • 기계를 가르친다(supervised)
    • 정답이 있는 문제집을 푸는 것
    • 데이터로 컴퓨터를 학습시켜 모델을 만드는 방식
    • 손톱 감시 앱과 레모네이드 판매량 예측 작업
  • 비지도 학습(unsupervised learning)
    • 지도 학습에 포함되지 않는 방법들
    • 기계에 데이터에 대한 통찰력을 부여하는 것
    • 통찰
      • 예리한 관찰력으로 사물을 꿰뚫어 보는 것
      • 관찰을 통해 새로운 의미나 관계를 밝혀내는 것
    • 데이터의 성격을 파악 or 데이터를 잘 정리정돈 하기 위해 사용
  • 강화 학습(reinforcement learning)
    • 지도 학습과 유사한 점
      • 학습을 통해서 능력을 향상시킨다
    • 차이점
      • 정답을 알려주지 않는다
    • 스스로 더 좋은 결과를 내기 위한 방법 찾기
    • 실력 향상을 위한 노력 과정
    • 경험을 통해 더 좋은 답을 찾아가는 것
    • 상과 벌이 있는 게임
      • 더 큰 상을 받기 위한 과정을 끝없이 반복
    • 기계 스스로 고수로 성장하도록 고안된 방법

🤖 지도학습(supervised learning)

  • 지도 학습
    • 과거의 데이터로부터 학습해서 결과를 예측하는 데 주로 사용
    • 과거에 대한 학습을 통해서 미지의 데이터 추측
    • 데이터가 많을수록, 정확할수록 좋다
    • 독립 변수와 종속 변수로 이루어진 데이터
    • 지도 학습을 통해 컴퓨터는 인과 관계를 설명할 수 있는 모델을 만든다
  • 온도에 대한 레모네이드 판매량 모델
    • 온도 * 2 = 판매량
    • 모델을 통해 온도에 따른 판매량 데이터 예측 가능
  • 일단 모델을 만들면 결과를 모르는 원인을 모델에 입력했을 때 결과를 순식간에 계산해서 알려준다
  • 공식의 대중화
    • 과거에는 공식(모델)을 도출하는 것이 어려웠다
      • 소수 엘리트들의 전유물
    • 머신러닝을 통해 적은 지식과 노력으로 공식을 만드는 것이 가능해졌다

🤖 회귀 vs. 분류

회귀(Regression)

  • 회귀
    • 예측하고 싶은 종속 변수가 숫자일 때 사용
    • 레모네이드 예제
  • 예측하고 싶은 결과가 숫자라면?
    • 전문가에게는 '지도학습의 회귀로 해결해주세요'라고 요청
    • 공부를 하려면 '지도학습 회귀'로 검색
    • 직접 해결하려면 '지도학습 회귀'라는 이름의 도구 사용

분류(classification)

  • 분류
    • 손톱 예제
    • 추측하고 싶은 결과가 이름 혹은 문자일 때 사용
  • 예측하고 싶은 결과가 이름 혹은 문자라면?
    • 전문가에게는 '지도학습의 분류로 해결해주세요'라고 요청
    • 공부를 하려면 '지도학습 분류'로 검색
    • 직접 해결하려면 '지도학습 분류'라는 이름의 도구 사용

양적 데이터와 범주형 데이터

  • 양적(Quantitative)
    • 산업에서 숫자라는 표현 대신 사용하는 개념
    • 얼마나 큰지, 얼마나 많은지를 의미하는 데이터
    • 종속 변수가 양적 데이터 >> 회귀 사용
  • 범주(Categorical)
    • 산업에서 이름이라는 표현 대신 사용하는 개념
    • 종속 변수가 범주형 데이터 >> 분류 사용

🤖 비지도 학습

군집화(Clustering)

  • 군집화
    • 비슷한 것들을 찾아서 그룹을 만드는 것
    • 서로 가까운 관측치(행)를 찾아주는 머신러닝의 기법
  • 군집화 vs. 분류
    • 군집화
      • 어떤 대상들을 구분해서 그룹을 만드는 것
    • 분류
      • 어떤 대상이 어떤 그룹에 속하는지를 판단하는 것
  • 사례
    • 배달 본부 위치 정하기
      • 1000만명의 사용자가 적절히 분포되어 있는 100개의 그룹 만들기
  • 좌표 평면
    • 표를 통해 군집화 하기는 어렵다
    • 좌표 평면을 사용하면 군집화가 수월해진다
    • 가까운 점끼리 묶기
    • 좌표상에서 가깝다는 것 = 서로 비슷한 데이터
  • 1000만 개의 행과 100개의 열

    • 사람이 처리하기 쉽지않다
    • 군집화 도구 사용
      • 1000만 개의 관측치(행) 입력
      • 100개의 클러스터가 필요하다고 알림
      • 유사한 속성을 지닌 관측치끼리 분류 >> 총 100개의 클러스터 도출

연관 규칙 학습

  • 연관 규칙 학습(Association rule learning)
    • 서로 연관된 특징을 찾아내는 것
    • 서로 관련이 있는 특성(열)을 찾아주는 머신러닝의 기법
  • 장바구니 분석
    • 라면을 산 고객은 계란을 살 가능성이 높다
      • 반대도 성립
      • 라면과 계란은 서로 연관성(Association)이 높다
  • 연관성을 파악할 수 있다면 고객이 구입할 가능성이 매우 높은 상품을 추천할 수 있다
  • 머신러닝(연관 규칙 학습)을 통해 쇼핑, 음악, 영화, 검색어 등등을 추천받을 수 있다
  • 관측치(행)을 그룹핑 해주는 것 >> 군집화
  • 특성(열)을 그룹핑 해주는 것 >> 연관 규칙

비지도 학습(unsupervised learning)

  • 비지도 학습 vs. 지도 학습
    • 비지도 학습
      • 미지의 세계를 탐험하는 것
      • 데이터들의 성격을 파악하는 것이 목적
      • 독립 변수와 종속 변수의 구분이 중요하지 않다
    • 지도 학습
      • 역사적인 것
      • 결과를 모르는 원인이 발생했을 때, 어떤 결과를 초래할 것인가를 과거의 원인, 결과를 통해 추측하는 것이 목적
      • 독립 변수와 종속 변수가 꼭 필요
  • 정리 정돈을 통해 대상의 성질 파악 가능
  • 비지도 학습
    • 그룹핑
    • 데이터의 성격을 파악하는 작업은 비슷한 것은 모으고 다른 것은 떨어뜨리는 과정
    • 정리 정돈을 통해 표에 담긴 데이터의 성격을 파악하는 것이 목적
출처: 생활코딩 - 머신러닝 야학 

좋은 웹페이지 즐겨찾기