기계 학습 논리 회귀 모델 강의 과제 시청각 보고서(현장 파괴에 효과적인 심도 있는 학습 강좌)

논리 회귀 모델


분류 문제
  • 입력 수치에 따라 이 데이터가 속하는 클래스를 분류하는 문제
  • m차원 벡터를 입력으로 하고 0 또는 1을 출력합니다.
  • 예) 타이타닉 데이터
  • 입력: 승객 데이터(연령, 성별, 사회계급)
  • 출력: 1 또는 0(이 승객의 생존 여부)
  • 분류 문제를 해결하는 모델 중 하나로 논리 회귀 모델이 있다
  • 논리 회귀 모델
  • 입력한 수치와 파라미터의 선형 결합(선형 회귀와 동일)을 시그모드 함수(후술)의 입력으로 한다
  • 입력한 데이터에 대한 출력은 이 종류의 확률에 속한다
  • 신호 함수
  • 출력은 0 이상 1 이하의 함수여야 합니다.
  • 신호 함수의 미분은 신호 함수로 표시할 수 있다.
  • 만약에 시그모드 함수의 출력값이 0.5 이상이면 클래스에 속하고 그 이하면 클래스에 속하지 않는다고 판단한다
  • 가장 유사한 예측
  • 어떤 데이터를 얻을 때 분포된 파라미터가 어느 정도(사연)에 이를 수 있는지를 나타낸다.그리고 가장 적당한 유사성은 가장 큰 유사성이라고 불린다.
  • 예) 정면에 나타날 확률이 50%가 아닌 동전으로 동전을 던진 결과 정면에 4차례, 뒷면에 1차례 나타났다.이 동전의 정면이 나올 확률은?
  • 동전을 진행하여 얻은 데이터에 근거하여 동전이 표가 될 확률을 가장 유사하게 추정하는 문제를 사용한다
  • 매개 변수θ확률 변수 x를 상수로 설정θ변수로 변환된 함수를 유사함수라고 한다.이 유사함수 최대화θ값을 구할 때 서피스 법선의 원래 방향을 사용합니다.
  • 각 학습 데이터의 분류와 동시에 확률을 최대화하는 파라미터를 평가 파라미터로 한다.
  • 유사함수를 원래의 형식으로 최대화하면 0 이상 1 이하의 곱셈의 연속, 값이 지속적으로 작아지는 등 문제가 발생한다.따라서 유사함수에 대한 최대화 방법을 취한다.(대수 함수는 값이 무한히 증가하는 단조로운 증가 함수이기 때문에 유사함수의 최대화와 대수 유사함수의 최대화를 똑같이 고려할 수 있다.)그리고 균형 오차의 최소화와 같기 때문에 일반적으로 대수 유사함수에 마이너스를 곱하여 최소화 문제를 구한다.
  • 계단식 하강법
  • 균형 오차의 미분 0의 값은 분석을 통해 구할 수 있으나 분석을 통해 대수 유사함수의 미분 0의 값을 구하기 어렵다.그래서 사다리 하강법을 사용한다
  • 사다리 하강 방법은 교체 학습을 통해 파라미터를 점점 최적 방향에 가깝게 하는 방법이다.현재의 매개 변수에서 유사함수의 미분과 학습률의 적을 뺀 값을 새로운 매개 변수로 한다
  • 학습률은 매개 변수의 수렴을 조정하는 용이성이다.

  • 사다리 하락 방법은 모든 학습 데이터에 대해 파라미터를 업데이트해야 한다.따라서 데이터 수가 많아지면 메모리 부족과 계산 시간 증가 등의 문제가 발생한다.이 문제를 해결하는 방법은 확률 계단식 하강법이 있다
  • 무작위 계단식 하강법(SGD)
  • 일반적인 사다리 하락법과 다른 데이터를 무작위로 선택하고 파라미터를 업데이트합니다
  • 사다리 하강법에 비해 파라미터 업데이트에 필요한 계산량이 적기 때문에 가장 좋은 파라미터를 효과적으로 구할 수 있다
  • 단점은 편리치의 영향을 받기 쉽다는 것이다
  • 이보크
  • 모든 학습 데이터에 대한 매개 변수 업데이트만으로 학습을 끝내는 경우는 드물다.따라서 모든 학습 데이터에 대해 여러 차례 학습을 해야 한다.이때 학습 데이터의 수에 해당하는 학습 횟수를 EPOCK라고 합니다.각 Epok에 대한 카드 세탁 학습 데이터를 통해 학습의 편차를 줄이거나 각 Epok의 예측 정밀도를 비교함으로써 학습을 했거나 배우지 않은 것으로 판단할 수 있다
  • 소량 계단 하강법
  • 학습 데이터를 m개 블록(소량)으로 나누어 학습하는 방법
  • 확률 계단 하강법의 단점을 보완할 수 있고 확률 계단 하강법에 비해 계산에 필요한 자원을 효과적으로 활용할 수 있다는 장점이 있다
  • 소량의 사이즈를 1로 설정하면 확률 계단 하강법과 같다
  • 혼동 행렬
  • 매트릭스로 테스트용 데이터(정확한 결과)와 모델의 예측 결과를 나타낸다.
    .타이타닉 데이터
  • 정답: 생존
    정답: 죽음
    예측 결과: 생존
    True Positive
    False Positive
    예측 결과: 사망
    True Negative
    False Negative
  • 정확도
  • 정답수와 예측된 모든 테스트 데이터 수의 비율
  • 테스트 데이터가 편차가 있는 상황에서 대부분 무의미한 지표이다.따라서 적합률과 재현율이라는 지표를 사용하는 경우가 많다.
    - 예) 스팸메일의 분류 중 80%는 스팸메일이고 20%는 일반적인 메일인 경우 모든 메일이 스팸메일이라고 판단되는 모델의 정확도는 80%이다
  • 부합률
  • 많이 놓쳐도 더 정확한 예측을 하고 싶은 상황에서 높아진 지표다.
  • 례) 일반적인 메일을 스팸메일로 판단하면 어려운 상황에서 적합도를 높여 스팸메일이 아닌 메일로만 분류할 수 있다
  • 재현율
  • 조금이라도 실수가 많아도 누락 시 중시하는 지표를 줄이고 싶다.
    예) 생명과 관련된 중대한 질병을 검사할 때 놓칠 확률을 최대한 줄이고 재현율을 높이기 위한 것이다
  • F 값
  • 부합률과 재현율은 절충 관계에 있다.둘 다 균형이 잘 잡힌 상태에서 F 값을 사용합니다.부합률과 재현율의 조화 평균으로 표시하다.

    #####오픈

























  • 요약과 고찰
  • 우선 열을 삭제하고 중앙값으로null을 채웁니다
  • 다음은 입장권 가격만으로 생사 예측 모델을 만든다
  • 그리고 성별과 계급을 바탕으로 모형을 만든다
  • 교차 검증을 통해 두 모델을 평가하고 후자 모델의 정밀도가 더욱 높다는 것을 판명한다
  • 이번에는 중앙값으로 나이의 null값을 메웠지만 기계학습 모델로 적당한 나이를 메우는 방법도 있다
  • 54행의 종류별 생존율을 보면 동승한 인원수에 따라 생존율이 달라지기 때문에 SibSp나 Parch를 사용하면 정밀도가 높아진다고 생각한다
  • 다음 (주성분 분석)

    좋은 웹페이지 즐겨찾기