【초보자용 핸즈온】kaggle의 「주택 가격을 예측한다」를 1행씩 읽는다(제6회:목적 변수의 분포 변환)

제목


  • 제1회의 내용은 이쪽
  • 제2회의 내용은 이쪽
  • 제3회의 내용은 이쪽
  • 제4회의 내용은 이쪽
  • 제5회의 내용은 이쪽

  • 유명한 제목인 kaggle의 「House Price」문제에 모두 도전해 나가게 된 핸즈온의 내용을 메모해 가는 기획의 제6회. 해설이라기보다는 메모의 정리이기도 합니다만, 어딘가의 누군가를 위해서 되면 다행입니다. 전회에서 준비가 끝나고, 드디어 해석 단계에.
  • 원래 제목 : htps //w w. 꺄gぇ. 코 m / c / 호세 - p 리세 s - d d
  • 참고로 한 기사: h tps : // / ぉ- 키요시. 코 m/2018/12/17/포 st-1003/

  • 오늘 작업



    목표 변수의 분포 변환


  • 목적변수 : 후배 'Y이네요' → 자신「...」
  • 목적 변수: h tp // w w. 겐-인후아. 오사카. 아 c. jp / st st cs / 토모코 m / e xp r s / e xp r s8. HTML

  • 학습 데이터의 SalePrice(주택 가격) 분포를 확인합니다.
    결손 보완의 장소에서, 수영장이 없는 주택이 대부분인 것을 알았습니다.
    이것은 뒤를 돌려주면 수영장이 있는 것 같은 호저가 몇개 존재한다고 하는 것으로, 주택 가격이 상당히 왜곡된 분포가 되어 있는 것은? 라고 가정합니다.

    이러한 가설을 바탕으로 그리는 것이 중요하다고 되돌아봅니다. 그렇다고는 해도 우선 말해진대로 그래프를 출력.
    sns.distplot(train['SalePrice'])
    

    seaborn 회원



    「sns는 뭐야?」라고 되었습니다. 처음 지나서 잊었지만, 가장 먼저 가져온 라이브러리에 있었어요. 이것입니다.
    import seaborn as sns
    

    과연 seaborn
    * seaborn : 분명히 그래프 그리기 라이브러리.
    * seaborn 참조 : htps : // 이 m / 히 k0107 / ms / 3dc541158f 세 b3156 예 0
    * distplot : seaborn에서 히스토그램을 그리는 방법.

    train['SalePrice']에 들어간 내용을 확인



    그리고는 염려 때문에 train['SalePrice']에 들어 있던 내용을 확인.
    과연 오로지 각이 줄지어 있는 열.


    출력된 그래프



    그리고 출력된 그래프는 이런 느낌이 되었습니다.
    sns.distplot(train['SalePrice'])
    



    로그 변환



    예상대로 꽤 오른쪽에 분포의 밑단이 퍼져 있습니다.
    로그 변환을 통해 정규 분포에 접근합니다.

    라는 것입니다만, 「대수 변환,이란」이라고 하는 곳의 확인.
    * 로그 변환 참조 : https://atarimae.biz/archives/13161#:~:text=%E5%AF%BE%E6%95%B0%E5%A4%89%E6%8F%9B%E3%81%A8%E3% 81%AF%E3%80%81%E3%80%8C%E5%AF%BE%E6%95%B0,%E3%81%99%E3%82%8B%E3%81%93%E3%81 %A8%E3%82%92%E6%8C%87%E3%81%97%E3%81%BE%E3%81%99%E3%80%82&text=%E5%85%B7%E4%BD% 93%E7%9A%84%E3%81%AB%E3%80%81%E8%AA%AC%E6%98%8E%E5%A4%89%E6%95%B0,%E8%80%83 %E3%81%88%E3%81%A6%E3%81%BF%E3%81%BE%E3%81%97%E3%82%87%E3%81%86%E3%80%82
    sns.distplot(np.log(train['SalePrice']))
    

    로그 변환 전후의 배열 변화



    이것만 출력해 보겠습니다.
    np.log(train['SalePrice'])
    

    과연, 무너지고 있다.


    출력된 그래프 2


    sns.distplot(np.log(train['SalePrice']))
    



    과연 예쁘게 정규 분포가 되어 있는 것 같다.

    예측 모델 구축



    에 들어가고 싶었지만 아무래도 시간 끊어 냄새 때문에 오늘은 여기까지입니다.

    이번에는 변수량이 상당히 많기 때문에 계수에 강력한 페널티를 걸고 싶기 때문에 Lasso 회귀를 사용하여 예측 모델을 구축합니다.

    예습이 나면 Lasso 회귀에 대해 조사해 종료.

    Lasso 회귀


  • Lasso 회귀 참조 : htps // //아이지네. 아이 / 리 d 게 - 소 - s s c t /

  • 끝.



    분석 레이어에 들어와서 역시 배경 지식의 보충이 필요하다고 이해했습니다.
    주로 회귀 분석에 대해.

    좋은 웹페이지 즐겨찾기