한걸음 한걸음 머신러닝~scikit-learn 보스턴 주택가격편~④

저번까지.


마지막 게시물scikit-learn의LinearRegression를 사용하여 모델 만들기cross_val_score를 사용하여 5분분의 교차 검증을 실시했다.
결과는 첫 번째 결과부터 순서대로.
  • 0.63861069
  • 0.71334432
  • 0.58645134
  • 0.07842495
  • -0.26312455
  • 의 득점(결정 계수).
    1~3차 결과와 비교하면 4, 5차 결과는 현저히 좋지 않다
    이게 도대체 왜일까, 나는 데이터를 자세히 보는 곳을 만들었다

    그 전에


    마지막 사용 cross_val_score 교차 검증
    이 함수는 샘플 데이터를 분할할 때 데이터의 배열 순서에 따라 분할한다
    예를 들어 200개의 데이터를 2개로 나눌 때 1~100과 101~200 두 개로 나누는 느낌
    뱀발이 될 수 있다. 예를 들면, 키에 따라 체중을 추측하는 데이터 집합이 있는 것 같다
    하면, 만약, 만약...
    150cm~170cm의 데이터로 제작된 모형으로 180cm의 사람의 체중을 추정한다.
    이렇게 모델 제작에 사용된 샘플 데이터 이외의 데이터를 추측하여 외추라고 한다
    반면 150~160cm와 170~180cm의 샘플 데이터로 만든 모형
    165cm로 추정되는 사람의 몸무게는 안에 꽂혀 있다.

    데이터 확인


    첫 번째 투고에서 데이터의 관련 등을 도표로 내려다보았다
    여기서 다시 한 번 접선도로 각 데이터를 확인합니다.
    그림은 세로로 커서 접습니다.
    접선도 ①

    응, 자꾸 후반부 150건 정도의 데이터가 편파적이지 않아?
    특히 INDUS RAD TAX 부근에서는 앞부분의 데이터와 뒷부분의 데이터의 차이가 크다.
    쉽게 볼 수 있도록 인더스의 높은 부분을 둘러 보면 다음과 같다.
    접선도 ②

    데이터에 대해 주관적인 선입견을 가지고 있는 것은 아마도 좋지 않은 일일 것이다
    상업 지역
    주택구획률이 높은 곳
    2분 후
    상업지역에서 일하는 사람들의 출입이 많기 때문에 RAD(고속도로 교통편)가 매우 높다
    따라서 NOX(질소산화물 농도)도 높습니다.
    사는 사람은 적지만 일하는 사람이 많기 때문에 CRIM(범죄율보다 인구)도 높다.
    주택가에 비해 집값이 조금 싸고 LSTAT(저소득자 인구)도 많다.
    이런 관계가 있는 것 같아요.
    저번cross_val_score 시도할 때마다 점수차가 많이 났어요.
    데이터 집합의 데이터와 편차가 있어 주택지역 데이터를 통해 상업지역 물건의 예측을 학습한다
    나는 이런 일이 발생했기 때문이라고 생각한다.

    다음


    다음에 무작위로 분할된 데이터로 교차 검증을 하겠습니다.
    나는 그 결과를 개선할 수 있을지 연구할 것이다.

    제발


    기계학습 초보자는 비망록과 지식을 확인하기 위해 투고한다.
    많은 잘못된 점이 있는데, 엄밀히 말하면 옳지 않다
    만약 누군가가 주의한다면 지적해 주시기 바랍니다.

    좋은 웹페이지 즐겨찾기