scikit-learn으로 시작하는 부동산 찾기 ~ 2 부

TensorFlow에서 시작하는 부동산 찾기 ~ 1
계속됩니다.


  • (계속이라고 말하면서) 이번에는 TensorFlow를 사용하지 않습니다. scikit-learn과 pandas가 메인입니다.
  • 이전과 같은 부동산 데이터에 대해 이번에는 부동산의 특징량에서 가격('price')을 예측하는 회귀문제로 몇 가지 기법을 적용하고 있습니다.

  • 분석 결과



    자세한 단계는 Jupyter Notebook에서 게시합니다. 문헌이나 웹 페이지를 참고로 하면서, 분석을 시도했으므로, 좋으면 봐 주세요.
    결론 낸 것을, 이쪽에도 써 봅니다.

    가격 예측에 도움이 되는 특징량


  • 다른 특징량에 비해 이하의 특징량이 'price'의 예측에 의해 도움이 된다
  • 'years'(축년)
  • 'walk_minutes'(가장 가까운 역에서 도보 분수)
  • '2LDK'


  • 확실히 「축년수」 「가까운 역으로부터의 도보 분수」는 물건의 가격에 영향을 줄 것 같은 인상이 있습니다. 당연하다고 하면 당연한 생각도 합니다만, 데이터로부터 결론을 낼 수 있었다고 하는 의미로는 좋았습니다.

    회귀 기법에 대해


  • 이번 데이터 세트에 대해서 잘 된 회귀 기법
  • (테스트 데이터) 랜덤 포리스트, K 최근 이웃, 결정 트리
  • (훈련 데이터) 결정 트리, 랜덤 포리스트, K 최근 이웃


  • 랜덤 포리스트의 실행 결과를 발췌해 보겠습니다. score를 보면 나름대로 잘 예측되고 있는 것처럼 보입니다.
    (훈련 데이터, 테스트 데이터 모두 log 변환을 실시하고 있기 때문에, 'prices'의 숫자는 상당히 작아지고 있습니다)



    실제로 부동산 가격을 예측하면



    좋은 선 가고있는 물건도 있으면 그렇지 않은 것도 있습니다 ...



    다음 번에



    "데이터 내용을 보면서"라고 지난번 썼는데 달성할 수 없었습니다.
    실제로는 그 과정이 꽤 소중하고, 위의 "실제로 물건의 가격을 예측하면" 하지만 1건씩 내용을 보는 것이 좋게 정해져 있습니다만, 데이터 취득시부터 꽤 시간이 지나고 있는 일도 있어, 이번 실현할 수 없습니다. . .

    나중에 보기 쉬운 형태로 데이터의 ETL을 하지 않으면 안 되네요.

    좋은 웹페이지 즐겨찾기