IBM Data Science Capstone: 자동차 사고 심각도 보고서

4963 단어

소개 | 비즈니스 이해



지역 사회에서 자동차 충돌 빈도를 줄이기 위한 노력의 일환으로 현재 날씨, 도로 및 가시성 조건을 고려하여 사고의 심각성을 예측하는 알고리즘을 개발해야 합니다. 상황이 나쁠 때 이 모델은 운전자에게 경고하여 더 조심하도록 상기시킵니다.

데이터 이해



데이터 세트 내에서 사고의 심각도를 0에서 5까지 측정하는 데 사용되기 때문에 예측 변수 또는 대상 변수는 'SEVERITYCODE'가 됩니다. 사고의 심각성을 평가하는 데 사용되는 속성은 'WEATHER', 'ROADCOND' 및 'LIGHTCOND'입니다.

심각도 코드는 다음과 같습니다.

* 0 : Little to no Probability (Clear Conditions)

  • 1 : Very Low Probablility - Chance or Property Damage
  • 2 : Low Probability - Chance of Injury
  • 3 : Mild Probability - Chance of Serious Injury
  • 4 : High Probability - Chance of Fatality

데이터 세트 추출 및 변환



원래 형식에서는 이 데이터가 분석에 적합하지 않습니다. 우선 이 모델에 사용하지 않을 열이 많이 있습니다. 또한 대부분의 기능은 숫자 유형이어야 하는 경우 객체 유형입니다.

기능을 원하는 데이터 유형으로 변환하려면 레이블 인코딩을 사용해야 합니다.



새 열을 통해 이제 분석 및 ML 모델에서 이 데이터를 사용할 수 있습니다!

이제 데이터 프레임에서 새 열의 데이터 유형을 확인하겠습니다. 앞으로는 분석을 위해 새 열만 사용합니다.



데이터 세트 균형 조정



목표 변수 SEVERITYCODE는 균형이 42%에 불과합니다. 실제로 클래스 1의 심각도 코드는 클래스 2 크기의 거의 세 배입니다.

대다수 클래스를 다운샘플링하여 이 문제를 해결할 수 있습니다.



완벽하게 균형 잡힌.

방법론



이제 데이터를 기계 학습 모델에 입력할 준비가 되었습니다.

다음 모델을 사용합니다.


KNN(K-최근접 이웃)

KNN은 k 거리 내에서 데이터 포인트와 가장 유사한 것을 찾아 결과의 심각도 코드를 예측하는 데 도움이 됩니다.


의사 결정 트리

의사 결정 트리 모델은 가능한 모든 결과의 레이아웃을 제공하므로 의사 결정의 결과를 완전히 분석할 수 있습니다. 맥락에서 의사 결정 트리는 다양한 기상 조건의 가능한 모든 결과를 관찰합니다.


로지스틱 회귀

데이터 세트는 두 가지 심각도 코드 결과만 제공하므로 모델은 두 클래스 중 하나만 예측합니다. 이것은 로지스틱 회귀와 함께 사용하기에 완벽한 데이터 바이너리를 만듭니다.

시작하자!

초기화



X와 y 정의





데이터 세트 정규화





학습/테스트 분할



데이터의 30%는 테스트용으로, 70%는 교육용으로 사용할 것입니다.



여기서 우리는 모델링과 예측을 시작할 것입니다...







결과 및 평가



이제 모델의 정확성을 확인합니다.



논의



이 노트북의 시작 부분에는 '개체' 유형의 범주형 데이터가 있었습니다. 이것은 알고리즘을 통해 공급할 수 있는 데이터 유형이 아니므로 라벨 인코딩을 사용하여 int8 유형의 새 클래스를 만들었습니다. 숫자 데이터 유형.

이 문제를 해결한 후 우리는 또 다른 불균형 데이터를 받았습니다. 앞서 언급했듯이 클래스 1은 클래스 2보다 거의 3배 더 컸습니다. 이에 대한 해결책은 sklearn의 리샘플 도구를 사용하여 대다수 클래스를 다운샘플링하는 것이었습니다. 각각 58188개의 값으로 소수 클래스를 정확하게 일치시키기 위해 다운샘플링했습니다.

데이터를 분석하고 정리한 다음 세 가지 ML 모델을 통해 데이터를 공급했습니다. K-최근접 이웃, 결정 트리 및 로지스틱 회귀. 처음 두 개는 이 프로젝트에 이상적이지만 이진 특성 때문에 로지스틱 회귀가 가장 적합했습니다.

모델의 정확도를 테스트하는 데 사용된 평가 메트릭은 로지스틱 회귀를 위한 자카드 인덱스, f-1 점수 및 로그로스입니다. 다른 k, 최대 깊이 및 하이퍼파라미터 C 값을 선택하면 정확도를 최대한 높이는 데 도움이 되었습니다.

결론



특정 클래스를 가리키는 기상 조건의 과거 데이터를 기반으로 특정 기상 조건이 여행이 재산 피해(클래스 1) 또는 부상(클래스 2)을 초래할 수 있는지 여부에 어느 정도 영향을 미친다는 결론을 내릴 수 있습니다.

읽어 주셔서 감사합니다!

좋은 웹페이지 즐겨찾기