데이터 분석 학습 - Pandas를 사용한 데이터 분석
다음은 데이터 분석을 수행하는 단계입니다.
1. 데이터 읽기
import pandas as pd
data = pd.read_csv("data/train.csv")
2. 데이터에 대한 사전 처리
구체적인 내용은 다음과 같습니다.
(1) 공백의 절반이 넘는 열을 제거한다.
half_count = len(data)/2
data = data.dropna(thresh=half_count, axis=1)
(2)、제거값이 동일한 열
data = data.drop(['exm1'], axis=1)
(3) 예측치와 관련성이 크지 않은 열을 제거한다.
data = data.drop(['exm2', 'exm3'], axis=1)
(4) 비수치 열을 수치로 바꾸기
status_replace1 = {
"grade": {
"A": 0,
"B": 1,
"C": 2,
"D": 3,
"E": 4
}
}
data = data.replace(status_replace1)
(5), 일부 빈 값이 있는 열을 삭제하거나 채웁니다.
삭제:
data = data.dropna(axis=0)
채우기:data = data.fillna(0) # 0 , ,
(6), 트레이닝 속성 및 label 값 선택
x = data.iloc[:, 0: 5].as_matrix()
#
y = data.iloc[:, 6].as_matrix()
(7) 모형을 초기화하고 훈련한다.
lr = LR()
lr.fit(x, y)
(8) 모델에 대한 점수를 획득하고 테스트에 대한 점수를 얻는다.csv 예측
4
lr.score()
lr.predict(x1)
이상은 제가 정리한 Pandas와 Logistic Regression을 사용하여 데이터 분석을 하는 절차입니다.이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Pandas의 DataFrame 스왑 열 순서 방법 구현1. DataFrame 열 레이블 가져오기 ['ps_state-stopped', 'ps_state-running', 'ps_state-blocked', 'ps_state-paging', 'ps_state-sleepi...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.