데이터 분석 학습 - Pandas를 사용한 데이터 분석

데이터를 분석할 때 먼저 관련 명사가 해당 업계에서의 의미를 이해해야 한다. 즉, 관련 지식을 찾아서 제목을 전체적으로 파악해야 한다.
다음은 데이터 분석을 수행하는 단계입니다.
1. 데이터 읽기
import pandas as pd
data = pd.read_csv("data/train.csv")

2. 데이터에 대한 사전 처리
구체적인 내용은 다음과 같습니다.
(1) 공백의 절반이 넘는 열을 제거한다.
 half_count = len(data)/2
 data = data.dropna(thresh=half_count, axis=1)

(2)、제거값이 동일한 열
 data = data.drop(['exm1'], axis=1)

(3) 예측치와 관련성이 크지 않은 열을 제거한다.
 data = data.drop(['exm2', 'exm3'], axis=1)

(4) 비수치 열을 수치로 바꾸기
status_replace1 = {
        "grade": {
            "A": 0,
            "B": 1,
            "C": 2,
            "D": 3,
            "E": 4
        }
    }
    data = data.replace(status_replace1)

(5), 일부 빈 값이 있는 열을 삭제하거나 채웁니다.
삭제:
data = data.dropna(axis=0)
채우기:
data = data.fillna(0)  #  0 , , 

(6), 트레이닝 속성 및 label 값 선택
    x = data.iloc[:, 0: 5].as_matrix()

    #  
    y = data.iloc[:, 6].as_matrix()

(7) 모형을 초기화하고 훈련한다.
    lr = LR()
    lr.fit(x, y)

(8) 모델에 대한 점수를 획득하고 테스트에 대한 점수를 얻는다.csv 예측
4
   lr.score()
   lr.predict(x1)
이상은 제가 정리한 Pandas와 Logistic Regression을 사용하여 데이터 분석을 하는 절차입니다.
 

좋은 웹페이지 즐겨찾기