Python 은 Logistic 회귀 모델 링 을 바탕 으로 모 은행 이 대출 연체 율 을 낮 추고 있 는 데이터 예 시 를 계산한다.

본 고 는 파 이 썬 이 Logistic 회귀 모델 링 을 바탕 으로 모 은행 이 대출 연체 율 을 낮 추고 있다 는 데 이 터 를 실례 로 서술 했다.여러분 께 참고 하도록 공유 하 겠 습 니 다.구체 적 으로 는 다음 과 같 습 니 다.
1.Logistic 회귀 모델:
 
2.Logistic 회귀 모델 링 절차
1.분석 목적 에 따라 기준 변수(변수 와 독립 변수)를 설정 하고 수 집 된 데이터 에 따라 선별
2.ln(p/1-p)과 독립 변수 x1...xp 로 선형 회귀 방정식 을 표시 하고 모델 중의 회귀 계 수 를 추정 합 니 다.
3.모델 검 사 를 한다.모델 유효성 검사 의 함수 가 매우 많은 데,예 를 들 면 정확도,혼동 행렬,ROC 곡선,KS 값 이다
4.모델 응용.
3.모 은행 이 대출 연체 율 을 낮 추 는 데 이 터 를 모델 링 한다.

원본 코드:

import pandas as pd
filename=r'..\data\bankloan.xls' #      
data=pd.read_excel(filename) #   excel  
x=data.iloc[:,:8].as_matrix() #      0-7    ,      
y=data.iloc[:,8].as_matrix()
from sklearn.linear_model import LogisticRegression as LR
from sklearn.linear_model import RandomizedLogisticRegression as RLR
rlr=RLR()
rlr.fit(x,y) #    
rlr.get_support() #        
print(u'              。')
print(u'     :%s'%','.join(data.columns[rlr.get_support()]))
x=data[data.columns[rlr.get_support()]].as_matrix() #      
lr=LR()
lr.fit(x,y)
print(u'          ')
print(u'        :%s'%lr.score(x,y))

기계 운행 결과 오류 보고:
IndexError: boolean index did not match indexed array along dimension 0; dimension is 9 but corresponding boolean dimension is 8
해결 방법:새로운 매트릭스 데이터 2 를 만 들 고 마지막 줄 을 제거 하여 비트 를 일치 시 킵 니 다.
수정 후 코드 는 다음 과 같 습 니 다.

import pandas as pd
filename=r'..\data\bankloan.xls'
data=pd.read_excel(filename)
x=data.iloc[:,:8].as_matrix()
y=data.iloc[:,8].as_matrix()
from sklearn.linear_model import LogisticRegression as LR
from sklearn.linear_model import RandomizedLogisticRegression as RLR
rlr=RLR()
rlr.fit(x,y)
rlr.get_support()
print(u'              。')
data2=data.drop(u'  ',1)
print(u'     :%s'%','.join(data2.columns[rlr.get_support()]))
x=data[data2.columns[rlr.get_support()]].as_matrix()
lr=LR()
lr.fit(x,y)
print(u'          ')
print(u'        :%s'%lr.score(x,y))

기계 작 동 결과:
 
Python 관련 내용 에 관심 이 있 는 독자 들 은 본 사이트 의 주 제 를 볼 수 있 습 니 다.
본 논문 에서 말 한 것 이 여러분 의 Python 프로 그래 밍 에 도움 이 되 기 를 바 랍 니 다.

좋은 웹페이지 즐겨찾기