Xgboost: 자체 인터페이스와sklearn 인터페이스의 간단한 사용 및 대비

Xgboost에는 자체 인터페이스와 sklearn 인터페이스 두 개가 있는 것으로 알려져 있습니다.Xgboost의 공식 문서에서 자세한 사용 방법을 볼 수 있습니다.
다음에 우리는 코드의 방식을 통해 이 두 인터페이스를 비교한다.
1단계: 데이터 세트 준비
from sklearn.model_selection import train_test_split
from pandas import DataFrame
from sklearn import metrics
from sklearn.datasets  import  make_hastie_10_2
from xgboost.sklearn import XGBClassifier
import xgboost as xgb
import pandas as pd

#    ,y   [-1:1],xgboost         [0:1], -1   1 。
X, y = make_hastie_10_2(random_state=0)
X = DataFrame(X)
y = DataFrame(y)
y.columns={"label"}
label={-1:0,1:1}
y.label=y.label.map(label)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)#     
두 번째 단계: 각각 두 개의 인터페이스를 사용하여 훈련과 예측을 한다.두 인터페이스의 매개 변수는 완전히 같다.
#XGBoost    
params={
    'eta': 0.3,
    'max_depth':3,   
    'min_child_weight':1,
    'gamma':0.3, 
    'subsample':0.8,
    'colsample_bytree':0.8,
    'booster':'gbtree',
    'objective': 'binary:logistic',
    'nthread':12,
    'scale_pos_weight': 1,
    'lambda':1,  
    'seed':27,
    'silent':0 ,
    'eval_metric': 'auc'
}
d_train = xgb.DMatrix(X_train, label=y_train)
d_valid = xgb.DMatrix(X_test, label=y_test)
d_test = xgb.DMatrix(X_test)
watchlist = [(d_train, 'train'), (d_valid, 'valid')]

#sklearn  
clf = XGBClassifier(
    n_estimators=30,#    
    learning_rate =0.3,
    max_depth=3,
    min_child_weight=1,
    gamma=0.3,
    subsample=0.8,
    colsample_bytree=0.8,
    objective= 'binary:logistic',
    nthread=12,
    scale_pos_weight=1,
    reg_lambda=1,
    seed=27)

print("XGBoost_        :")
model_bst = xgb.train(params, d_train, 30, watchlist, early_stopping_rounds=500, verbose_eval=10)
print("XGBoost_sklearn      :")
model_sklearn=clf.fit(X_train, y_train)

y_bst= model_bst.predict(d_test)
y_sklearn= clf.predict_proba(X_test)[:,1]
3단계: 평가 결과
print("XGBoost_        AUC Score : %f" % metrics.roc_auc_score(y_test, y_bst))
print("XGBoost_sklearn   AUC Score : %f" % metrics.roc_auc_score(y_test, y_sklearn))

#        0 1
y_bst = pd.DataFrame(y_bst).apply(lambda row: 1 if row[0]>=0.5 else 0, axis=1)
y_sklearn = pd.DataFrame(y_sklearn).apply(lambda row: 1 if row[0]>=0.5 else 0, axis=1)
print("XGBoost_        AUC Score : %f" % metrics.accuracy_score(y_test, y_bst))
print("XGBoost_sklearn   AUC Score : %f" % metrics.accuracy_score(y_test, y_sklearn))
'''
XGBoost_        AUC Score : 0.970292
XGBoost_sklearn   AUC Score : 0.970292
XGBoost_        AUC Score : 0.897917
XGBoost_sklearn   AUC Score : 0.897917
'''
두 인터페이스의 매개 변수가 완전히 같은 상황에서 AUC를 평가하든 정확도를 평가하든 자체 인터페이스와 sklearn 인터페이스의 결과는 완전히 같다는 것을 알 수 있다.이것은 우리가 평상시 실천에서 어떤 인터페이스를 사용해도 된다는 것을 설명한다.

좋은 웹페이지 즐겨찾기