Xgboost: 자체 인터페이스와sklearn 인터페이스의 간단한 사용 및 대비

Xgboost에는 자체 인터페이스와 sklearn 인터페이스 두 개가 있는 것으로 알려져 있습니다.Xgboost의 공식 문서에서 자세한 사용 방법을 볼 수 있습니다.
다음에 우리는 코드의 방식을 통해 이 두 인터페이스를 비교한다.
1단계: 데이터 세트 준비

from sklearn.model_selection import train_test_split
from pandas import DataFrame
from sklearn import metrics
from sklearn.datasets  import  make_hastie_10_2
from xgboost.sklearn import XGBClassifier
import xgboost as xgb
import pandas as pd

#    ，y   [-1:1],xgboost         [0:1], -1   1 。
X, y = make_hastie_10_2(random_state=0)
X = DataFrame(X)
y = DataFrame(y)
y.columns={"label"}
label={-1:0,1:1}
y.label=y.label.map(label)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)#

두 번째 단계: 각각 두 개의 인터페이스를 사용하여 훈련과 예측을 한다.두 인터페이스의 매개 변수는 완전히 같다.

#XGBoost    
params={
    'eta': 0.3,
    'max_depth':3,   
    'min_child_weight':1,
    'gamma':0.3, 
    'subsample':0.8,
    'colsample_bytree':0.8,
    'booster':'gbtree',
    'objective': 'binary:logistic',
    'nthread':12,
    'scale_pos_weight': 1,
    'lambda':1,  
    'seed':27,
    'silent':0 ,
    'eval_metric': 'auc'
}
d_train = xgb.DMatrix(X_train, label=y_train)
d_valid = xgb.DMatrix(X_test, label=y_test)
d_test = xgb.DMatrix(X_test)
watchlist = [(d_train, 'train'), (d_valid, 'valid')]

#sklearn  
clf = XGBClassifier(
    n_estimators=30,#    
    learning_rate =0.3,
    max_depth=3,
    min_child_weight=1,
    gamma=0.3,
    subsample=0.8,
    colsample_bytree=0.8,
    objective= 'binary:logistic',
    nthread=12,
    scale_pos_weight=1,
    reg_lambda=1,
    seed=27)

print("XGBoost_        ：")
model_bst = xgb.train(params, d_train, 30, watchlist, early_stopping_rounds=500, verbose_eval=10)
print("XGBoost_sklearn      ：")
model_sklearn=clf.fit(X_train, y_train)

y_bst= model_bst.predict(d_test)
y_sklearn= clf.predict_proba(X_test)[:,1]

3단계: 평가 결과

print("XGBoost_        AUC Score : %f" % metrics.roc_auc_score(y_test, y_bst))
print("XGBoost_sklearn   AUC Score : %f" % metrics.roc_auc_score(y_test, y_sklearn))

#        0 1
y_bst = pd.DataFrame(y_bst).apply(lambda row: 1 if row[0]>=0.5 else 0, axis=1)
y_sklearn = pd.DataFrame(y_sklearn).apply(lambda row: 1 if row[0]>=0.5 else 0, axis=1)
print("XGBoost_        AUC Score : %f" % metrics.accuracy_score(y_test, y_bst))
print("XGBoost_sklearn   AUC Score : %f" % metrics.accuracy_score(y_test, y_sklearn))
'''
XGBoost_        AUC Score : 0.970292
XGBoost_sklearn   AUC Score : 0.970292
XGBoost_        AUC Score : 0.897917
XGBoost_sklearn   AUC Score : 0.897917
'''

두 인터페이스의 매개 변수가 완전히 같은 상황에서 AUC를 평가하든 정확도를 평가하든 자체 인터페이스와 sklearn 인터페이스의 결과는 완전히 같다는 것을 알 수 있다.이것은 우리가 평상시 실천에서 어떤 인터페이스를 사용해도 된다는 것을 설명한다.

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

형태소 분석은 데스크톱을 구성하는 데 도움이?

문자×기계 학습에 흥미를 가져와 개인 범위의 용도를 생각해, 폴더 정리에 사용할 수 있을까 생각해 검토를 시작했습니다. 이번 검토에서는 폴더 구성 & text의 읽기 → mecab × wordcloud를 실시하고 있...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다