2019 텐 센트 광고 알고리즘 대회 사용 XGBOOST 모델 + 모 바 일 검색 쉽게 80

앞의 세 부분 은 광고 데이터 세트, 사용자 데이터 세트, 노출 광고 데이터 세트 와 테스트 세트 를 어떻게 세척 하 는 지, 그리고 훈련 을 어떻게 구성 하 는 지 에 대한 라벨 을 소개 했다. 구체 적 인 링크 는 다음 과 같다. 우리 가 훈련 집 을 구성 한 후에 우 리 는 XGBOOST 모델 훈련 수량 을 사용 하기 시작 했다. 훈련 방법 은 두 가지 버 전 으로 나 뉘 는데 첫 번 째 버 전 은 간단 한 버 전이 다.훈련 집의 속성 열 에는 유일한 값 을 가 져 오 는 데이터 만 포함 되 어 있 으 며, 두 번 째 버 전 은 다 중 값 을 가 져 오 는 속성 열 입 니 다.참고 코드 링크 는 bryan 사내 18 년 텐 센트 알고리즘 대회 에서 발표 한 baseline 입 니 다.
첫 번 째 부분: 광고 데이터 세트 와 사용자 데이터 세트 를 어떻게 세척 합 니까?
두 번 째 부분: 노출 광고 데이터 세트 와 구조 라벨 을 어떻게 세척 합 니까?
세 번 째 부분: 테스트 데이터 세트 와 구조 훈련 집 을 어떻게 정리 합 니까?
 
상반기 내 내 GAN 생 성 이미지 와 관련 된 작업 을 했 기 때문에 이 XGBOOST 에 대해 잘 알 지 못 했 습 니 다. 다만 다른 사람의 모델 을 참고 하여 조롱박 보다 바 가 지 를 그 렸 습 니 다. 버 전 1 코드 는 똑 같 을 수 있 지만 마지막 에 코드 를 제출 하면 효과 가 좋 지 않 습 니 다. 버 전 2 는 훈련 에 집 중 된 데이터 에 불법 문자 가 나 왔 을 것 입 니 다. 예 를 들 어 (')   ,)같은 종 류 는 달 릴 수 없 으 니 논문 을 먼저 쓰 려 고 하면 하지 않 는 다.
버 전 1: 속성 열 은 유일한 값 에 단조 로 움 을 더 하면 테스트 집합 A 에서 79.75 점 을 얻 을 수 있 습 니 다. 이미 테스트 했 습 니 다.
# -*- coding: utf-8 -*-
# @Time    : 2019/5/4 9:11
# @Author  : YYLin
# @Email   : [email protected]
# @File    : Code_For_Tencent.py
import pandas as pd
import matplotlib.pyplot as plt
import xgboost as xgb
import numpy as np
import sys
from xgboost import plot_importance
from sklearn.preprocessing import Imputer

def loadDataset(filePath):
    df = pd.read_csv(filepath_or_buffer=filePath)
    return df

def featureSet(data):
    data_num = len(data)
    XList = []
    for row in range(0, data_num):
        tmp_list = []
        tmp_list.append(data.iloc[row]['ad_bid'])
        tmp_list.append(data.iloc[row]['Ad_material_size'])
        tmp_list.append(data.iloc[row]['Ad_Industry_Id'])
        tmp_list.append(data.iloc[row]['Commodity_type'])

        #                  
        # tmp_list.append(data.iloc[row]['Delivery_time'])
        XList.append(tmp_list)
    yList = data.num_click.values
    return XList, yList

def loadTestData(filePath):
    data = pd.read_csv(filepath_or_buffer=filePath)
    data_num = len(data)
    XList = []
    for row in range(0, data_num):
        tmp_list = []
        tmp_list.append(data.iloc[row]['ad_bid'])
        tmp_list.append(data.iloc[row]['Ad_material_size'])
        tmp_list.append(data.iloc[row]['Ad_Industry_Id'])
        tmp_list.append(data.iloc[row]['Commodity_type'])

        #                  
        # tmp_list.append(data.iloc[row]['Delivery_time'])
        XList.append(tmp_list)
    return XList

def trainandTest(X_train, y_train, X_test):
    # XGBoost    
    model = xgb.XGBRegressor(max_depth=5, learning_rate=0.1, n_estimators=160, silent=False, objective='reg:gamma')
    model.fit(X_train, y_train)

    #                         
    ans = model.predict(X_test)

    ans_len = len(ans)
    id_list = np.arange(1, ans_len+1)
    data_arr = []

    #                            
    if ans_len == len(id_list):
        for row in range(0, ans_len):
            data_arr.append([int(id_list[row]), round(ans[row], 4)])
    else:
        print("!!!!!                  !!!!!")
        sys.exit()

    np_data = np.array(data_arr)
    #     
    pd_data = pd.DataFrame(np_data)
    # print(pd_data)
    pd_data.to_csv('submission.csv', index=None)

    #       
    # plot_importance(model)
    # plt.show()


if __name__ == '__main__':
    trainFilePath = '../Dataset/Result/Result_For_Train_test.csv'
    testFilePath = '../Dataset/Result/Result_For_Test.csv'
    print("!!!!!!!!!       !!!!!!!!!")
    data = loadDataset(trainFilePath)
    print("          :
", data.info()) X_test = loadTestData(testFilePath) print("!!!!!!!!! !!!!!!!!!!!") X_train, y_train = featureSet(data) print("!!!!!! !!!!!!!!!!") trainandTest(X_train, y_train, X_test)

 
버 전 2: 2019 - 07 - 07 XGB 를 추가 하면 격자 검색 을 통 해 최 적 화 된 파 라 메 터 를 자동 으로 찾 을 수 있 습 니 다.
# -*- coding: utf-8 -*-
# @Time    : 2019/5/21 23:35
# @Author  : YYLin
# @Email   : [email protected]
# @File    : new_submission_used_xgboost_v4.py
#                     ID     
#     LGB   XGBoost               
import pandas as pd
from sklearn.preprocessing import OneHotEncoder,LabelEncoder, StandardScaler
import xgboost as xgb
import numpy as np
import sys
from sklearn.model_selection import GridSearchCV
import matplotlib.pyplot as plt
from xgboost import plot_importance
import math
# v4            
from sklearn.feature_selection import SelectPercentile

# 05.21           
pd.set_option('display.max_columns', 1000)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 1000)
pd.set_option('display.max_rows', None)


#               True                   False              
find_params = False
#        one-hot encoding          StandardScaler() encoding
def encode_feature_data(data, for_train=True):
    XList = []
    data_num = len(data)

    if for_train:
        print("*****        ,           *******", data.info())
    else:
        print("*****        ,          *******", data.info())

    #   lgb        one-hot encoding
    enc = OneHotEncoder(categories='auto')
    enc.fit(data)
    enc.transform(data)
    print("Standard_feature            ")

    if for_train:
        #                list    
        data['Exporse'] = data['Exporse'].apply(lambda x: math.log(x))

        for row in range(0, data_num):
            tmp_list = []
            tmp_list.append(data['ad_request_datetime'][row])
            tmp_list.append(data['ad_account_id'][row])
            tmp_list.append(data['commodity_id'][row])
            tmp_list.append(data['commodity_type'][row])
            tmp_list.append(data['ad_industry_id'][row])
            tmp_list.append(data['ad_martril_size'][row])
            XList.append(tmp_list)
            # Ylist.append(data.iloc[row]['Exporse'])

        Ylist = data.Exporse.values
        return XList, Ylist
    else:
        #                list    
        for row in range(0, data_num):
            tmp_list = []
            tmp_list.append(data['ad_request_datetime'][row])
            tmp_list.append(data['ad_account_id'][row])
            tmp_list.append(data['commodity_id'][row])
            tmp_list.append(data['commodity_type'][row])
            tmp_list.append(data['ad_industry_id'][row])
            tmp_list.append(data['ad_martril_size'][row])
            XList.append(tmp_list)
        return XList


#     XGBoost                
def XGB_predict(X_train, y_train, X_test):

    if find_params:
        # cv_params                         https://blog.csdn.net/sinat_35512245/article/details/79700029
        cv_params = {'n_estimators': [4000, 5000, 6000, 7000, 10000]}

        '''
        cv_params = {'n_estimators': [400, 500, 600, 700, 800],  'max_depth': [3, 4, 5, 6, 7, 8, 9, 10],
        'min_child_weight': [1, 2, 3, 4, 5, 6], 'gamma': [0.1, 0.2, 0.3, 0.4, 0.5, 0.6], 'subsample': [0.6, 0.7, 0.8, 0.9],
        'colsample_bytree': [0.6, 0.7, 0.8, 0.9], 'reg_alpha': [0.05, 0.1, 1, 2, 3], 'reg_lambda': [0.05, 0.1, 1, 2, 3],
                     'learning_rate': [0.01, 0.05, 0.07, 0.1, 0.2]}
        '''

        other_params = {'learning_rate': 0.1, 'n_estimators': 5000, 'max_depth': 5, 'min_child_weight': 1, 'seed': 0,
                        'subsample': 0.8, 'colsample_bytree': 0.8, 'gamma': 0, 'reg_alpha': 0, 'reg_lambda': 1}

        #     XGBRegressor               GridSearchCV       
        model = xgb.XGBRegressor(**other_params)
        optimized_GBM = GridSearchCV(estimator=model, param_grid=cv_params, scoring='r2', cv=5, verbose=1, n_jobs=4)
        # model.fit(X_train, y_train)
        grid_search = optimized_GBM.fit(X_train, y_train)

        print("Best: %f using %s" % (grid_search.best_score_, grid_search.best_params_))

        means = grid_search.cv_results_['mean_test_score']
        params = grid_search.cv_results_['params']
        for mean, param in zip(means, params):
            print("%f  with:   %r" % (mean, param))
    else:
        #         
        model = xgb.XGBRegressor(learning_rate=0.1, n_estimators=6000, max_depth=5, min_child_weight=1, seed=0,
                        subsample=0.8, colsample_bytree=0.8, gamma=0, reg_alpha=0, reg_lambda=1)
        model.fit(X_train, y_train)

        #         
        predict_result = model.predict(X_test)
        predict_result = np.exp(predict_result)
        ans_len = len(predict_result)
        id_list = np.arange(1, ans_len + 1)
        data_arr = []

        #                            
        if ans_len == len(id_list):
            for row in range(0, ans_len):
                data_arr.append([int(id_list[row]), round(predict_result[row], 4)])
        else:
            print("!!!!!                  !!!!!")
            sys.exit()

        #                               
        # np_data = np.array(data_arr)
        pd_data = pd.DataFrame(data_arr)
        pd_data.to_csv('../Dataset/dataset_for_train/submission.csv', index=None, header=None)

        #                         
        plot_importance(model)
        plt.show()


if __name__ == '__main__':
    trainFilePath = '../Dataset/dataset_for_train/train_op_dp.csv'

    testFilePath = '../Dataset/dataset_for_train/update_Btest_sample.csv'

    print("      !!!!      ")

    #      encoding                    10    
    # data = pd.read_csv(trainFilePath, nrows=10)
    data = pd.read_csv(trainFilePath)
    X_train, y_train = encode_feature_data(data)

    #                        
    print("X_train    :", type(X_train), type(X_train[1]), X_train[1], type(y_train))

    data_test = pd.read_csv(testFilePath)
    X_test = encode_feature_data(data_test, for_train=False)

    print("*******     *******")
    XGB_predict(X_train, y_train, X_test)

좋은 웹페이지 즐겨찾기