[Kaggle] PetFinder 대회 참여 (작성 중)

  • 소개, 지금까지의 얻은 점
  1. EfficientNetV2의 Practial domain에서의 한계점

https://hleecaster.com/ml-svm-concept/


EDA

지금까지 몇 개 안되는 대회를 참여하면서, 단순히 이미지만 보고 코드를 짜고 훈련을 했고, 제출까지 했을 때 어느정도 점수를 받을 수 있었습니다
하지만 현재 진행하고 있는 이 PetFinder 대회는 최소한의 EDA가 필요하다고 느꼈고, 이를 바탕으로 훈련과 추론을 해야겠다고 다짐했습니다. 대회 자체가 이미지를 가지고 결론적으로 regression을 하는 독특한 대회다보니 변별력을 위해서는 자신이 이 데이터를 이해해야만 한다고 생각했습니다

이 대회는 유기된 동물들의 사진들을 올려, 빨리 입양될 수 있도록 하는 업체에서 제안된 대회입니다. 0-100점 사이의 좋아요와 같은 점수가 있는데, 이를 추론하는 것입니다

대회는 RMSE로 MSE 값에 루트를 씌운 값입니다. loss 값으로 판단하게 됩니다


CSV 만들기

def create_folds(data, num_splits):
    data["kfold"] = -1
    num_bins = int(np.floor(1 + np.log2(len(data))))
    
    # num_bins 구간 만큼 나눠서 "bins" 컬럼으로 만듭니다
    data.loc[:, "bins"] = pd.cut(data["Pawpularity"], bins=num_bins, labels=False)
    
    
    kf = model_selection.StratifiedKFold(n_splits=num_splits, shuffle=True, random_state=42)
    
    for f, (t_, v_) in enumerate(kf.split(X=data, y=data.bins.values)):
        data.loc[v_, 'kfold'] = f
    
    data = data.drop("bins", axis=1)

    return data

pd.cut을 하면 bins

좋은 웹페이지 즐겨찾기