kaggle Home Credit Default Risk Competition_EDA(1) and Check Column Types EDÅ Calculate statistics Make figures trends, anomalies, patterns or relationships Inform modeling choices Find areas of data Examine the Distribution of the Target Column Prediction of Target 0: the loan was repaid on t... kagglekaggle Home_Credit_Default_Risk_Competition_EDA(2)_label encoding and One hot encoding , Align Encoding Categorical Variables 머신러닝 모델은 범주형 변수를 이용하면 학습을 시킬 수 없습니다.(단, LightGBM같은 모델 제외, LGBM,CatBoost논문 읽기) 이런 이유로, 범주형 변수를 이산 변수로 바꾸는 encoding과정을 거쳐야합니다. Encoding Label encoding 상수를 통해서 범주형 변수 안에 있는 각각의 유니크한 범주를 지정합니다.... kagglekaggle Porto_Seguro’s Safe Driver_Prediction Check data quality Prepare the data for model... kagglekaggle Porto Seguro Exploratory Analysis and Prediction_prepare the model 새롭게 알게 된 사실 Stacking model이란 방식을 통해서 모델을 쌓으면 성능 향상을 이룩할 수 있다 왜냐하면, 좋은 것을 여러 개 모았기 때문입니다. 단, 연산량이 많아지는 건 주의해야합니다. 참고: *Code Prepare the model Ensable class for validation and ensamble Spliit data in KFolds train the model... kagglekaggle Introduction_Home_Credit_Default_Risk_Competition_load_data Home Credit Default *Goal The historical loan application is used data to predict probability of replaying a loan *Supervised classification task Data(Home Credit) application_train/application_test main data: each loan ... kagglekaggle EDA(Pclass, Sex, Both sex and Pclass) Pclass 서수형 데이터 타입(ordinal) 카테고리(순서가 있는 데이터 타입) 생존률 차이 살피기 피벗 차트와 유사하기에 pandas dataframe의 groupby이용하면 좋다 pivot메소드 사용 각 pclass마다 0,1로 count되고 평균내면 생존률 count()를 사용하여 각 class의 몇 명인지 확인도 가능 sum을 사용하여 216명 중 생존한 사람 총합 Sex 성별로 ... kagglekaggle 타이타닉EDA(Age, Pclass, Sex, Age,Embarked) Age Age feature살피기 생존에 따른 Age의 histogram 그려보기 생존자 중 나이가 어린 경우가 많다 Class가 높을수록 나이 많은 사람의 비중이 높다 나이대가 변하면서 생존률이 어떻게 되는지 보기 나이 범위를 넓혀가며 생존률 확인 나이가 어릴 수록 생존률이 확실히 높다 나이가 중요한 feature데이터 Pclass, Sex, Age seaborn의 violinplot를 사... kagglekaggle DieTanic_EDA_Part1 EDA 생존자는? Features 유형 Categorical 2개 이상의 카테고리 값들은 범주화에 속함 값들을 정렬할 수 없음(Nominal Variables) 예시: Sex, Embarked Ordinal Categorical와 비슷한 속성 값들을 정렬할 수 있다 예시: PClass Continous 각 열의 최소값과 최대값 구하기 가능 예시: Age Categorical Feature: ... kagglekaggle Titanic with EDA 살아남은 승객의 비율이 사망한 승객보다 작음을 알 수 있다. 배에 탑승한 전체 비율은 male이 많지만 살아남은 사람은 female이 male의 약 2배임을 알 수 있다. 위의 그래프를 보면 Pclass:1의 사람들이 높은 구조순위를 가졌음을 알 수 있다. 위의 그래프로 보아 Pclass:1, female 이 가장 우선적인 구조를 받았음을 알 수 있고, Pclass 등급이 낮아질수록 생존률이... PyTorchEDAAIkaggleAI 타이타닉 EDA(Family,Fare,Cabin,Ticket) Family - SibSp(형제 자매) + Parch(부모, 자녀) SibSp와 Parch 합하면 Family Family로 합쳐서 분석 FamilySize와 생존 관계 Figure(1): 가족의 크기가 1~11 대부분 1명 혹은 2~4명입니다. Figure(2),(3): 가족의 크기에 따른 생존비교 가족이 4명인 경우 가장 생존확률이 높다 가족 수가 많아질수록 작다 즉, 3~4인이 가장 높... kagglekaggle [Project] Natural Language Processing with Disaster Tweets - Kaggle 주어진 트윗(tweet) 데이터를 분석하여 재난(disaster)에 관련된 트윗인지 아닌지의 여부를 분석하는 문제입니다. LSTM을 포함한 다양한 분류기법으로 만든 모델 중 정확도가 가장 높은 모델을 선정하고 정확도와 로스값을 시각화고자 합니다. location – the location the tweet was sent from (may be blank) target – in train.c... Data AnalyticscolabkaggleEmbeddingNatural Language Processing with Disaster TweetspythonprojectLSTMtesorflowNLP캐글KerasData Analytics DieTanic_Part2 Feature Engineering and Data Cleaning 주어진 데이터셋은 중요한 특징도 있고 그렇지 않은 특징도 있습니다. 다른 특징으로부터 정보를 탐색하고 추출하여 새로운 features를 얻거나 추가할 수도 있습니다. 이렇게 features를 다루는 과정이므로 매우 중요합니다. Age_band Age continous feature Continous Variables는 ML모... kagglekaggle Titanic Top 4% with ensemble modeling(2) Filling missing values Age Feature Engineering Name/Title Family Size Cabin Ticket... kagglekaggle Titanic Top 4% with ensemble modeling(1) Introduction Feature analysis Feature engineering Modeling Load and Check data load data Outlier detection joining train and test set check for null and missing values Feature analysis Numerical values Categorical values... kagglekaggle Titanic Top 4% with ensemble modeling(3) Simple modeling Cross validate models 가장 유명한 classifiers를 비교하여 정확성을 평가하고 cross validation procedure를 거칠 것입니다. SVC Decision Tree AdaBoost Random Forest Extra Trees Gradient Boosting Multiple layer perceprton (neural netwo... kagglekaggle 타이타닉 캐글 필사(1) -데이터셋 확인 첫 시작 머신러닝이던 딥러닝이던 가장 먼저해야할 것은 필요할 라이브러리 호출입니다. 물론 보통은 필요한 경우 부르면서 사용합니다. 하지만 Numpy, pandas, matplotlib, seaborn과 같은 아주 기초적인 것은 먼저 호출 후에 사용하는 것을 권장합니다. 왜냐하면, 무조건 쓰이거든요 캐글 타이타닉이란? 역사상 최대 해난사고 데이터 탑승객의 생존여부 예측 모델을 구하는 것이 핵심... binarykagglebinary [Kaggle] PetFinder 대회 참여 (작성 중) 소개, 지금까지의 얻은 점 EfficientNetV2의 Practial domain에서의 한계점 지금까지 몇 개 안되는 대회를 참여하면서, 단순히 이미지만 보고 코드를 짜고 훈련을 했고, 제출까지 했을 때 어느정도 점수를 받을 수 있었습니다 하지만 현재 진행하고 있는 이 PetFinder 대회는 최소한의 EDA가 필요하다고 느꼈고, 이를 바탕으로 훈련과 추론을 해야겠다고 다짐했습니다. 대회 ... PetFinderkagglePetFinder Kaggle: Machine Learning Competitions (Version 02) 에서 데이터 예측 모델의 결과가 좋지 않다는 결론을 내렸습니다. (아래 그림은 결과를 나타냅니다.) 결과가 좋지 않은 이유를 아래와 같이 생각을 했습니다. train dataset 변형후 모델학습을 진행했는데, test dataset은 그대로 사용 따라서, 이번 포스팅에서는 test dataset을 train dataset을 변형한 것처럼 처리한 후 모델의 성능을 측정해보려합니다. 기존 코드... kagglekaggle Bitcoin hash-rate 예측 1차 Defense 년도와 월,일을 '/' 단위로 구분하여 월 다시 뽑아 Timestamp열에 넣어주어 학습 데이터를 재 가공하였습니다. 열이 하나 더 추가되어 인풋은 7로 설정하였습니다. 과적합을 막기 위해서 epochs를 1500까지 줄였을 때 제일 높은 성능이 나오는 것을 확인했습니다. 또한 learning rate도 변경해주었습니다. plot 함수를 정의하여 cost 값을 시각화 하여 잘 학습되었다는 것... DeepLearningTermProjectkaggleDeepLearning Exploratory Data Analysis with Kaggle Dataset Series (3) 결측값 그래프를 보니 TV, Sales, Social.Media, Radio 변수에 결측값이 존재하는 것으로 파악되었습니다만, 그 수가 결측값이 존재하는 행을 제거할 정도로 많아보이지는 않습니다. 그래프를 확인해보니 TV, Radio, Sales 변수는 데이터가 완벽한 정규분포의 형태는 아니지만 한 쪽으로 극단적으로 치우치지 않아서 이상값의 영향을 받지는 않아보입니다. 추가적으로 Social... 머신러닝kaggleR데이터 분석시각화R
Home Credit Default Risk Competition_EDA(1) and Check Column Types EDÅ Calculate statistics Make figures trends, anomalies, patterns or relationships Inform modeling choices Find areas of data Examine the Distribution of the Target Column Prediction of Target 0: the loan was repaid on t... kagglekaggle Home_Credit_Default_Risk_Competition_EDA(2)_label encoding and One hot encoding , Align Encoding Categorical Variables 머신러닝 모델은 범주형 변수를 이용하면 학습을 시킬 수 없습니다.(단, LightGBM같은 모델 제외, LGBM,CatBoost논문 읽기) 이런 이유로, 범주형 변수를 이산 변수로 바꾸는 encoding과정을 거쳐야합니다. Encoding Label encoding 상수를 통해서 범주형 변수 안에 있는 각각의 유니크한 범주를 지정합니다.... kagglekaggle Porto_Seguro’s Safe Driver_Prediction Check data quality Prepare the data for model... kagglekaggle Porto Seguro Exploratory Analysis and Prediction_prepare the model 새롭게 알게 된 사실 Stacking model이란 방식을 통해서 모델을 쌓으면 성능 향상을 이룩할 수 있다 왜냐하면, 좋은 것을 여러 개 모았기 때문입니다. 단, 연산량이 많아지는 건 주의해야합니다. 참고: *Code Prepare the model Ensable class for validation and ensamble Spliit data in KFolds train the model... kagglekaggle Introduction_Home_Credit_Default_Risk_Competition_load_data Home Credit Default *Goal The historical loan application is used data to predict probability of replaying a loan *Supervised classification task Data(Home Credit) application_train/application_test main data: each loan ... kagglekaggle EDA(Pclass, Sex, Both sex and Pclass) Pclass 서수형 데이터 타입(ordinal) 카테고리(순서가 있는 데이터 타입) 생존률 차이 살피기 피벗 차트와 유사하기에 pandas dataframe의 groupby이용하면 좋다 pivot메소드 사용 각 pclass마다 0,1로 count되고 평균내면 생존률 count()를 사용하여 각 class의 몇 명인지 확인도 가능 sum을 사용하여 216명 중 생존한 사람 총합 Sex 성별로 ... kagglekaggle 타이타닉EDA(Age, Pclass, Sex, Age,Embarked) Age Age feature살피기 생존에 따른 Age의 histogram 그려보기 생존자 중 나이가 어린 경우가 많다 Class가 높을수록 나이 많은 사람의 비중이 높다 나이대가 변하면서 생존률이 어떻게 되는지 보기 나이 범위를 넓혀가며 생존률 확인 나이가 어릴 수록 생존률이 확실히 높다 나이가 중요한 feature데이터 Pclass, Sex, Age seaborn의 violinplot를 사... kagglekaggle DieTanic_EDA_Part1 EDA 생존자는? Features 유형 Categorical 2개 이상의 카테고리 값들은 범주화에 속함 값들을 정렬할 수 없음(Nominal Variables) 예시: Sex, Embarked Ordinal Categorical와 비슷한 속성 값들을 정렬할 수 있다 예시: PClass Continous 각 열의 최소값과 최대값 구하기 가능 예시: Age Categorical Feature: ... kagglekaggle Titanic with EDA 살아남은 승객의 비율이 사망한 승객보다 작음을 알 수 있다. 배에 탑승한 전체 비율은 male이 많지만 살아남은 사람은 female이 male의 약 2배임을 알 수 있다. 위의 그래프를 보면 Pclass:1의 사람들이 높은 구조순위를 가졌음을 알 수 있다. 위의 그래프로 보아 Pclass:1, female 이 가장 우선적인 구조를 받았음을 알 수 있고, Pclass 등급이 낮아질수록 생존률이... PyTorchEDAAIkaggleAI 타이타닉 EDA(Family,Fare,Cabin,Ticket) Family - SibSp(형제 자매) + Parch(부모, 자녀) SibSp와 Parch 합하면 Family Family로 합쳐서 분석 FamilySize와 생존 관계 Figure(1): 가족의 크기가 1~11 대부분 1명 혹은 2~4명입니다. Figure(2),(3): 가족의 크기에 따른 생존비교 가족이 4명인 경우 가장 생존확률이 높다 가족 수가 많아질수록 작다 즉, 3~4인이 가장 높... kagglekaggle [Project] Natural Language Processing with Disaster Tweets - Kaggle 주어진 트윗(tweet) 데이터를 분석하여 재난(disaster)에 관련된 트윗인지 아닌지의 여부를 분석하는 문제입니다. LSTM을 포함한 다양한 분류기법으로 만든 모델 중 정확도가 가장 높은 모델을 선정하고 정확도와 로스값을 시각화고자 합니다. location – the location the tweet was sent from (may be blank) target – in train.c... Data AnalyticscolabkaggleEmbeddingNatural Language Processing with Disaster TweetspythonprojectLSTMtesorflowNLP캐글KerasData Analytics DieTanic_Part2 Feature Engineering and Data Cleaning 주어진 데이터셋은 중요한 특징도 있고 그렇지 않은 특징도 있습니다. 다른 특징으로부터 정보를 탐색하고 추출하여 새로운 features를 얻거나 추가할 수도 있습니다. 이렇게 features를 다루는 과정이므로 매우 중요합니다. Age_band Age continous feature Continous Variables는 ML모... kagglekaggle Titanic Top 4% with ensemble modeling(2) Filling missing values Age Feature Engineering Name/Title Family Size Cabin Ticket... kagglekaggle Titanic Top 4% with ensemble modeling(1) Introduction Feature analysis Feature engineering Modeling Load and Check data load data Outlier detection joining train and test set check for null and missing values Feature analysis Numerical values Categorical values... kagglekaggle Titanic Top 4% with ensemble modeling(3) Simple modeling Cross validate models 가장 유명한 classifiers를 비교하여 정확성을 평가하고 cross validation procedure를 거칠 것입니다. SVC Decision Tree AdaBoost Random Forest Extra Trees Gradient Boosting Multiple layer perceprton (neural netwo... kagglekaggle 타이타닉 캐글 필사(1) -데이터셋 확인 첫 시작 머신러닝이던 딥러닝이던 가장 먼저해야할 것은 필요할 라이브러리 호출입니다. 물론 보통은 필요한 경우 부르면서 사용합니다. 하지만 Numpy, pandas, matplotlib, seaborn과 같은 아주 기초적인 것은 먼저 호출 후에 사용하는 것을 권장합니다. 왜냐하면, 무조건 쓰이거든요 캐글 타이타닉이란? 역사상 최대 해난사고 데이터 탑승객의 생존여부 예측 모델을 구하는 것이 핵심... binarykagglebinary [Kaggle] PetFinder 대회 참여 (작성 중) 소개, 지금까지의 얻은 점 EfficientNetV2의 Practial domain에서의 한계점 지금까지 몇 개 안되는 대회를 참여하면서, 단순히 이미지만 보고 코드를 짜고 훈련을 했고, 제출까지 했을 때 어느정도 점수를 받을 수 있었습니다 하지만 현재 진행하고 있는 이 PetFinder 대회는 최소한의 EDA가 필요하다고 느꼈고, 이를 바탕으로 훈련과 추론을 해야겠다고 다짐했습니다. 대회 ... PetFinderkagglePetFinder Kaggle: Machine Learning Competitions (Version 02) 에서 데이터 예측 모델의 결과가 좋지 않다는 결론을 내렸습니다. (아래 그림은 결과를 나타냅니다.) 결과가 좋지 않은 이유를 아래와 같이 생각을 했습니다. train dataset 변형후 모델학습을 진행했는데, test dataset은 그대로 사용 따라서, 이번 포스팅에서는 test dataset을 train dataset을 변형한 것처럼 처리한 후 모델의 성능을 측정해보려합니다. 기존 코드... kagglekaggle Bitcoin hash-rate 예측 1차 Defense 년도와 월,일을 '/' 단위로 구분하여 월 다시 뽑아 Timestamp열에 넣어주어 학습 데이터를 재 가공하였습니다. 열이 하나 더 추가되어 인풋은 7로 설정하였습니다. 과적합을 막기 위해서 epochs를 1500까지 줄였을 때 제일 높은 성능이 나오는 것을 확인했습니다. 또한 learning rate도 변경해주었습니다. plot 함수를 정의하여 cost 값을 시각화 하여 잘 학습되었다는 것... DeepLearningTermProjectkaggleDeepLearning Exploratory Data Analysis with Kaggle Dataset Series (3) 결측값 그래프를 보니 TV, Sales, Social.Media, Radio 변수에 결측값이 존재하는 것으로 파악되었습니다만, 그 수가 결측값이 존재하는 행을 제거할 정도로 많아보이지는 않습니다. 그래프를 확인해보니 TV, Radio, Sales 변수는 데이터가 완벽한 정규분포의 형태는 아니지만 한 쪽으로 극단적으로 치우치지 않아서 이상값의 영향을 받지는 않아보입니다. 추가적으로 Social... 머신러닝kaggleR데이터 분석시각화R