kaggle Home Credit Default Risk Competition_EDA(1) and Check Column Types EDÅ Calculate statistics Make figures trends, anomalies, patterns or relationships Inform modeling choices Find areas of data Examine the Distribution of the Target Column Prediction of Target 0: the loan was repaid on t... kagglekaggle Home_Credit_Default_Risk_Competition_EDA(2)_label encoding and One hot encoding , Align Encoding Categorical Variables 머신러닝 모델은 범주형 변수를 이용하면 학습을 시킬 수 없습니다.(단, LightGBM같은 모델 제외, LGBM,CatBoost논문 읽기) 이런 이유로, 범주형 변수를 이산 변수로 바꾸는 encoding과정을 거쳐야합니다. Encoding Label encoding 상수를 통해서 범주형 변수 안에 있는 각각의 유니크한 범주를 지정합니다.... kagglekaggle Porto Seguro Exploratory Analysis and Prediction_prepare the model 새롭게 알게 된 사실 Stacking model이란 방식을 통해서 모델을 쌓으면 성능 향상을 이룩할 수 있다 왜냐하면, 좋은 것을 여러 개 모았기 때문입니다. 단, 연산량이 많아지는 건 주의해야합니다. 참고: *Code Prepare the model Ensable class for validation and ensamble Spliit data in KFolds train the model... kagglekaggle Introduction_Home_Credit_Default_Risk_Competition_load_data Home Credit Default *Goal The historical loan application is used data to predict probability of replaying a loan *Supervised classification task Data(Home Credit) application_train/application_test main data: each loan ... kagglekaggle EDA(Pclass, Sex, Both sex and Pclass) Pclass 서수형 데이터 타입(ordinal) 카테고리(순서가 있는 데이터 타입) 생존률 차이 살피기 피벗 차트와 유사하기에 pandas dataframe의 groupby이용하면 좋다 pivot메소드 사용 각 pclass마다 0,1로 count되고 평균내면 생존률 count()를 사용하여 각 class의 몇 명인지 확인도 가능 sum을 사용하여 216명 중 생존한 사람 총합 Sex 성별로 ... kagglekaggle 타이타닉EDA(Age, Pclass, Sex, Age,Embarked) Age Age feature살피기 생존에 따른 Age의 histogram 그려보기 생존자 중 나이가 어린 경우가 많다 Class가 높을수록 나이 많은 사람의 비중이 높다 나이대가 변하면서 생존률이 어떻게 되는지 보기 나이 범위를 넓혀가며 생존률 확인 나이가 어릴 수록 생존률이 확실히 높다 나이가 중요한 feature데이터 Pclass, Sex, Age seaborn의 violinplot를 사... kagglekaggle DieTanic_EDA_Part1 EDA 생존자는? Features 유형 Categorical 2개 이상의 카테고리 값들은 범주화에 속함 값들을 정렬할 수 없음(Nominal Variables) 예시: Sex, Embarked Ordinal Categorical와 비슷한 속성 값들을 정렬할 수 있다 예시: PClass Continous 각 열의 최소값과 최대값 구하기 가능 예시: Age Categorical Feature: ... kagglekaggle Titanic with EDA 살아남은 승객의 비율이 사망한 승객보다 작음을 알 수 있다. 배에 탑승한 전체 비율은 male이 많지만 살아남은 사람은 female이 male의 약 2배임을 알 수 있다. 위의 그래프를 보면 Pclass:1의 사람들이 높은 구조순위를 가졌음을 알 수 있다. 위의 그래프로 보아 Pclass:1, female 이 가장 우선적인 구조를 받았음을 알 수 있고, Pclass 등급이 낮아질수록 생존률이... PyTorchEDAAIkaggleAI 타이타닉 EDA(Family,Fare,Cabin,Ticket) Family - SibSp(형제 자매) + Parch(부모, 자녀) SibSp와 Parch 합하면 Family Family로 합쳐서 분석 FamilySize와 생존 관계 Figure(1): 가족의 크기가 1~11 대부분 1명 혹은 2~4명입니다. Figure(2),(3): 가족의 크기에 따른 생존비교 가족이 4명인 경우 가장 생존확률이 높다 가족 수가 많아질수록 작다 즉, 3~4인이 가장 높... kagglekaggle [Project] Natural Language Processing with Disaster Tweets - Kaggle 주어진 트윗(tweet) 데이터를 분석하여 재난(disaster)에 관련된 트윗인지 아닌지의 여부를 분석하는 문제입니다. LSTM을 포함한 다양한 분류기법으로 만든 모델 중 정확도가 가장 높은 모델을 선정하고 정확도와 로스값을 시각화고자 합니다. location – the location the tweet was sent from (may be blank) target – in train.c... Data AnalyticscolabkaggleEmbeddingNatural Language Processing with Disaster TweetspythonprojectLSTMtesorflowNLP캐글KerasData Analytics DieTanic_Part2 Feature Engineering and Data Cleaning 주어진 데이터셋은 중요한 특징도 있고 그렇지 않은 특징도 있습니다. 다른 특징으로부터 정보를 탐색하고 추출하여 새로운 features를 얻거나 추가할 수도 있습니다. 이렇게 features를 다루는 과정이므로 매우 중요합니다. Age_band Age continous feature Continous Variables는 ML모... kagglekaggle 타이타닉 캐글 필사(1) -데이터셋 확인 첫 시작 머신러닝이던 딥러닝이던 가장 먼저해야할 것은 필요할 라이브러리 호출입니다. 물론 보통은 필요한 경우 부르면서 사용합니다. 하지만 Numpy, pandas, matplotlib, seaborn과 같은 아주 기초적인 것은 먼저 호출 후에 사용하는 것을 권장합니다. 왜냐하면, 무조건 쓰이거든요 캐글 타이타닉이란? 역사상 최대 해난사고 데이터 탑승객의 생존여부 예측 모델을 구하는 것이 핵심... binarykagglebinary [Kaggle] PetFinder 대회 참여 (작성 중) 소개, 지금까지의 얻은 점 EfficientNetV2의 Practial domain에서의 한계점 지금까지 몇 개 안되는 대회를 참여하면서, 단순히 이미지만 보고 코드를 짜고 훈련을 했고, 제출까지 했을 때 어느정도 점수를 받을 수 있었습니다 하지만 현재 진행하고 있는 이 PetFinder 대회는 최소한의 EDA가 필요하다고 느꼈고, 이를 바탕으로 훈련과 추론을 해야겠다고 다짐했습니다. 대회 ... PetFinderkagglePetFinder Bitcoin hash-rate 예측 2차 공격 DeepLearningTermProjectkaggleDeepLearning Pandas 기초 -2 1. Summary functions -> numerical data Roger Voss 25514 Michael Schachner 15134 Fiona Adams 27 Christina Pickard 6 Name: taster_name, Length: 19, dtype: int64 각 이름이 몇 번 나왔는지 세어준다. 2. Maps map() 이렇게 하면 편차를 구할 수 있다. map()에... pandaskagglekaggle Bitcoin hash-rate 예측 1차 Defense 년도와 월,일을 '/' 단위로 구분하여 월 다시 뽑아 Timestamp열에 넣어주어 학습 데이터를 재 가공하였습니다. 열이 하나 더 추가되어 인풋은 7로 설정하였습니다. 과적합을 막기 위해서 epochs를 1500까지 줄였을 때 제일 높은 성능이 나오는 것을 확인했습니다. 또한 learning rate도 변경해주었습니다. plot 함수를 정의하여 cost 값을 시각화 하여 잘 학습되었다는 것... DeepLearningTermProjectkaggleDeepLearning Bitcoin hash-rate 예측 1차 공격 DeepLearningTermProjectkaggleDeepLearning Kaggle: Comprehensive data exploration with Python 각 feature를 시각화 하는 방법(scatter plot, bar graph 등)에 따라 feature에 대한 우리의 결론이 달라질 수 있습니다. sns.heatmap을 통해서 correlation matrix를 시각화하면 변수간의 상관관계를 빠르게 파악할 수 있습니다. 주어진 데이터의 heatmap을 그리면 faeture간에 상관관계가 높은 feature 쌍을 확인할 수 있습니다. he... MLkaggleML
Home Credit Default Risk Competition_EDA(1) and Check Column Types EDÅ Calculate statistics Make figures trends, anomalies, patterns or relationships Inform modeling choices Find areas of data Examine the Distribution of the Target Column Prediction of Target 0: the loan was repaid on t... kagglekaggle Home_Credit_Default_Risk_Competition_EDA(2)_label encoding and One hot encoding , Align Encoding Categorical Variables 머신러닝 모델은 범주형 변수를 이용하면 학습을 시킬 수 없습니다.(단, LightGBM같은 모델 제외, LGBM,CatBoost논문 읽기) 이런 이유로, 범주형 변수를 이산 변수로 바꾸는 encoding과정을 거쳐야합니다. Encoding Label encoding 상수를 통해서 범주형 변수 안에 있는 각각의 유니크한 범주를 지정합니다.... kagglekaggle Porto Seguro Exploratory Analysis and Prediction_prepare the model 새롭게 알게 된 사실 Stacking model이란 방식을 통해서 모델을 쌓으면 성능 향상을 이룩할 수 있다 왜냐하면, 좋은 것을 여러 개 모았기 때문입니다. 단, 연산량이 많아지는 건 주의해야합니다. 참고: *Code Prepare the model Ensable class for validation and ensamble Spliit data in KFolds train the model... kagglekaggle Introduction_Home_Credit_Default_Risk_Competition_load_data Home Credit Default *Goal The historical loan application is used data to predict probability of replaying a loan *Supervised classification task Data(Home Credit) application_train/application_test main data: each loan ... kagglekaggle EDA(Pclass, Sex, Both sex and Pclass) Pclass 서수형 데이터 타입(ordinal) 카테고리(순서가 있는 데이터 타입) 생존률 차이 살피기 피벗 차트와 유사하기에 pandas dataframe의 groupby이용하면 좋다 pivot메소드 사용 각 pclass마다 0,1로 count되고 평균내면 생존률 count()를 사용하여 각 class의 몇 명인지 확인도 가능 sum을 사용하여 216명 중 생존한 사람 총합 Sex 성별로 ... kagglekaggle 타이타닉EDA(Age, Pclass, Sex, Age,Embarked) Age Age feature살피기 생존에 따른 Age의 histogram 그려보기 생존자 중 나이가 어린 경우가 많다 Class가 높을수록 나이 많은 사람의 비중이 높다 나이대가 변하면서 생존률이 어떻게 되는지 보기 나이 범위를 넓혀가며 생존률 확인 나이가 어릴 수록 생존률이 확실히 높다 나이가 중요한 feature데이터 Pclass, Sex, Age seaborn의 violinplot를 사... kagglekaggle DieTanic_EDA_Part1 EDA 생존자는? Features 유형 Categorical 2개 이상의 카테고리 값들은 범주화에 속함 값들을 정렬할 수 없음(Nominal Variables) 예시: Sex, Embarked Ordinal Categorical와 비슷한 속성 값들을 정렬할 수 있다 예시: PClass Continous 각 열의 최소값과 최대값 구하기 가능 예시: Age Categorical Feature: ... kagglekaggle Titanic with EDA 살아남은 승객의 비율이 사망한 승객보다 작음을 알 수 있다. 배에 탑승한 전체 비율은 male이 많지만 살아남은 사람은 female이 male의 약 2배임을 알 수 있다. 위의 그래프를 보면 Pclass:1의 사람들이 높은 구조순위를 가졌음을 알 수 있다. 위의 그래프로 보아 Pclass:1, female 이 가장 우선적인 구조를 받았음을 알 수 있고, Pclass 등급이 낮아질수록 생존률이... PyTorchEDAAIkaggleAI 타이타닉 EDA(Family,Fare,Cabin,Ticket) Family - SibSp(형제 자매) + Parch(부모, 자녀) SibSp와 Parch 합하면 Family Family로 합쳐서 분석 FamilySize와 생존 관계 Figure(1): 가족의 크기가 1~11 대부분 1명 혹은 2~4명입니다. Figure(2),(3): 가족의 크기에 따른 생존비교 가족이 4명인 경우 가장 생존확률이 높다 가족 수가 많아질수록 작다 즉, 3~4인이 가장 높... kagglekaggle [Project] Natural Language Processing with Disaster Tweets - Kaggle 주어진 트윗(tweet) 데이터를 분석하여 재난(disaster)에 관련된 트윗인지 아닌지의 여부를 분석하는 문제입니다. LSTM을 포함한 다양한 분류기법으로 만든 모델 중 정확도가 가장 높은 모델을 선정하고 정확도와 로스값을 시각화고자 합니다. location – the location the tweet was sent from (may be blank) target – in train.c... Data AnalyticscolabkaggleEmbeddingNatural Language Processing with Disaster TweetspythonprojectLSTMtesorflowNLP캐글KerasData Analytics DieTanic_Part2 Feature Engineering and Data Cleaning 주어진 데이터셋은 중요한 특징도 있고 그렇지 않은 특징도 있습니다. 다른 특징으로부터 정보를 탐색하고 추출하여 새로운 features를 얻거나 추가할 수도 있습니다. 이렇게 features를 다루는 과정이므로 매우 중요합니다. Age_band Age continous feature Continous Variables는 ML모... kagglekaggle 타이타닉 캐글 필사(1) -데이터셋 확인 첫 시작 머신러닝이던 딥러닝이던 가장 먼저해야할 것은 필요할 라이브러리 호출입니다. 물론 보통은 필요한 경우 부르면서 사용합니다. 하지만 Numpy, pandas, matplotlib, seaborn과 같은 아주 기초적인 것은 먼저 호출 후에 사용하는 것을 권장합니다. 왜냐하면, 무조건 쓰이거든요 캐글 타이타닉이란? 역사상 최대 해난사고 데이터 탑승객의 생존여부 예측 모델을 구하는 것이 핵심... binarykagglebinary [Kaggle] PetFinder 대회 참여 (작성 중) 소개, 지금까지의 얻은 점 EfficientNetV2의 Practial domain에서의 한계점 지금까지 몇 개 안되는 대회를 참여하면서, 단순히 이미지만 보고 코드를 짜고 훈련을 했고, 제출까지 했을 때 어느정도 점수를 받을 수 있었습니다 하지만 현재 진행하고 있는 이 PetFinder 대회는 최소한의 EDA가 필요하다고 느꼈고, 이를 바탕으로 훈련과 추론을 해야겠다고 다짐했습니다. 대회 ... PetFinderkagglePetFinder Bitcoin hash-rate 예측 2차 공격 DeepLearningTermProjectkaggleDeepLearning Pandas 기초 -2 1. Summary functions -> numerical data Roger Voss 25514 Michael Schachner 15134 Fiona Adams 27 Christina Pickard 6 Name: taster_name, Length: 19, dtype: int64 각 이름이 몇 번 나왔는지 세어준다. 2. Maps map() 이렇게 하면 편차를 구할 수 있다. map()에... pandaskagglekaggle Bitcoin hash-rate 예측 1차 Defense 년도와 월,일을 '/' 단위로 구분하여 월 다시 뽑아 Timestamp열에 넣어주어 학습 데이터를 재 가공하였습니다. 열이 하나 더 추가되어 인풋은 7로 설정하였습니다. 과적합을 막기 위해서 epochs를 1500까지 줄였을 때 제일 높은 성능이 나오는 것을 확인했습니다. 또한 learning rate도 변경해주었습니다. plot 함수를 정의하여 cost 값을 시각화 하여 잘 학습되었다는 것... DeepLearningTermProjectkaggleDeepLearning Bitcoin hash-rate 예측 1차 공격 DeepLearningTermProjectkaggleDeepLearning Kaggle: Comprehensive data exploration with Python 각 feature를 시각화 하는 방법(scatter plot, bar graph 등)에 따라 feature에 대한 우리의 결론이 달라질 수 있습니다. sns.heatmap을 통해서 correlation matrix를 시각화하면 변수간의 상관관계를 빠르게 파악할 수 있습니다. 주어진 데이터의 heatmap을 그리면 faeture간에 상관관계가 높은 feature 쌍을 확인할 수 있습니다. he... MLkaggleML