EDA [프로그래머스 과제관] 채용 공고 추천 - EDA 및 전처리 Programmers 채용 공고 페이지를 방문한 개발자들의 방문/지원 기록을 바탕으로 추천 모델을 만들어야 합니다. 전체 학습 데이터 중 applied = 1인 데이터와 applied = 0인 데이터의 수를 살펴보았다. 유저 태그만 데이터 수가 많아서 중복을 확인해 보았다. 아이디 수와 채용 공고의 수 확인 데이터는 196명의 고유 아이디, 708개의 채용 공고로 이루어져 있다. 유저들이 가... EDA추천 시스템프로그래머스 과제관EDA Data Analysis Process, 데이터 불러오기 데이터 분석은 다음과 같은 절차를 따른다. 실제 데이터 사이언티드스들은 데이터 분석 단계 중 데이서 수집 및 가공(전처리)하는 과정에 80%이상이 비중을 둔다고 한다. 그만큼 중요하고 필수적인 과정이라는 뜻이다. 전체적인 과정을 머리속에 그려두고, 앞으로의 배움에 있어 어떤 과정을 진행하고 있는지 확인 할 필요가 있다. 자료출처 : ✍️ 데이터 불러오기 Description을 통해 데이터셋에... EDAData Analysis ProcessData AnalysispandasData Analysis Titanic with EDA 살아남은 승객의 비율이 사망한 승객보다 작음을 알 수 있다. 배에 탑승한 전체 비율은 male이 많지만 살아남은 사람은 female이 male의 약 2배임을 알 수 있다. 위의 그래프를 보면 Pclass:1의 사람들이 높은 구조순위를 가졌음을 알 수 있다. 위의 그래프로 보아 Pclass:1, female 이 가장 우선적인 구조를 받았음을 알 수 있고, Pclass 등급이 낮아질수록 생존률이... PyTorchEDAAIkaggleAI [Python] FIFA 데이터 EDA 2. 데이터 불러오기 18278명의 선수와 104개의 컬럼이 있다는 것을 확인할 수 있다. ID 부터 시작해서 포지션별 능력치까지 총 104개의 컬럼이 있는것을 확인할 수 있다. overall : 선수의 전체적인 능력치 value_eur : 선수가치 wage_eur : 선수임금 선수들의 전체적인 능력치를 나타내는 OVERALL을 기준으로 선수들의 분포를 확인하면 6~70 에 대부분의 선수들이... pythonbigdataEDAanacondaEDA Day1_EDA,Pre-processing 데이터 분석 방법론 중 하나로 시각화, 통계적 수치 확인 등을 통해 데이터를 파악한다. 방법에 따른 분류 Graphic : 차트 혹은 그림 등을 이용하여 데이터를 확인하는 방법입니다. Non-Graphic :그래픽적인 요소를 사용하지 않는 방법으로, 주로 Summary Statistics를 통해 데이터를 확인하는 방법입니다. 타겟 데이터에 따른 분류 Uni-variate Multi-varia... pre-processing부트캠프AI코드스테이츠EDAAI [E&C] 05. 셀프 주유소 가격 분석 셀프 주유소가 일반 주유소보다 저렴한지 알아보기 셀레니움을 이용해 데이터 추출 웹페이지 추출 모듈 가져오기 selenium : 동적 페이지 데이터 추출 모듈 Chrome 브라우저 사용이 편함 Chrome 브라우저에 맞는 driver를 찾아 이용 페이지를 다시 접근해 데이터를 추출 할 준비 SIGUNGU_NM0 : 구 이름 추출 데이터 추출 및 전처리 위에서 본 태그를 이용해 구 이름 추출 데... CrawlingEDACrawling [TIL] EDA 엑셀파일 로드 xls = pd.ExcelFile('file_name_or_fath') sheet name 확인하기 ❗ 이름으로 불러와야 하는데 띄어쓰기 있을 수 있음 xls.sheet_names 요걸로 확인 sheet 별로 dataframe에 저장 나눔고딕 설치 런타임 재시작 matplotlib 의 폰트 Nanum 폰트로 지정 import warnings warnings.filterwarni... errorEDAEDA Exploratory Data Analysis with Kaggle Dataset Series (4) Gender 변수를 보니 전체 소비자 중 Female(여성)의 비율이 Male(남성)의 비율보다 2% 많은 것을 확인할 수 있습니다. EstimatedSalary 변수 또한 히스토그램을 통해 살펴본 결과 왼쪽으로 약간 치우친 분포를 보이고 있는 것을 확인할 수 있습니다. 연속형 변수인 Age 변수와 EstimatedSalary 변수 간의 관계를 회귀선을 추가한 산점도를 통해 확인해보니, 아주... kaggle가설 검정R데이터 분석시각화EDAEDA EDA, Markdown, git, 라벨별plot Git, Github Fork : branch 생성 clone : 개인 pc에서 작업 commit : branch에 적용 pull request : master에 pull Markdown EDA 추가 공부계획 : git 문법 및 작동process, pandas, 그래프를 사용한 시각화... EDAgitmatplotlibMarkdownEDA [E&C] 07. 인구소멸 위험지역 데이터 분석 python 3.8 인구소멸 위험지역 파악 인구소멸 위험지역 지도 표현 카토그램 시각화 거주민들이 점점 줄어들어 사라질 위험이 있는 지역 로 측정 65세 이상 노인 인구와 20∼39세 여성 인구 비교 노인 인구 절반 > 젊은 여성 인구 : 소멸 위험 지역 1.5 이상 : 매우 낮음, 안정 1.0 ~ 1.5 : 보통 0.5 ~ 1.0 : 주의 0.2 ~ 0.5 : 위험 진입 0.2 미만 : 고... EDACrawlingCrawling EDA (II) (4) 특징 분석과 가시화 특징 분석 (1) 단변수 분석 분류 변수 countplot:sns.countplot(hue=“sex”, x=“survived”, data=titanic, palette=“Greens_d”)`; 연속형 변수 distplot:sns.distplot(x); boxplot:sns.boxplot(data=iris, orient=“h”); (2) 다변수 분석 분류 변수 + 기... EDA 무지에서 시작된 이벤트 구동 구조~ 도입편~ 필자는 이벤트 구동 구조(Event Driven Archeitecture)와 서버 없는 구조에 대해 아무것도 모른다.이러한 필자는 보도에서 학습 활동 구동 구조의 과정을 남겼고 앞으로 학습 활동 구동 구조를 시작하는 사람들에게 참고 가치가 있기를 바란다. 발주 관리 서비스는 배송 예약 서비스와 재고 관리 서비스에 요청을 보내는 것이 아니라 사건만 발송하며, 배송 예약 서비스와 재고 관리 서비... EDA이벤트 구동AWS서버 아키텍처 없음 Exploratory Data Analysis with Kaggle Dataset Series (1) 이전에 1+1을 사용하지 않은 고객(0)의 수보다 이전에 1+1을 사용한 고객(1)의 수가 더 많은 것을 확인할 수 있습니다. 고객을 추천 채널에서 획득하지 못한 경우(0)와 고객을 추천 채널에서 획득한 경우(1) 사이에는 그렇게 큰 차이가 나지 않은 것을 확인할 수 있습니다. 고객에게 발송된 제안을 세 종류로 구분하였을 때(Buy One Get One = 1+1, Discount = 할인,... 마케팅kaggle가설 검정R데이터 분석EDAEDA
[프로그래머스 과제관] 채용 공고 추천 - EDA 및 전처리 Programmers 채용 공고 페이지를 방문한 개발자들의 방문/지원 기록을 바탕으로 추천 모델을 만들어야 합니다. 전체 학습 데이터 중 applied = 1인 데이터와 applied = 0인 데이터의 수를 살펴보았다. 유저 태그만 데이터 수가 많아서 중복을 확인해 보았다. 아이디 수와 채용 공고의 수 확인 데이터는 196명의 고유 아이디, 708개의 채용 공고로 이루어져 있다. 유저들이 가... EDA추천 시스템프로그래머스 과제관EDA Data Analysis Process, 데이터 불러오기 데이터 분석은 다음과 같은 절차를 따른다. 실제 데이터 사이언티드스들은 데이터 분석 단계 중 데이서 수집 및 가공(전처리)하는 과정에 80%이상이 비중을 둔다고 한다. 그만큼 중요하고 필수적인 과정이라는 뜻이다. 전체적인 과정을 머리속에 그려두고, 앞으로의 배움에 있어 어떤 과정을 진행하고 있는지 확인 할 필요가 있다. 자료출처 : ✍️ 데이터 불러오기 Description을 통해 데이터셋에... EDAData Analysis ProcessData AnalysispandasData Analysis Titanic with EDA 살아남은 승객의 비율이 사망한 승객보다 작음을 알 수 있다. 배에 탑승한 전체 비율은 male이 많지만 살아남은 사람은 female이 male의 약 2배임을 알 수 있다. 위의 그래프를 보면 Pclass:1의 사람들이 높은 구조순위를 가졌음을 알 수 있다. 위의 그래프로 보아 Pclass:1, female 이 가장 우선적인 구조를 받았음을 알 수 있고, Pclass 등급이 낮아질수록 생존률이... PyTorchEDAAIkaggleAI [Python] FIFA 데이터 EDA 2. 데이터 불러오기 18278명의 선수와 104개의 컬럼이 있다는 것을 확인할 수 있다. ID 부터 시작해서 포지션별 능력치까지 총 104개의 컬럼이 있는것을 확인할 수 있다. overall : 선수의 전체적인 능력치 value_eur : 선수가치 wage_eur : 선수임금 선수들의 전체적인 능력치를 나타내는 OVERALL을 기준으로 선수들의 분포를 확인하면 6~70 에 대부분의 선수들이... pythonbigdataEDAanacondaEDA Day1_EDA,Pre-processing 데이터 분석 방법론 중 하나로 시각화, 통계적 수치 확인 등을 통해 데이터를 파악한다. 방법에 따른 분류 Graphic : 차트 혹은 그림 등을 이용하여 데이터를 확인하는 방법입니다. Non-Graphic :그래픽적인 요소를 사용하지 않는 방법으로, 주로 Summary Statistics를 통해 데이터를 확인하는 방법입니다. 타겟 데이터에 따른 분류 Uni-variate Multi-varia... pre-processing부트캠프AI코드스테이츠EDAAI [E&C] 05. 셀프 주유소 가격 분석 셀프 주유소가 일반 주유소보다 저렴한지 알아보기 셀레니움을 이용해 데이터 추출 웹페이지 추출 모듈 가져오기 selenium : 동적 페이지 데이터 추출 모듈 Chrome 브라우저 사용이 편함 Chrome 브라우저에 맞는 driver를 찾아 이용 페이지를 다시 접근해 데이터를 추출 할 준비 SIGUNGU_NM0 : 구 이름 추출 데이터 추출 및 전처리 위에서 본 태그를 이용해 구 이름 추출 데... CrawlingEDACrawling [TIL] EDA 엑셀파일 로드 xls = pd.ExcelFile('file_name_or_fath') sheet name 확인하기 ❗ 이름으로 불러와야 하는데 띄어쓰기 있을 수 있음 xls.sheet_names 요걸로 확인 sheet 별로 dataframe에 저장 나눔고딕 설치 런타임 재시작 matplotlib 의 폰트 Nanum 폰트로 지정 import warnings warnings.filterwarni... errorEDAEDA Exploratory Data Analysis with Kaggle Dataset Series (4) Gender 변수를 보니 전체 소비자 중 Female(여성)의 비율이 Male(남성)의 비율보다 2% 많은 것을 확인할 수 있습니다. EstimatedSalary 변수 또한 히스토그램을 통해 살펴본 결과 왼쪽으로 약간 치우친 분포를 보이고 있는 것을 확인할 수 있습니다. 연속형 변수인 Age 변수와 EstimatedSalary 변수 간의 관계를 회귀선을 추가한 산점도를 통해 확인해보니, 아주... kaggle가설 검정R데이터 분석시각화EDAEDA EDA, Markdown, git, 라벨별plot Git, Github Fork : branch 생성 clone : 개인 pc에서 작업 commit : branch에 적용 pull request : master에 pull Markdown EDA 추가 공부계획 : git 문법 및 작동process, pandas, 그래프를 사용한 시각화... EDAgitmatplotlibMarkdownEDA [E&C] 07. 인구소멸 위험지역 데이터 분석 python 3.8 인구소멸 위험지역 파악 인구소멸 위험지역 지도 표현 카토그램 시각화 거주민들이 점점 줄어들어 사라질 위험이 있는 지역 로 측정 65세 이상 노인 인구와 20∼39세 여성 인구 비교 노인 인구 절반 > 젊은 여성 인구 : 소멸 위험 지역 1.5 이상 : 매우 낮음, 안정 1.0 ~ 1.5 : 보통 0.5 ~ 1.0 : 주의 0.2 ~ 0.5 : 위험 진입 0.2 미만 : 고... EDACrawlingCrawling EDA (II) (4) 특징 분석과 가시화 특징 분석 (1) 단변수 분석 분류 변수 countplot:sns.countplot(hue=“sex”, x=“survived”, data=titanic, palette=“Greens_d”)`; 연속형 변수 distplot:sns.distplot(x); boxplot:sns.boxplot(data=iris, orient=“h”); (2) 다변수 분석 분류 변수 + 기... EDA 무지에서 시작된 이벤트 구동 구조~ 도입편~ 필자는 이벤트 구동 구조(Event Driven Archeitecture)와 서버 없는 구조에 대해 아무것도 모른다.이러한 필자는 보도에서 학습 활동 구동 구조의 과정을 남겼고 앞으로 학습 활동 구동 구조를 시작하는 사람들에게 참고 가치가 있기를 바란다. 발주 관리 서비스는 배송 예약 서비스와 재고 관리 서비스에 요청을 보내는 것이 아니라 사건만 발송하며, 배송 예약 서비스와 재고 관리 서비... EDA이벤트 구동AWS서버 아키텍처 없음 Exploratory Data Analysis with Kaggle Dataset Series (1) 이전에 1+1을 사용하지 않은 고객(0)의 수보다 이전에 1+1을 사용한 고객(1)의 수가 더 많은 것을 확인할 수 있습니다. 고객을 추천 채널에서 획득하지 못한 경우(0)와 고객을 추천 채널에서 획득한 경우(1) 사이에는 그렇게 큰 차이가 나지 않은 것을 확인할 수 있습니다. 고객에게 발송된 제안을 세 종류로 구분하였을 때(Buy One Get One = 1+1, Discount = 할인,... 마케팅kaggle가설 검정R데이터 분석EDAEDA