데이터분석 [데이터분석]3. 인구 공공데이터 인구 데이터 파일 읽어오기 저장된 인구수 시각화 row[3] : 0~100세 이상의 인구수 읽어온 데이터 저장 저장된 데이터 int형으로 형변환하여 result에 저장 bar(막대를 표시할 위치, 막대의 높이) 함수 이용 : 막대길이는 각 데이터의 크기 의미. 1) 데이터 불러오기 2) 데이터 시각화 각 지역별로 데이터 수가 다르기 때문에 잘 확인하여 len에 맞게 시각화해야함 두 데이터 모... python데이터분석python [데이터분석]5.numpy 넘파이 리스트 vs 파이썬 리스트 numpy.ndarray : N-Dimensional, n차원 ⭐️ rand() : 실수로 나옴 ⭐️ choice(n, m) : 0 ~ n-1까지의 숫자를 m번 반복하여 선택 ⭐️ replace=False 로 설정하여 중복값을 뽑지 못하게 설정 ⭐️ p : 확률 설정 0은 0.1, 1은 0.2, 2는 0.3 등으로 확률 설정할 수 있음 1) 히스토그램 확률 ... 파이썬데이터분석데이터분석 [데이터분석]7.Pandas 8행 3열로 구성된 행렬 생성 특정 행/열 선택 시 시리즈(Series) 데이터구조 형태로 표현됨 데이터 프레임 행과 열 바꾸기 : T(transpose) 🌼 행 우선 계산 vs 열 우선 계산 행 우선 계산을 기본으로 함 열 방향 축 계산 : axis = 1 1) 행 방향 축 계산 2) 열 방향 축 계산 df['E'] = np.sum(df, axis=1) : 행 기준으로 합산 후 E라는 열 ... 파이썬데이터분석데이터분석 [데이터분석]6. 넘파이를 이용한 프로젝트 우리 동네와 연령별 인구구조가 비슷한 동네 찾기 데이터 읽어오기 알고 싶은 지역 이름 입력받기 해당 지역 인구 구조 저장 해당 지역의 인구구조와 비슷한 인구구조를 가진 지역 찾기 해당 데이터 시각화 불필요한 2개 행 제외하고 전 데이터 프린트 넘파이 배열을 이용하여 이중 루프 해소 전국의 모든 지역 중 한 곳 선택 입력받은 지역과 선택된 지역의 0세 인구 비율을 각각 뺄셈 100세 이상까지 ... 파이썬데이터분석데이터분석 [데이터 분석] 1. 코로나 데이터 분석 #2. 전세계 코로나 확진자 수 추이 import plotly.express as px : 능동 대화형 그래프 모듈 px.scatter() : 점 표시 size : 데이터프레임 해당 열의 값 크기에 따라 크기 변화 color : 데이터 프레임 해당 열의 값의 유형별로 색을 다르게 표시 fig = px.pie(df_date, values='new_cases', names='location') : values 값의 숫자 비율을 통해... 파이썬데이터분석인공지능데이터분석 테이블을 연결시켜보자! 테이블 연결? primary key로 각 테이블을 연결 시켜서 볼 수 있음 필요한 데이터끼리 잘 묶어서 테이블을 구분 해 둬야 잘 설계된 DB임.. (수정이 필요할때 모든 자료를 다 찾아서 수정하게 되는것을 방지..) JOIN (Merge) 내가 보는 테이블에 추가로 알고싶은 정보가 담긴 테이블을 가져와서 붙이는것 ON 이 JOIN되는 조건. order_id가 같을때 JOIN 해! 여러개를 ... TILsql데이터데이터분석TIL 파이썬 데이터 분석_개발일지_4주차 #목표 1. 데이터 분석을 기획할 수 있다. 2. 분석을 위한 가설을 세울 수 있다. 3. 데이터 분석 노트를 작성할 수 있다. #1 - 주식 데이터를 분석하기 데이터 불러오기 온라인에서 최신 코드 데이터 가져오기: 데이터 전처리 원하는 종목 코드 가져오기 그래프 그리기 #2 - 분석한 데이터로 인사이트 얻기 두 데이터가 어느 정도의 상관관계를 가지고 있는지를 분석한다. 피어슨 상관계수 상관... 파이썬 데이터 분석데이터분석국비지원내일배움카드웹개발pythonpandas내일배움단스파르타코딩클럽코딩프로젝트코딩matplotlibmatplotlib 가명처리 예비인력 양성 과정 해커톤 회고 -2 위의 표에서 1열을 통해서 라벨과 각 변수간의 상관관계를 찾아볼 수 있었습니다. 오른쪽 IncNodePurity에 나와 있듯이 범주형 데이터(Gender, Marital_Status, Education_Level, Card_Category, Income_Category)은 대체적으로 중요도가 낮은 것을 알 수 있었습니다. 하지만 위의 상관관계 표에서 라벨과 -26%의 상관관계를 나타내던 총 ... 비식별화가명처리데이터분석가명처리 K-디지털트레이닝(빅데이터) 33일차 오늘은 워드클라우드로 형태소분석 밑 구글플레이 댓글 크롤링을 했다. 패키지 불러오기 네이버 api 만들어 놓은거 불러오기 워드클라우드 및 형태소 분석을 위해 패키지 불러오기 태그를 나눠주는 함수를 만들어준다. 특수기호와 영어 제거하기 위해 함수를 만들어준다. Okt는 한글만 가능하기 때문에 이렇게 해줘야한다. 워드클라우드함수를 만들어준다. 이어쓰기를 해서 하나의 데이터로 만들어준다. 크롤링 ... KDT데이터분석KDT [SQL]where, group by 실습1 1. 다음과 같은 스키마를 보고 student_info 테이블을 생성하는 명령어를 작성하라. varchar: 가변형 char형. char : 정형 char형. 읽는 속도가 더 빠르다. not null : null을 허용하지 않음. 2. 1번에서 생성한 student_info 테이블에 다음 5개의 데이터를 삽입하는 명령어를 작성하고 student_info 테이블의 모든 데이터를 출력하라 3. ... sql데이터분석dbdb 파이썬 데이터 분석 1주차 정리 Preview "Installing Anaconda" : 아나콘다는 분석을 도와주는 '패키지매니징 플랫폼'이다. : 개발에 필요한 도구들을 포함하고 있다. "파이썬 라이브러리" : 파이썬에서 관련있는 기능들의 묶음을 모듈, 모듈들의 묶음을 패키지, 패키지들의 묶음을 라이브러리라고 부른다. (패키지와 라이브러리는 많이들 혼용해서 쓰기도 한다) Python 1) 자료형 리스트 형 딕셔너리 형 리... 데이터분석python스파르타코딩클럽파이썬CodingCoding K-디지털트레이닝(빅데이터) 37일차 년도별 노인보호구역 갯수와 교통사고 내역을 분석 보호구역이 늘어나도 계속해서 교통사고 건수가 늘어나는 것을 볼 수 있다. 년도별 어린이보호구역 갯수와 교통사고 내역을 분석 보호구역 갯수가 늘어날수록 교통사고가 줄어들고있다.... KDTpandas데이터분석pythonKDT 데이터 분석 기법들 퍼널 분석 : 목표를 이루기 위한 단계 중에 어떤 단계에 집중해야하는지 찾아보는 것 코호트 분석 : 시간이 흐름에 따라 고객은 어떻게 변하는지 리텐션 (일정 시간 이후 얼마나 많은 사용자가 재사용하는지) RFM 분석 : 고객 행동 기반 segmentation 방법 퍼널 분석 목표 까지의 고객 여정을 단계별로 나눠 단계별 전환,이탈을 측정하는 분석. 고객 여정 : 사용자가 우리가 원하는 행동을... sql데이터분석기법퍼널데이터데이터분석코호트sql 부산(10년) 일강수량, 월별강수량, 강수최대횟수연도 출처 : 기상자료개방포털 강우량데이터(2010~2020년) 2010년 1월 1일 ~ 2010년 1월 3일, 2020년 12월 31일데이터 없으므로 임의로 추가하고 frequency를 교체해야함 시작과 끝기준은 맞춰줘야함 일강수량의 결측값이 곧 비가 안내리는 것임 강우가 내렸을 경우 1, 안내렸을 경우 0으로 표현하는 열을 만듬 시각화 및 10년동안 비내린 횟수를 보자 0의 의미는 비가 내리지... 일강수량월별강수량시각화부산데이터분석기후기후
[데이터분석]3. 인구 공공데이터 인구 데이터 파일 읽어오기 저장된 인구수 시각화 row[3] : 0~100세 이상의 인구수 읽어온 데이터 저장 저장된 데이터 int형으로 형변환하여 result에 저장 bar(막대를 표시할 위치, 막대의 높이) 함수 이용 : 막대길이는 각 데이터의 크기 의미. 1) 데이터 불러오기 2) 데이터 시각화 각 지역별로 데이터 수가 다르기 때문에 잘 확인하여 len에 맞게 시각화해야함 두 데이터 모... python데이터분석python [데이터분석]5.numpy 넘파이 리스트 vs 파이썬 리스트 numpy.ndarray : N-Dimensional, n차원 ⭐️ rand() : 실수로 나옴 ⭐️ choice(n, m) : 0 ~ n-1까지의 숫자를 m번 반복하여 선택 ⭐️ replace=False 로 설정하여 중복값을 뽑지 못하게 설정 ⭐️ p : 확률 설정 0은 0.1, 1은 0.2, 2는 0.3 등으로 확률 설정할 수 있음 1) 히스토그램 확률 ... 파이썬데이터분석데이터분석 [데이터분석]7.Pandas 8행 3열로 구성된 행렬 생성 특정 행/열 선택 시 시리즈(Series) 데이터구조 형태로 표현됨 데이터 프레임 행과 열 바꾸기 : T(transpose) 🌼 행 우선 계산 vs 열 우선 계산 행 우선 계산을 기본으로 함 열 방향 축 계산 : axis = 1 1) 행 방향 축 계산 2) 열 방향 축 계산 df['E'] = np.sum(df, axis=1) : 행 기준으로 합산 후 E라는 열 ... 파이썬데이터분석데이터분석 [데이터분석]6. 넘파이를 이용한 프로젝트 우리 동네와 연령별 인구구조가 비슷한 동네 찾기 데이터 읽어오기 알고 싶은 지역 이름 입력받기 해당 지역 인구 구조 저장 해당 지역의 인구구조와 비슷한 인구구조를 가진 지역 찾기 해당 데이터 시각화 불필요한 2개 행 제외하고 전 데이터 프린트 넘파이 배열을 이용하여 이중 루프 해소 전국의 모든 지역 중 한 곳 선택 입력받은 지역과 선택된 지역의 0세 인구 비율을 각각 뺄셈 100세 이상까지 ... 파이썬데이터분석데이터분석 [데이터 분석] 1. 코로나 데이터 분석 #2. 전세계 코로나 확진자 수 추이 import plotly.express as px : 능동 대화형 그래프 모듈 px.scatter() : 점 표시 size : 데이터프레임 해당 열의 값 크기에 따라 크기 변화 color : 데이터 프레임 해당 열의 값의 유형별로 색을 다르게 표시 fig = px.pie(df_date, values='new_cases', names='location') : values 값의 숫자 비율을 통해... 파이썬데이터분석인공지능데이터분석 테이블을 연결시켜보자! 테이블 연결? primary key로 각 테이블을 연결 시켜서 볼 수 있음 필요한 데이터끼리 잘 묶어서 테이블을 구분 해 둬야 잘 설계된 DB임.. (수정이 필요할때 모든 자료를 다 찾아서 수정하게 되는것을 방지..) JOIN (Merge) 내가 보는 테이블에 추가로 알고싶은 정보가 담긴 테이블을 가져와서 붙이는것 ON 이 JOIN되는 조건. order_id가 같을때 JOIN 해! 여러개를 ... TILsql데이터데이터분석TIL 파이썬 데이터 분석_개발일지_4주차 #목표 1. 데이터 분석을 기획할 수 있다. 2. 분석을 위한 가설을 세울 수 있다. 3. 데이터 분석 노트를 작성할 수 있다. #1 - 주식 데이터를 분석하기 데이터 불러오기 온라인에서 최신 코드 데이터 가져오기: 데이터 전처리 원하는 종목 코드 가져오기 그래프 그리기 #2 - 분석한 데이터로 인사이트 얻기 두 데이터가 어느 정도의 상관관계를 가지고 있는지를 분석한다. 피어슨 상관계수 상관... 파이썬 데이터 분석데이터분석국비지원내일배움카드웹개발pythonpandas내일배움단스파르타코딩클럽코딩프로젝트코딩matplotlibmatplotlib 가명처리 예비인력 양성 과정 해커톤 회고 -2 위의 표에서 1열을 통해서 라벨과 각 변수간의 상관관계를 찾아볼 수 있었습니다. 오른쪽 IncNodePurity에 나와 있듯이 범주형 데이터(Gender, Marital_Status, Education_Level, Card_Category, Income_Category)은 대체적으로 중요도가 낮은 것을 알 수 있었습니다. 하지만 위의 상관관계 표에서 라벨과 -26%의 상관관계를 나타내던 총 ... 비식별화가명처리데이터분석가명처리 K-디지털트레이닝(빅데이터) 33일차 오늘은 워드클라우드로 형태소분석 밑 구글플레이 댓글 크롤링을 했다. 패키지 불러오기 네이버 api 만들어 놓은거 불러오기 워드클라우드 및 형태소 분석을 위해 패키지 불러오기 태그를 나눠주는 함수를 만들어준다. 특수기호와 영어 제거하기 위해 함수를 만들어준다. Okt는 한글만 가능하기 때문에 이렇게 해줘야한다. 워드클라우드함수를 만들어준다. 이어쓰기를 해서 하나의 데이터로 만들어준다. 크롤링 ... KDT데이터분석KDT [SQL]where, group by 실습1 1. 다음과 같은 스키마를 보고 student_info 테이블을 생성하는 명령어를 작성하라. varchar: 가변형 char형. char : 정형 char형. 읽는 속도가 더 빠르다. not null : null을 허용하지 않음. 2. 1번에서 생성한 student_info 테이블에 다음 5개의 데이터를 삽입하는 명령어를 작성하고 student_info 테이블의 모든 데이터를 출력하라 3. ... sql데이터분석dbdb 파이썬 데이터 분석 1주차 정리 Preview "Installing Anaconda" : 아나콘다는 분석을 도와주는 '패키지매니징 플랫폼'이다. : 개발에 필요한 도구들을 포함하고 있다. "파이썬 라이브러리" : 파이썬에서 관련있는 기능들의 묶음을 모듈, 모듈들의 묶음을 패키지, 패키지들의 묶음을 라이브러리라고 부른다. (패키지와 라이브러리는 많이들 혼용해서 쓰기도 한다) Python 1) 자료형 리스트 형 딕셔너리 형 리... 데이터분석python스파르타코딩클럽파이썬CodingCoding K-디지털트레이닝(빅데이터) 37일차 년도별 노인보호구역 갯수와 교통사고 내역을 분석 보호구역이 늘어나도 계속해서 교통사고 건수가 늘어나는 것을 볼 수 있다. 년도별 어린이보호구역 갯수와 교통사고 내역을 분석 보호구역 갯수가 늘어날수록 교통사고가 줄어들고있다.... KDTpandas데이터분석pythonKDT 데이터 분석 기법들 퍼널 분석 : 목표를 이루기 위한 단계 중에 어떤 단계에 집중해야하는지 찾아보는 것 코호트 분석 : 시간이 흐름에 따라 고객은 어떻게 변하는지 리텐션 (일정 시간 이후 얼마나 많은 사용자가 재사용하는지) RFM 분석 : 고객 행동 기반 segmentation 방법 퍼널 분석 목표 까지의 고객 여정을 단계별로 나눠 단계별 전환,이탈을 측정하는 분석. 고객 여정 : 사용자가 우리가 원하는 행동을... sql데이터분석기법퍼널데이터데이터분석코호트sql 부산(10년) 일강수량, 월별강수량, 강수최대횟수연도 출처 : 기상자료개방포털 강우량데이터(2010~2020년) 2010년 1월 1일 ~ 2010년 1월 3일, 2020년 12월 31일데이터 없으므로 임의로 추가하고 frequency를 교체해야함 시작과 끝기준은 맞춰줘야함 일강수량의 결측값이 곧 비가 안내리는 것임 강우가 내렸을 경우 1, 안내렸을 경우 0으로 표현하는 열을 만듬 시각화 및 10년동안 비내린 횟수를 보자 0의 의미는 비가 내리지... 일강수량월별강수량시각화부산데이터분석기후기후