데이터사이언스 문과생 데이터사이언티스트되기 7! SQL은 Structured Query Language 즉, 구조적 질의 언어의 줄임말입니다. 관계형 데이터베이스 시스템에서 자료를 관리 및 처리하기 위해 설계된 언어입니다. SQL은 1970년대에 IBM에서 최초 개발되었으며 관계형 모델이라는 이론에서 파생된 특징을 가지고 있는데, 현재 SQL의 표준으로 ANSI SQL이 정립되었습니다. 관계형 모델이란 비즈니스 데이터를 인식, 구성하고, ... 문과생데이터사이언스sql부트캠프제로베이스코딩데이터사이언티스트sql 문과생 데이터 사이언티스트되기 6 Pandas는 쉽고 직관적인 관계형 또는 분류된 데이터로 작업 할 수 있도록 설계된 빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지이다. 또한, 어떤 언어로도 사용할 수 있는 가장 강력하고 유연한 오픈 소스 데이터 분석 / 조직 도구가되는 더 넓은 목표를 가지고 있다. 데이터의 통계 및 시각화 기능 DataFrame 및 상위 차원 개체에서 열을 삽입하고 삭제할 수 있... 데이터사이언스부트캠프pandas취준생제로베이스문과생데이터사이언티스트pandas [AI Bootcamp] N131 - Linear Algebra (1) 특히, 인간의 입장에서 인과관계를 명확하게 이해할 수 있는 경우는 선형적인 관계일 때 -> input, output 변수가 모두 여러개 있을 때, 이들이 모두 선형적인 관계로 얽혀있다고 가정하는 것 = 행렬(Matrix) 👀 사람이 시각적으로 이해할 수 있는 것은 3차원이 끝 -> 그 이상은 숫자로 표현 수학자: 어떤 것이든지 벡터가 될 수 있다 e.g. 벡터 간의 덧셈, 상수배 etc 가능... doingMAE코드스테이츠AIMSEmatrixinverse matrixidentity matrixvectordeterminant데이터사이언스bootcampAI [데이터사이언스] Diary - (11) 분산 데이터가 얼마나 퍼져있는지를 측정하는 방법 각 값들의 평균으로부터 차이의 제곱 평균이다. 분산을 구하기 위해서 우선 평균을 먼저 계산해야한다. 표준편차 분산은 기본적으로 제곱을 하기 때문에 값이 크다. 그래서 값을 보다 작은사이즈로 만들어주기 위해 표준편차를 사용한다. 공분산 변수 1개값이 변화할때 다른 변수가 어떤 연관성을 나타내면서 변하는지를 측정하는 방법 공분산 값이 크면 두 변수... 데이터사이언스데이터사이언스 [AI Bootcamp] N121 - Hypothesis Test 기술 통계치(Descriptive Statistics) 시각화: Box plot, Bag plot, Violin plot etc - Bag plot: Box plot을 좀 더 다양한 변수를 포함하도록 변형한 것이나, 너무 난해해서 잘 쓰이지 않음 추리 통계치(Inferential Statistics) Effective Sampling Simple Random Sampling: 완전 무작위 추... doing코드스테이츠samplingAIT-test가설검정데이터사이언스bootcampAI [AI Bootcamp] N211 - Simple Regression 독립변수(independent variable; x): 우리가 조정 가능한 것 (변화하는 것) 종속변수(dependent variable; y): 결과 Linear Regression Model 회귀선은 x변수들의 평균, y변수들의 평균에 해당하는 (x,y)를 지나감 b.c. 선과 변수들 간의 error의 합이 가장 작은 선을 그어야 함 \hat{y} y^ = Bo + B1 x \hat{y}... 코드스테이츠기준모델AI선형회귀모델지도학습데이터사이언스bootcampAI [AI Bootcamp] N111 - EDA, Data Preprocessing 정보를 미리 파악한 후 데이터 불러오기를 해야 하는 이유? -> library 활용 e.g. pandas.read_csv() ❓ 좋은 데이터셋이란 무엇인가? ❓ CSV가 어떤 것을 의미하는가? CSV는 comma-separated values로 몇가지 필드를 comma 즉, 쉼표로 구분한 텍스트 데이터 및 텍스트 파일 ❓ EDA와 Data Preprocessing의 차이는? EDA: 데이터가... done데이터사이언스EDAPreprocessingAI코드스테이츠bootcampAI [데이터사이언스] Diary-(9) *베이지안 정리: 사전확률 / 사후확률을 초기값으로 각각 0.5를 설정한후 사건이 발생함에 따라 사후확률을 계속 업데이트 하는 방식. 1.총 확률의 법칙은 무멋인가? A라는 특정 확률 변수에 대해 모든 일어날 경우를 더하면 1이 된다. Ex) 주사위가 1,2,3,4,5,6이 나올 확률을 모두 더하면 1 A,B의 서로 연관 되어있는 변수도 고려해보자. 사건B가 일어난 상황에서 사건A가 일어날 ... 데이터사이언스데이터사이언스
문과생 데이터사이언티스트되기 7! SQL은 Structured Query Language 즉, 구조적 질의 언어의 줄임말입니다. 관계형 데이터베이스 시스템에서 자료를 관리 및 처리하기 위해 설계된 언어입니다. SQL은 1970년대에 IBM에서 최초 개발되었으며 관계형 모델이라는 이론에서 파생된 특징을 가지고 있는데, 현재 SQL의 표준으로 ANSI SQL이 정립되었습니다. 관계형 모델이란 비즈니스 데이터를 인식, 구성하고, ... 문과생데이터사이언스sql부트캠프제로베이스코딩데이터사이언티스트sql 문과생 데이터 사이언티스트되기 6 Pandas는 쉽고 직관적인 관계형 또는 분류된 데이터로 작업 할 수 있도록 설계된 빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지이다. 또한, 어떤 언어로도 사용할 수 있는 가장 강력하고 유연한 오픈 소스 데이터 분석 / 조직 도구가되는 더 넓은 목표를 가지고 있다. 데이터의 통계 및 시각화 기능 DataFrame 및 상위 차원 개체에서 열을 삽입하고 삭제할 수 있... 데이터사이언스부트캠프pandas취준생제로베이스문과생데이터사이언티스트pandas [AI Bootcamp] N131 - Linear Algebra (1) 특히, 인간의 입장에서 인과관계를 명확하게 이해할 수 있는 경우는 선형적인 관계일 때 -> input, output 변수가 모두 여러개 있을 때, 이들이 모두 선형적인 관계로 얽혀있다고 가정하는 것 = 행렬(Matrix) 👀 사람이 시각적으로 이해할 수 있는 것은 3차원이 끝 -> 그 이상은 숫자로 표현 수학자: 어떤 것이든지 벡터가 될 수 있다 e.g. 벡터 간의 덧셈, 상수배 etc 가능... doingMAE코드스테이츠AIMSEmatrixinverse matrixidentity matrixvectordeterminant데이터사이언스bootcampAI [데이터사이언스] Diary - (11) 분산 데이터가 얼마나 퍼져있는지를 측정하는 방법 각 값들의 평균으로부터 차이의 제곱 평균이다. 분산을 구하기 위해서 우선 평균을 먼저 계산해야한다. 표준편차 분산은 기본적으로 제곱을 하기 때문에 값이 크다. 그래서 값을 보다 작은사이즈로 만들어주기 위해 표준편차를 사용한다. 공분산 변수 1개값이 변화할때 다른 변수가 어떤 연관성을 나타내면서 변하는지를 측정하는 방법 공분산 값이 크면 두 변수... 데이터사이언스데이터사이언스 [AI Bootcamp] N121 - Hypothesis Test 기술 통계치(Descriptive Statistics) 시각화: Box plot, Bag plot, Violin plot etc - Bag plot: Box plot을 좀 더 다양한 변수를 포함하도록 변형한 것이나, 너무 난해해서 잘 쓰이지 않음 추리 통계치(Inferential Statistics) Effective Sampling Simple Random Sampling: 완전 무작위 추... doing코드스테이츠samplingAIT-test가설검정데이터사이언스bootcampAI [AI Bootcamp] N211 - Simple Regression 독립변수(independent variable; x): 우리가 조정 가능한 것 (변화하는 것) 종속변수(dependent variable; y): 결과 Linear Regression Model 회귀선은 x변수들의 평균, y변수들의 평균에 해당하는 (x,y)를 지나감 b.c. 선과 변수들 간의 error의 합이 가장 작은 선을 그어야 함 \hat{y} y^ = Bo + B1 x \hat{y}... 코드스테이츠기준모델AI선형회귀모델지도학습데이터사이언스bootcampAI [AI Bootcamp] N111 - EDA, Data Preprocessing 정보를 미리 파악한 후 데이터 불러오기를 해야 하는 이유? -> library 활용 e.g. pandas.read_csv() ❓ 좋은 데이터셋이란 무엇인가? ❓ CSV가 어떤 것을 의미하는가? CSV는 comma-separated values로 몇가지 필드를 comma 즉, 쉼표로 구분한 텍스트 데이터 및 텍스트 파일 ❓ EDA와 Data Preprocessing의 차이는? EDA: 데이터가... done데이터사이언스EDAPreprocessingAI코드스테이츠bootcampAI [데이터사이언스] Diary-(9) *베이지안 정리: 사전확률 / 사후확률을 초기값으로 각각 0.5를 설정한후 사건이 발생함에 따라 사후확률을 계속 업데이트 하는 방식. 1.총 확률의 법칙은 무멋인가? A라는 특정 확률 변수에 대해 모든 일어날 경우를 더하면 1이 된다. Ex) 주사위가 1,2,3,4,5,6이 나올 확률을 모두 더하면 1 A,B의 서로 연관 되어있는 변수도 고려해보자. 사건B가 일어난 상황에서 사건A가 일어날 ... 데이터사이언스데이터사이언스