데이터사이언스 문과생 데이터사이언티스트되기 7! SQL은 Structured Query Language 즉, 구조적 질의 언어의 줄임말입니다. 관계형 데이터베이스 시스템에서 자료를 관리 및 처리하기 위해 설계된 언어입니다. SQL은 1970년대에 IBM에서 최초 개발되었으며 관계형 모델이라는 이론에서 파생된 특징을 가지고 있는데, 현재 SQL의 표준으로 ANSI SQL이 정립되었습니다. 관계형 모델이란 비즈니스 데이터를 인식, 구성하고, ... 문과생데이터사이언스sql부트캠프제로베이스코딩데이터사이언티스트sql 문과생 데이터 사이언티스트되기 6 Pandas는 쉽고 직관적인 관계형 또는 분류된 데이터로 작업 할 수 있도록 설계된 빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지이다. 또한, 어떤 언어로도 사용할 수 있는 가장 강력하고 유연한 오픈 소스 데이터 분석 / 조직 도구가되는 더 넓은 목표를 가지고 있다. 데이터의 통계 및 시각화 기능 DataFrame 및 상위 차원 개체에서 열을 삽입하고 삭제할 수 있... 데이터사이언스부트캠프pandas취준생제로베이스문과생데이터사이언티스트pandas achine Learning Basic - (theory) 아서 사무엘 - 일일이 개발자가 지정하는 것이 아니라 학습을 통해 자동으로 결정 텐서 -rank shape - type multi-label classification : Letter grade (A,B,C,D, F) -> A/B/C/D/F H(x) = Wx + b Cost function - Loss function diff = (H(x)-y)^2 regression line과 실제 데이터... 데이터분석ML데이터사이언스ML [AI Bootcamp] N131 - Linear Algebra (1) 특히, 인간의 입장에서 인과관계를 명확하게 이해할 수 있는 경우는 선형적인 관계일 때 -> input, output 변수가 모두 여러개 있을 때, 이들이 모두 선형적인 관계로 얽혀있다고 가정하는 것 = 행렬(Matrix) 👀 사람이 시각적으로 이해할 수 있는 것은 3차원이 끝 -> 그 이상은 숫자로 표현 수학자: 어떤 것이든지 벡터가 될 수 있다 e.g. 벡터 간의 덧셈, 상수배 etc 가능... doingMAE코드스테이츠AIMSEmatrixinverse matrixidentity matrixvectordeterminant데이터사이언스bootcampAI [데이터사이언스] Diary - (11) 분산 데이터가 얼마나 퍼져있는지를 측정하는 방법 각 값들의 평균으로부터 차이의 제곱 평균이다. 분산을 구하기 위해서 우선 평균을 먼저 계산해야한다. 표준편차 분산은 기본적으로 제곱을 하기 때문에 값이 크다. 그래서 값을 보다 작은사이즈로 만들어주기 위해 표준편차를 사용한다. 공분산 변수 1개값이 변화할때 다른 변수가 어떤 연관성을 나타내면서 변하는지를 측정하는 방법 공분산 값이 크면 두 변수... 데이터사이언스데이터사이언스 [AI Bootcamp] N111 - EDA, Data Preprocessing 정보를 미리 파악한 후 데이터 불러오기를 해야 하는 이유? -> library 활용 e.g. pandas.read_csv() ❓ 좋은 데이터셋이란 무엇인가? ❓ CSV가 어떤 것을 의미하는가? CSV는 comma-separated values로 몇가지 필드를 comma 즉, 쉼표로 구분한 텍스트 데이터 및 텍스트 파일 ❓ EDA와 Data Preprocessing의 차이는? EDA: 데이터가... done데이터사이언스EDAPreprocessingAI코드스테이츠bootcampAI [데이터사이언스]개발일기-(7) 1월26일(수) *Wrap Up: T-test와 Chi-square Test는 어떤 점이 다를까요? T-test는 샘플의 평균값을 비교, 카이제곱은 샘플의 분포도를 비교한다. T-test는 독립성,정규화,등분산성의 조건을 만족해야 한다. 카이제곱은 이러한 조건들을 만족하지 않아도 사용가능한 Non-Parametric Methods중 하나이다. 단, 카이제곱은 “Category” 데이터를 위한... 데이터사이언스카이제곱데이터사이언스 [제로베이스] 데이터사이언스 1기_ 02-01. 파이썬 기초_반복문 반복문이란 특정 실행을 반복하는 것 반복문을 사용하면 프로그래밍이 간결하고 유지 보수가 쉽다. 예시 대량 메일, 문자 발송 인사말 반복 반복문 종류 횟수에 의한 반복 - 횟수 지정 -> 횟수 만큼 반복 실행 조건에 의한 반복 - 조건 지정 -> 조건에 만족할 때까지 반복 실행 횟수에 의한 반복 이란? 정해 놓은 반복 횟수에 따라 반복 실행한다. - 대량 메일 또는 문자 발송 인사말 반복 mp... 반복문파이썬데이터사이언스데이터사이언스 [AI Bootcamp] N113 - Data Manipulation Data Manipulation 데이터 합치기 : 이어 붙이기 '+'연산자 사용 tostring join ❓ table JOIN: pd.concat([x, y]) # concate by row pd.concat([x, y], axis = 1) # concate by column : 공통된 부분을 기반으로 합치기 DataFrame.merge(붙일 내용, how='방법', on= 공통의 colu... AImerge데이터사이언스코드스테이츠ManipulationmeltdoingconcatbootcampAI
문과생 데이터사이언티스트되기 7! SQL은 Structured Query Language 즉, 구조적 질의 언어의 줄임말입니다. 관계형 데이터베이스 시스템에서 자료를 관리 및 처리하기 위해 설계된 언어입니다. SQL은 1970년대에 IBM에서 최초 개발되었으며 관계형 모델이라는 이론에서 파생된 특징을 가지고 있는데, 현재 SQL의 표준으로 ANSI SQL이 정립되었습니다. 관계형 모델이란 비즈니스 데이터를 인식, 구성하고, ... 문과생데이터사이언스sql부트캠프제로베이스코딩데이터사이언티스트sql 문과생 데이터 사이언티스트되기 6 Pandas는 쉽고 직관적인 관계형 또는 분류된 데이터로 작업 할 수 있도록 설계된 빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지이다. 또한, 어떤 언어로도 사용할 수 있는 가장 강력하고 유연한 오픈 소스 데이터 분석 / 조직 도구가되는 더 넓은 목표를 가지고 있다. 데이터의 통계 및 시각화 기능 DataFrame 및 상위 차원 개체에서 열을 삽입하고 삭제할 수 있... 데이터사이언스부트캠프pandas취준생제로베이스문과생데이터사이언티스트pandas achine Learning Basic - (theory) 아서 사무엘 - 일일이 개발자가 지정하는 것이 아니라 학습을 통해 자동으로 결정 텐서 -rank shape - type multi-label classification : Letter grade (A,B,C,D, F) -> A/B/C/D/F H(x) = Wx + b Cost function - Loss function diff = (H(x)-y)^2 regression line과 실제 데이터... 데이터분석ML데이터사이언스ML [AI Bootcamp] N131 - Linear Algebra (1) 특히, 인간의 입장에서 인과관계를 명확하게 이해할 수 있는 경우는 선형적인 관계일 때 -> input, output 변수가 모두 여러개 있을 때, 이들이 모두 선형적인 관계로 얽혀있다고 가정하는 것 = 행렬(Matrix) 👀 사람이 시각적으로 이해할 수 있는 것은 3차원이 끝 -> 그 이상은 숫자로 표현 수학자: 어떤 것이든지 벡터가 될 수 있다 e.g. 벡터 간의 덧셈, 상수배 etc 가능... doingMAE코드스테이츠AIMSEmatrixinverse matrixidentity matrixvectordeterminant데이터사이언스bootcampAI [데이터사이언스] Diary - (11) 분산 데이터가 얼마나 퍼져있는지를 측정하는 방법 각 값들의 평균으로부터 차이의 제곱 평균이다. 분산을 구하기 위해서 우선 평균을 먼저 계산해야한다. 표준편차 분산은 기본적으로 제곱을 하기 때문에 값이 크다. 그래서 값을 보다 작은사이즈로 만들어주기 위해 표준편차를 사용한다. 공분산 변수 1개값이 변화할때 다른 변수가 어떤 연관성을 나타내면서 변하는지를 측정하는 방법 공분산 값이 크면 두 변수... 데이터사이언스데이터사이언스 [AI Bootcamp] N111 - EDA, Data Preprocessing 정보를 미리 파악한 후 데이터 불러오기를 해야 하는 이유? -> library 활용 e.g. pandas.read_csv() ❓ 좋은 데이터셋이란 무엇인가? ❓ CSV가 어떤 것을 의미하는가? CSV는 comma-separated values로 몇가지 필드를 comma 즉, 쉼표로 구분한 텍스트 데이터 및 텍스트 파일 ❓ EDA와 Data Preprocessing의 차이는? EDA: 데이터가... done데이터사이언스EDAPreprocessingAI코드스테이츠bootcampAI [데이터사이언스]개발일기-(7) 1월26일(수) *Wrap Up: T-test와 Chi-square Test는 어떤 점이 다를까요? T-test는 샘플의 평균값을 비교, 카이제곱은 샘플의 분포도를 비교한다. T-test는 독립성,정규화,등분산성의 조건을 만족해야 한다. 카이제곱은 이러한 조건들을 만족하지 않아도 사용가능한 Non-Parametric Methods중 하나이다. 단, 카이제곱은 “Category” 데이터를 위한... 데이터사이언스카이제곱데이터사이언스 [제로베이스] 데이터사이언스 1기_ 02-01. 파이썬 기초_반복문 반복문이란 특정 실행을 반복하는 것 반복문을 사용하면 프로그래밍이 간결하고 유지 보수가 쉽다. 예시 대량 메일, 문자 발송 인사말 반복 반복문 종류 횟수에 의한 반복 - 횟수 지정 -> 횟수 만큼 반복 실행 조건에 의한 반복 - 조건 지정 -> 조건에 만족할 때까지 반복 실행 횟수에 의한 반복 이란? 정해 놓은 반복 횟수에 따라 반복 실행한다. - 대량 메일 또는 문자 발송 인사말 반복 mp... 반복문파이썬데이터사이언스데이터사이언스 [AI Bootcamp] N113 - Data Manipulation Data Manipulation 데이터 합치기 : 이어 붙이기 '+'연산자 사용 tostring join ❓ table JOIN: pd.concat([x, y]) # concate by row pd.concat([x, y], axis = 1) # concate by column : 공통된 부분을 기반으로 합치기 DataFrame.merge(붙일 내용, how='방법', on= 공통의 colu... AImerge데이터사이언스코드스테이츠ManipulationmeltdoingconcatbootcampAI