안녕하세요 여러분, 이 블로그 게시물은 데이터 과학 및 기계 학습 분야를 처음 접하는 사람에게 매우 도움이 될 수 있는 몇 가지 일반적인 기계 학습 및 통계 개념을 명확히 하고 설명하기 위한 것입니다.
더 이상 고민하지 않고 시작합시다!
일부 기본 기계 학습 개념
기계 학습 모델: 기계 학습 모델은 새로 생성된 데이터 세트에 대해 교육을 받은 후 예측 또는 결정을 내릴 수 있는 프로그램입니다.
교육 세트: 교육 세트는 모델을 교육하기 위한 하위 집합입니다.
테스트 세트: 테스트 세트는 훈련된 모델을 테스트하기 위한 하위 집합입니다.
교육 및 테스트 세트는 교육하려는 기계 학습 모델의 정확도를 측정하는 데 사용되는 두 개의 개별 데이터 모음입니다.
DataFrame: DataFrame은 Pandas 라이브러리의 일부인 데이터 구조입니다.
감독 기계 학습: 이 유형의 기계 학습은 특정 출력을 얻기 위해 일부 입력 데이터를 매핑 함수에 제공하는 것입니다.
자율 머신 러닝: 이 유형의 머신 러닝은 제공된 입력에 대해 올바른 출력이 없다는 특징이 있습니다. 따라서 정답은 존재하지 않습니다. 이러한 유형의 기계 학습의 목표는 데이터를 전체적으로 분석하고 기본 구조에 대한 사실을 발견하는 것입니다.
준지도 학습: 이 유형의 기계 학습은 지도 및 비지도 기계 학습의 조합입니다. 준지도 학습은 당면한 데이터 세트가 레이블이 지정된 데이터 포인트와 레이블이 지정되지 않은 데이터 포인트가 혼합된 경우 가장 유용합니다. 몇 가지 기본 통계 개념
다음은 알아두면 유용한 몇 가지 통계 개념입니다.
평균: 데이터 포인트 세트의 평균값입니다.
중앙값: 데이터 포인트 세트의 중간 숫자입니다.
모드: 데이터 포인트 세트에서 가장 빈번한 숫자입니다.
표준 편차: 데이터 세트의 데이터 포인트가 평균값(average value)과 관련하여 얼마나 분산되어 있는지 알려주는 척도입니다. 사분위수 범위: 통계의 산포 측정입니다. 사분위수 범위는 "중간 50"이라고도 하며 다음 공식을 사용하여 계산됩니다.
IQR(Interquartile Range) = Q3(Third quartile) - Q1(First quartile)
왜도: 이것은 평균에 대한 데이터 세트 확률 분포의 비대칭성을 측정한 것입니다.
분산: 데이터 세트의 값 간 변동 측정입니다.
공분산: 데이터 세트의 두 변수가 함께 변경되는 정도를 측정합니다. 양의 공분산은 두 변수 사이의 양의 관계를 나타내며 음의 공분산은 그 반대입니다. 정규 분포: 종 모양의 확률 분포 함수입니다. 다음은 정규 분포의 이미지입니다. 그림 1: 정규 분포 그래프
P-값: 원하는 결과 또는 통계적 가설 테스트 결과를 얻을 확률을 측정하는 데 사용되는 통계 측정 도구입니다.
결론
그럼 이번 포스팅은 여기까지! 이 기사를 따라 주셔서 감사합니다. 질문이나 우려 사항이 있는 경우 언제든지 이 게시물에 의견을 게시해 주시면 시간이 나면 연락드리겠습니다.
이 기사가 도움이 되었다면 공유하고
GitHub에서 저를 팔로우하고 에서 저와 연결하고 제 를 구독하십시오.