기본 기계 학습 및 통계 개념 설명

2120 단어
안녕하세요 여러분, 이 블로그 게시물은 데이터 과학 및 기계 학습 분야를 처음 접하는 사람에게 매우 도움이 될 수 있는 몇 가지 일반적인 기계 학습 및 통계 개념을 명확히 하고 설명하기 위한 것입니다.

더 이상 고민하지 않고 시작합시다!

일부 기본 기계 학습 개념


  • 기계 학습 모델: 기계 학습 모델은 새로 생성된 데이터 세트
  • 에 대해 교육을 받은 후 예측 또는 결정을 내릴 수 있는 프로그램입니다.
  • 교육 세트: 교육 세트는 모델을 교육하기 위한 하위 집합입니다
  • .
  • 테스트 세트: 테스트 세트는 훈련된 모델을 테스트하기 위한 하위 집합입니다.
    교육 및 테스트 세트는 교육하려는 기계 학습 모델의 정확도를 측정하는 데 사용되는 두 개의 개별 데이터 모음입니다
  • .
  • DataFrame: DataFrame은 Pandas 라이브러리의 일부인 데이터 구조입니다
  • .
  • 감독 기계 학습: 이 유형의 기계 학습은 특정 출력을 얻기 위해 일부 입력 데이터를 매핑 함수에 제공하는 것입니다
  • .
  • 자율 머신 러닝: 이 유형의 머신 러닝은 제공된 입력에 대해 올바른 출력이 없다는 특징이 있습니다. 따라서 정답은 존재하지 않습니다. 이러한 유형의 기계 학습의 목표는 데이터를 전체적으로 분석하고 기본 구조에 대한 사실을 발견하는 것입니다
  • .
  • 준지도 학습: 이 유형의 기계 학습은 지도 및 비지도 기계 학습의 조합입니다. 준지도 학습은 당면한 데이터 세트가 레이블이 지정된 데이터 포인트와 레이블이 지정되지 않은 데이터 포인트가 혼합된 경우 가장 유용합니다.

  • 몇 가지 기본 통계 개념



    다음은 알아두면 유용한 몇 가지 통계 개념입니다.
  • 평균: 데이터 포인트 세트의 평균값입니다
  • .
  • 중앙값: 데이터 포인트 세트의 중간 숫자입니다
  • .
  • 모드: 데이터 포인트 세트에서 가장 빈번한 숫자입니다
  • .
  • 표준 편차: 데이터 세트의 데이터 포인트가 평균값(average value)과 관련하여 얼마나 분산되어 있는지 알려주는 척도입니다.
  • 사분위수 범위: 통계의 산포 측정입니다. 사분위수 범위는 "중간 50"이라고도 하며 다음 공식을 사용하여 계산됩니다.

  • IQR(Interquartile Range) = Q3(Third quartile) - Q1(First quartile)
    


  • 왜도: 이것은 평균
  • 에 대한 데이터 세트 확률 분포의 비대칭성을 측정한 것입니다.
  • 분산: 데이터 세트의 값 간 변동 측정입니다
  • .
  • 공분산: 데이터 세트의 두 변수가 함께 변경되는 정도를 측정합니다. 양의 공분산은 두 변수 사이의 양의 관계를 나타내며 음의 공분산은 그 반대입니다.
  • 정규 분포: 종 모양의 확률 분포 함수입니다. 다음은 정규 분포의 이미지입니다.



  • 그림 1: 정규 분포 그래프
  • P-값: 원하는 결과 또는 통계적 가설 테스트 결과를 얻을 확률을 측정하는 데 사용되는 통계 측정 도구입니다
  • .

    결론



    그럼 이번 포스팅은 여기까지! 이 기사를 따라 주셔서 감사합니다. 질문이나 우려 사항이 있는 경우 언제든지 이 게시물에 의견을 게시해 주시면 시간이 나면 연락드리겠습니다.

    이 기사가 도움이 되었다면 공유하고 GitHub에서 저를 팔로우하고 에서 저와 연결하고 제 를 구독하십시오.

    좋은 웹페이지 즐겨찾기