Python 은 8 가지 상용 표본 추출 방법 을 실현 합 니 다.
6289 단어 Python표본 을 추출 하 다
Python
에서 어떻게 실현 되 었 는 지 에 대해 이야기 하 러 왔 다.표본 추출 은 통계학,기계 학습 에서 매우 중요 하고 자주 사용 하 는 방법 이다.왜냐하면 대부분 대량의 데 이 터 를 사용 하 는 것 이 비 현실 적 이거 나 전혀 얻 을 수 없 기 때문이다.그래서 우 리 는 표본 을 추출 해 야 한다.예 를 들 어 추정 성 통계 에서 우 리 는 샘플링 의 견본 데 이 터 를 통 해 전체적인 견본 을 추정 할 것 이다.
위 에서 말 한 것 은 모두 확률 을 바탕 으로 하 는 것 이 고 실제 적 으로 비 확률 적 인 표본 추출 방법 도 있 기 때문에 전체적으로 두 가지 로 요약 된다.
확률 표본 추출:확률 이론 에 따라 견본 을 선택 하고 모든 견본 은 같은 확률 로 선택 된다.
비 확률 표본 추출:비 랜 덤 기준 에 따라 견본 을 선택 하 는 것 은 모든 견본 이 선택 할 기회 가 있 는 것 이 아니다.
확률 샘플링 기술
1.무 작위 표본 추출(무 작위 표본 추출)
이것 도 가장 간단 하고 폭력 적 인 표본 이다.바로 무 작위 로 추출 하고 그 어떠한 요소 도 고려 하지 않 고 확률 을 완전히 보 는 것 이다.또한 무 작위 표본 추출 에서 전체 중의 모든 견본 이 선 택 될 확률 이 같다.
예 를 들 어 현재 10000 개의 견본 이 있 고 각자 번호 가 대응 하 는 것 이 있 습 니 다.만약 에 표본 수량 이 1000 이 라면 저 는 1-10000 의 숫자 에서 1000 개 를 무 작위 로 추출 하고 선 택 된 번호 에 대응 하 는 견본 이 선 택 됩 니 다.
Python
에서 우 리 는random
함수 로 무 작위 로 숫자 를 생 성 할 수 있다.다음은 100 명 중 무 작위 로 5 명 을 뽑 는 것 이다.
import random
population = 100
data = range(population)
print(random.sample(data,5))
> 4, 19, 82, 45, 41
2.층 별 표본 추출(스 트 라 이 프 샘플링)층 을 나 누 어 표본 을 추출 하 는 것 도 사실 무 작위 추출 이지 만 전제 조건 을 하나 더 해 야 한다.층 을 나 누 어 표본 을 추출 할 때 일부 공 통 된 속성 에 따라 표본 을 나 눈 다음 에 이 그룹 에서 따로 무 작위 로 표본 을 추출 할 것 이다.
따라서 분 층 표본 은 더욱 정교 화 된 무 작위 표본 이 라 고 할 수 있 고 전체 단체 와 똑 같은 비례 를 유지 해 야 한다.예 를 들 어 기계 학습 분류 라벨 중의 클래스 라벨 0 과 1,비례 는 3:7 로 원래 의 비례 를 유지 하기 위해 층 을 나 누 어 표본 을 추출 하고 각 그룹 에 따라 무 작위 로 표본 을 추출 할 수 있다.
Python
에서 우 리 는train_test_split
설정stratify
매개 변 수 를 통 해 분 층 작업 을 완성 할 수 있다.
from sklearn.model_selection import train_test_split
stratified_sample, _ = train_test_split(population, test_size=0.9, stratify=population[['label']])
print (stratified_sample)
3.클 러 스 터 샘플링(클 러 스 터 샘플링)집합 표본 추출 을 전체 표본 추출 이 라 고도 한다.이 는 먼저 전체 전 체 를 여러 개의 키 그룹 으로 나 누고 이런 서브 그룹 중의 모든 것 이 전체 와 비슷 한 특징 을 가진다 는 뜻 이다.개체 가 표본 을 추출 하지 않 고 무 작위 로 전체 자 체 를 선택 한 다 는 것 이다.
Python
를 사용 하면 먼저 집합 한 단체 에 집합 ID 를 분배 한 다음 에 무 작위 로 두 개의 그룹 을 추출 한 다음 에 해당 하 는 견본 값 을 찾 으 면 다음 과 같다.
import numpy as np
clusters=5
pop_size = 100
sample_clusters=2
# 20, 1 5 100 ID,
cluster_ids = np.repeat([range(1,clusters+1)], pop_size/clusters)
# ID
cluster_to_select = random.sample(set(cluster_ids), sample_clusters)
# ID
indexes = [i for i, x in enumerate(cluster_ids) if x in cluster_to_select]
#
cluster_associated_elements = [el for idx, el in enumerate(range(1, 101)) if idx in indexes]
print (cluster_associated_elements)
4.시스템 샘플링(시스템 샘플링)시스템 표본 추출 은 예 정 된 규칙 간격(기본적으로 고정 적 이 고 주기 적 인 간격)으로 전체 에서 표본 을 추출 하 는 것 이다.예 를 들 어 9 개의 요 소 를 추출 하 는 것 이다.일반적으로 이런 표본 추출 방법 은 보통 무 작위 표본 추출 방법 보다 더욱 효과 가 있다.
다음 그림 은 9 개의 요 소 를 순서대로 샘플링 한 다음 반복 하 는 것 이다.
Python
로 구현 하면 순환 체 에 직접 설치step
하면 된다.
population = 100
step = 5
sample = [element for element in range(1, population, step)]
print (sample)
5.다단 계 샘플링(다단 계 샘플링)다단 계 샘플링 에서 우 리 는 여러 개의 샘플링 방법 을 하나씩 연결 할 것 이다.예 를 들 어 첫 번 째 단계 에서 집합 표본 을 사용 하여 전체 에서 군집 을 선택 한 다음 에 두 번 째 단계 에서 무 작위 표본 을 추출 하여 모든 군집 에서 요 소 를 선택 하여 최종 집합 을 형성 할 수 있다.
Python
코드 는 위의 집합 표본 을 재 활용 하고 마지막 단계 에서 무 작위 표본 을 추출 하면 된다.
import numpy as np
clusters=5
pop_size = 100
sample_clusters=2
sample_size=5
# 20, 1 5 100 ID,
cluster_ids = np.repeat([range(1,clusters+1)], pop_size/clusters)
# ID
cluster_to_select = random.sample(set(cluster_ids), sample_clusters)
# ID
indexes = [i for i, x in enumerate(cluster_ids) if x in cluster_to_select]
#
cluster_associated_elements = [el for idx, el in enumerate(range(1, 101)) if idx in indexes]
#
print (random.sample(cluster_associated_elements, sample_size))
비 확률 표본 추출 기술비 확률 표본 추출 은 확률 을 고려 하지 않 는 방식 임 에 틀림없다.많은 경우 조건 부 선택 이다.따라서 무 작위 성에 대해 우 리 는 통계 확률 과 프로 그래 밍 을 통 해 이 루어 질 수 없다.여기 도 세 가지 방법 을 소개 한다.
1.단순 샘플링(편의 샘플링)
간단 한 샘플링 은 연구원 들 이 가장 참여 하기 쉽 고 연구 에 참여 할 기회 가 있 는 개체 만 선택 하 는 것 이다.예 를 들 어 아래 의 그림 에서 파란색 점 은 연구원 이 고 주황색 점 은 파란색 점 부근 에서 가장 접근 하기 쉬 운 사람들 이다.
2.자원 샘플링(자원 샘플링)
자원 표본 추출 에 관심 이 있 는 사람 은 보통 어떤 조사 표를 작성 하 는 형식 으로 스스로 참여 한다.그래서 이런 상황 에서 조사 한 연구원 들 은 그 어떠한 개체 도 선택 할 권리 가 없고 단체의 자원 에 의 해 지원 된다.예 를 들 어 다음 그림 에서 파란색 점 은 연구원 이 고 오렌지색 은 자발적으로 연구 에 참여 하 는 개체 이다.
3.눈 덩이 표본 추출(눈 덩이 샘플링)
눈 덩이 표본 추출 은 최종 집합 은 다른 참여 자 들 을 통 해 선택 한 것 으로 연구원 들 은 이미 알 고 있 는 다른 연락 처 를 통 해 연구 에 참여 하고 자 하 는 사람 을 찾 아 달라 고 요구 했다.예 를 들 어 다음 그림 에서 파란색 점 은 연구원 이 고 오렌지색 은 이미 알 고 있 는 연락처 이 며 노란색 은 오렌지색 점 주위 의 다른 연락처 이다.
총결산
이상 은 8 가지 자주 사용 하 는 표본 추출 방법 입 니 다.평소에 업무 에서 자주 사용 하 는 것 입 니까?아니면 확률 류 표본 추출 방법 입 니까?무 작위 성 이 없 으 면 우 리 는 통계학 과 프로 그래 밍 을 통 해 자동화 작업 을 완성 할 수 없 기 때 문 입 니 다.
예 를 들 어 신용 대출 의 바람 제어 견본 디자인 을 할 때 견본 창 에서 확률 을 통 해 표본 을 추출 해 야 한다.샘플링 의 품질 은 기본적으로 당신 모델 의 상한 선 을 결정 하기 때문에 샘플링 할 때 많은 문 제 를 고려 할 것 입 니 다.예 를 들 어 샘플 의 수량,현저 성 이 있 는 지,샘플 타임 슬립 등 입 니 다.이때,좋 은 표본 추출 방법 은 매우 중요 하 다.
파 이 썬 이 자주 사용 하 는 8 가지 표본 추출 방법 을 실현 하 는 것 에 관 한 이 글 은 여기까지 소개 되 었 습 니 다.더 많은 파 이 썬 표본 추출 방법 내용 은 우리 의 이전 글 을 검색 하거나 아래 의 관련 글 을 계속 조회 하 시기 바 랍 니 다.앞으로 많은 응원 바 랍 니 다!
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Python의 None과 NULL의 차이점 상세 정보그래서 대상 = 속성 + 방법 (사실 방법도 하나의 속성, 데이터 속성과 구별되는 호출 가능한 속성 같은 속성과 방법을 가진 대상을 클래스, 즉 Classl로 분류할 수 있다.클래스는 하나의 청사진과 같아서 하나의 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.