sklearn 상용 함수
4018 단어 기계 학습
기계 학습 알고리즘 을 배 울 때 우 리 는 항상 데이터 로 알고리즘 을 검증 해 야 한다.
sklearn.datasets
모듈 은 일부 함 수 를 제공 하여 데 이 터 를 생 성 할 수 있 고 이런 데 이 터 를 사용 하면 우 리 는 편리 한 훈련 모델 을 제공 하고 그 효 과 를 테스트 할 수 있다.load_digits 가 생 성 한 데 이 터 는 필기체 인식 데이터 이 고 X 는 1797 * 64 의 행렬 이 며 y 는 1797 차원 의 벡터 이다.즉, X 의 각 줄 은 손 글씨 의 특징 벡터 이 고 해당 하 는 Y 의 숫자 는 바로 이 손 글씨 의 정확 한 결과 이다.
from sklearn.datasets import load_digits
digits = load_digits()
X = digits.data
y = digits.target
load_boston 은 현재 우리 가 얻 은 X 와 y 의 구체 적 인 의 미 를 관리 할 필요 가 없습니다. X 의 모든 줄 이 하나의 인 스 턴 스 의 특징 벡터 이 고 y 에 대응 하 는 것 은 이 인 스 턴 스 의 태그 입 니 다.
from sklearn.datasets import load_boston
boston = load_boston()
X = boston.data
y = boston.target
load_아이 리 스 동상
from sklearn.datasets import load_iris
iris = load_iris()
X = boston.data
y = boston.target
2. 데이터 세트 를 훈련 세트 와 테스트 세트 로 나눈다.
주로
train_test_split
함 수 를 사용 하 는데 sklearn.model_selection
모듈 에 위치 합 니 다. 이 함 수 는 특징 벡터 만 분할 할 수 있 고 특징 벡터 와 대응 하 는 라벨 도 동시에 분할 할 수 있 습 니 다.from sklearn.model_selection import train_test_split
from sklearn.datasets import load_digits
digits = load_digits()
X = digits.data
y = digits.target
X_train, X_test = train_test_split(X, test_size=0.33, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)