기계 학습 의 03 데이터 특징 예비 처리
11395 단어 기계 학습
특정한 통계 방법 (수학 방법) 을 통 해 데 이 터 를 알고리즘 이 요구 하 는 데이터 1, 수치 형 데이터 표준 크기 조정: (1) 정규 화 (2) 표준화
(3) 부족 값 2, 유형 데이터: one - hot 인 코딩 3, 시간 유형: 시간의 구분
4. 전처리 API: sklearn. preprocessing
귀 일화
MinMaxScaler(feature_range=(0,1)...)
각 특징 크기 의 범위 (기본 값 [0, 1]) MinMaxScaler.fit_transform(X)
x: numpy array 형식의 데이터 [n samples, n features] 반환 값: 변 환 된 형식 이 같은 arrayIn [1]:from sklearn.preprocessing import MinMaxScaler
mm = MinMaxScaler()
data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])
data
Out [1]:array([[1. , 0. , 0. , 0. ],
[0. , 1. , 1. , 0.83333333],
[0.5 , 0.5 , 0.6 , 1. ]])
표준화
In [1]:from sklearn.preprocessing import StandardScaler
std = StandardScaler()
data = std.fit_transform([[1.,-1.,3.],[2.,4.,2.],[4.,6.,-1.]])
data
Out [1]:array([[-1.06904497, -1.35873244, 0.98058068],
[-0.26726124, 0.33968311, 0.39223227],
[ 1.33630621, 1.01904933, -1.37281295]])
3. 결함 값
1. 삭제 2, 삽입: 평균 값, 중위 수 등
In [1]:from sklearn.preprocessing import Imputer
im = Imputer(missing_values='NaN', strategy='mean', axis=0)
data = im.fit_transform([2, 1], [np.nan, 3], [7, 6])
data
Out [1]:array([[2. , 1. ],
[4.5, 3. ],
[7. , 6. ]])
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
형태소 분석은 데스크톱을 구성하는 데 도움이?문자×기계 학습에 흥미를 가져와 개인 범위의 용도를 생각해, 폴더 정리에 사용할 수 있을까 생각해 검토를 시작했습니다. 이번 검토에서는 폴더 구성 & text의 읽기 → mecab × wordcloud를 실시하고 있...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.