간단한 특징 공정: 특징 선택

1800 단어 데이터 발굴
피쳐를 선택하는 세 가지 방법:
① 방차선택법 ② 상관계수법 ③귀속특징해소법
핵심 모듈 함수:sklearn.feature_selection

방차 선택법:


정의: 각 특징의 방차를 계산하고 한도값을 이용하여 방차가 한도값보다 큰 특징을 선택한다.
from sklearn.feature_selection import VarianceThreshold
varianceThreshold = VarianceThreshold(threshold=1)    #threshold = 1  , 
varianceThreshold.fit_transform(data[[' ', ' ']]) # , 
varianceThreshold.get_support()   # bool 

상관계수법:


정의: 각 피쳐가 대상 값에 대한 상관 계수를 계산하고 연관된 피쳐 선택
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_regression

selectKBest = SelectKBest(f_regression, k=2) #f_regression k 
feature = data[[' ', ' ', ' ', ' ']]
bestFeature = selectKBest.fit_transform(feature, data[' '])
selectKBest.get_support() # 

반복 피쳐 제거:


정의: 하나의 기본 모델로 다륜 훈련을 하고 훈련 후 지정된 특징 수를 보존한다.
import pandas
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression

data = pandas.read_csv('D:\\PDM\\6.2\\data2.csv')
feature = data[[' ', ' ', ' ', ' ']]

rfe = RFE(
    estimator=LinearRegression(),  # ,LinerRegression  
    n_features_to_select=2 # 
)
sFeature = rfe.fit_transform(feature, data[' '])
rfe.get_support()  # 

모델 선택법


정의: 구축된 모델 대상을 선택기에 전송하면 이 구축된 모델에 따라 가장 좋은 특징 값을 자동으로 선택할 수 있습니다.
from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import SelectFromModel

feature = data[[' ', ' ', ' ', ' ']]
lrModel = LinearRegression() # 
selectFromModel = SelectFromModel(lrModel)
selectFromModel.fit_transform(
    feature, 
    data[' ']
)

좋은 웹페이지 즐겨찾기