sklearn.feature_extraction.text.CountVectorizer
4488 단어 #NLP소백은 기계 학습을 배운다
`class sklearn.feature_extraction.text.CountVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern=’(?u)\b\w\w+\b’, ngram_range=(1, 1), analyzer=’word’, max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=)`
함수 정의 1
는 일련의 텍스트 파일을 표시 수량의 행렬로 변환합니다.그 실현은 계수에 대한 희소한 표시scipy.sparse.csr_matrix
를 나타낸다.만약에 선험 사전을 제공하지 않고 특징 선택과 관련된 분석기를 사용하지 않는다면 특징의 수량은 분석 데이터를 통해 만들어진 어휘량과 같다.자세한 내용은 Text feature extraction 을 참조하십시오.매개 변수 해석
Parameter
데이터 유형
의미
input
string {‘filename’, ‘file’, ‘content’}
처리 대상
encoding
string, ‘utf-8’ by default.
인코딩 방식
decode_error
{‘strict’, ‘ignore’, ‘replace’}
바이트 파일을 처리하고 파일에 주어진
encoding
디코딩에 실패한 문자가 포함되어 있다면, 프로그램이 어떻게 처리하는지, 기본값 strict
을 표시하고 UnicodeDecodeError
을 되돌려줍니다.strip_accents
{‘ascii’, ‘unicode’, None}
사전 처리(preprocessing) 단계에서 어료의 중음 기호를 꺼냅니다. 'ascii': 속도가 빠르고 ASCII만 엄격하게 일치합니다.unicode': 느립니다. 모든 문자와 일치합니다. None:default는 아무런 처리도 하지 않습니다.
lowercase
boolean
표기하기 전에 모든 문자를 소문자로 바꾸기
preprocessor
callable or None (default)
사전 처리 단계를 덮어쓰지만 보류 태그 (tokenizing) 와 n-grams 생성 절차
tokenizer
callable or None (default)
tokenization을 덮어쓰고 예처리와 n-grams 생성 절차를 유지합니다.
analyzer == 'word'
에서만 사용 가능stop_words
string {‘english’}, list, or None (default)
'english': 내장된 영어 정지어 사용하기list: 사용자 정의 정지어 None: 정지어 없음
token_pattern
string
token을 구성하는 정규 표현식은
analyzer == 'word'
에만 사용되며, 기본 규칙은 2개 이상의 자모나 숫자 문자를 선택하고, 문장부호를 무시하고, 문장부호를 token 구분기로 선택합니다ngram_range
tuple (min_n, max_n)
n-grams 추출 중 n 값의 상하계, 경계 내의 모든 n 값(min_n <= n <= max_n)이 사용됩니다.
analyzer
string, {‘word’, ‘char’, ‘char_wb’} or callable
Whether the feature should be made of word or character n-grams. Option ‘char_wb’ creates character n-grams only from text inside word boundaries; n-grams at the edges of words are padded with space.If a callable is passed it is used to extract the sequence of features out of the raw, unprocessed input.
max_df
float in range [0.0, 1.0] or int, default=1.0
어휘표를 만들 때 주어진 한도값을 초과한 항목을 무시합니다.float: 출현 횟수와 어료 라이브러리 총수 비례 int: 절대 계수 만약vocabulary 파라미터를 지정하면 이 파라미터는 무시합니다
min_df
specific
동상
max_features
int or None, default=None
vocabulary가 Not None인 경우: 이 매개 변수를 무시합니다. none이 아닌 경우: 전체 자료 라이브러리(corpus)를 주파수에 따라 배열하고 max_특징
vocabulary
Mapping or iterable, optional
r 매개 변수가 지정되지 않으면:vocabulary는 입력 문서에 의해 결정됩니다Mapping: 특징 행렬에서 키는terms이고 값은 indicesiterable:
binary
boolean,False(Defalt)
True: 모든 비영계수를 1로 설정하여 이원 이벤트의 이산 확률 모델에 사용
dtype
type,optional
fit_transform () ortransform () 되돌아오는 매트릭스 형식
속성
Parameter
데이터 유형
의미
vocabulary_
dict
A mapping of terms to feature indices.
stop_words_
set
정지사
메서드 메서드
build_analyzer
(self)callable로 되돌아와 미리 처리하고 표시하기 build_preprocessor
(self)는 함수를 되돌려줍니다. 표시하기 전에text를 미리 처리합니다build_tokenizer
(self) 함수를 되돌려주고 문자열을 tokens 서열로 나누기decode
(self,doc)는 입력을 유니코드 문자로 디코딩합니다.doc, decode 문자열 필요fit
(self,raw_documents[,y]) 원시 파일에서 사전 구조의 모든 tokens 어휘표를 배운다fit_transform
(self,raw_documents[,y])에서 사전 구조 어휘표를 배워서term-document 행렬을 되돌려줍니다.transform 이후fit와 동일하지만 더 효율적get_feature_names
(self) 특징 인증서 지표에서 특징 이름으로 비치는 수조get_params
(self[,deep]) 평가량을 받은 매개 변수get_stop_words
(self) 유효한 정지어 목록을 만들거나 가져오기inverse_transform
(self, X)는 X에서 0단어가 아닌 모든 파일을 되돌려줍니다.(X_inv : list of arrays, len = n_samples) X : {array, sparse matrix}, shape = [n_samples, n_features] set_params
(self,*params)이 평가기의 매개 변수를 설정transform
(self,raw_documents) 파일을 document-term 행렬로 변환합니다.fit를 통해 작성한 어휘표나 주어진 구조 함수로 원시text 파일에서 token 수량을 추출합니다.raw_문서:iterablestr,unicode or file objects 모두 가능X:sparse matrix,[nusamples,n_features] 문서-term matrix.Reference
https://scikit-learn.org/↩︎
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Rails Turbolinks를 페이지 단위로 비활성화하는 방법원래 Turobolinks란? Turbolinks는 링크를 생성하는 요소인 a 요소의 클릭을 후크로 하고, 이동한 페이지를 Ajax에서 가져옵니다. 그 후, 취득 페이지의 데이터가 천이 전의 페이지와 동일한 것이 있...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.