sklearn.feature_extraction.text.CountVectorizer

`class sklearn.feature_extraction.text.CountVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern=’(?u)\b\w\w+\b’, ngram_range=(1, 1), analyzer=’word’, max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=)`
  • 함수 정의 1

    는 일련의 텍스트 파일을 표시 수량의 행렬로 변환합니다.그 실현은 계수에 대한 희소한 표시scipy.sparse.csr_matrix를 나타낸다.만약에 선험 사전을 제공하지 않고 특징 선택과 관련된 분석기를 사용하지 않는다면 특징의 수량은 분석 데이터를 통해 만들어진 어휘량과 같다.자세한 내용은 Text feature extraction 을 참조하십시오.
  • 매개 변수 해석


    Parameter
    데이터 유형
    의미
    input
    string {‘filename’, ‘file’, ‘content’}
    처리 대상
    encoding
    string, ‘utf-8’ by default.
    인코딩 방식
    decode_error
    {‘strict’, ‘ignore’, ‘replace’}
    바이트 파일을 처리하고 파일에 주어진 encoding 디코딩에 실패한 문자가 포함되어 있다면, 프로그램이 어떻게 처리하는지, 기본값 strict 을 표시하고 UnicodeDecodeError 을 되돌려줍니다.
    strip_accents
    {‘ascii’, ‘unicode’, None}
    사전 처리(preprocessing) 단계에서 어료의 중음 기호를 꺼냅니다. 'ascii': 속도가 빠르고 ASCII만 엄격하게 일치합니다.unicode': 느립니다. 모든 문자와 일치합니다. None:default는 아무런 처리도 하지 않습니다.
    lowercase
    boolean
    표기하기 전에 모든 문자를 소문자로 바꾸기
    preprocessor
    callable or None (default)
    사전 처리 단계를 덮어쓰지만 보류 태그 (tokenizing) 와 n-grams 생성 절차
    tokenizer
    callable or None (default)
    tokenization을 덮어쓰고 예처리와 n-grams 생성 절차를 유지합니다.analyzer == 'word' 에서만 사용 가능
    stop_words
    string {‘english’}, list, or None (default)
    'english': 내장된 영어 정지어 사용하기list: 사용자 정의 정지어 None: 정지어 없음
    token_pattern
    string
    token을 구성하는 정규 표현식은 analyzer == 'word'에만 사용되며, 기본 규칙은 2개 이상의 자모나 숫자 문자를 선택하고, 문장부호를 무시하고, 문장부호를 token 구분기로 선택합니다
    ngram_range
    tuple (min_n, max_n)
    n-grams 추출 중 n 값의 상하계, 경계 내의 모든 n 값(min_n <= n <= max_n)이 사용됩니다.
    analyzer
    string, {‘word’, ‘char’, ‘char_wb’} or callable
    Whether the feature should be made of word or character n-grams. Option ‘char_wb’ creates character n-grams only from text inside word boundaries; n-grams at the edges of words are padded with space.If a callable is passed it is used to extract the sequence of features out of the raw, unprocessed input.
    max_df
    float in range [0.0, 1.0] or int, default=1.0
    어휘표를 만들 때 주어진 한도값을 초과한 항목을 무시합니다.float: 출현 횟수와 어료 라이브러리 총수 비례 int: 절대 계수 만약vocabulary 파라미터를 지정하면 이 파라미터는 무시합니다
    min_df
    specific
    동상
    max_features
    int or None, default=None
    vocabulary가 Not None인 경우: 이 매개 변수를 무시합니다. none이 아닌 경우: 전체 자료 라이브러리(corpus)를 주파수에 따라 배열하고 max_특징
    vocabulary
    Mapping or iterable, optional
    r 매개 변수가 지정되지 않으면:vocabulary는 입력 문서에 의해 결정됩니다Mapping: 특징 행렬에서 키는terms이고 값은 indicesiterable:
    binary
    boolean,False(Defalt)
    True: 모든 비영계수를 1로 설정하여 이원 이벤트의 이산 확률 모델에 사용
    dtype
    type,optional
    fit_transform () ortransform () 되돌아오는 매트릭스 형식
  • 속성


    Parameter
    데이터 유형
    의미
    vocabulary_
    dict
    A mapping of terms to feature indices.
    stop_words_
    set
    정지사
  • 메서드 메서드

  • build_analyzer(self)callable로 되돌아와 미리 처리하고 표시하기
  • build_preprocessor(self)는 함수를 되돌려줍니다. 표시하기 전에text를 미리 처리합니다
  • build_tokenizer(self) 함수를 되돌려주고 문자열을 tokens 서열로 나누기
  • decode(self,doc)는 입력을 유니코드 문자로 디코딩합니다.doc, decode 문자열 필요
  • fit(self,raw_documents[,y]) 원시 파일에서 사전 구조의 모든 tokens 어휘표를 배운다
  • fit_transform(self,raw_documents[,y])에서 사전 구조 어휘표를 배워서term-document 행렬을 되돌려줍니다.transform 이후fit와 동일하지만 더 효율적
  • get_feature_names(self) 특징 인증서 지표에서 특징 이름으로 비치는 수조
  • get_params(self[,deep]) 평가량을 받은 매개 변수
  • get_stop_words(self) 유효한 정지어 목록을 만들거나 가져오기
  • inverse_transform(self, X)는 X에서 0단어가 아닌 모든 파일을 되돌려줍니다.(X_inv : list of arrays, len = n_samples) X : {array, sparse matrix}, shape = [n_samples, n_features]
  • set_params(self,*params)이 평가기의 매개 변수를 설정
  • transform(self,raw_documents) 파일을 document-term 행렬로 변환합니다.fit를 통해 작성한 어휘표나 주어진 구조 함수로 원시text 파일에서 token 수량을 추출합니다.raw_문서:iterablestr,unicode or file objects 모두 가능X:sparse matrix,[nusamples,n_features] 문서-term matrix.

  • Reference


  • https://scikit-learn.org/↩︎

    좋은 웹페이지 즐겨찾기