Python jieba 말 더 듬 기 분사 원리 및 용법 해석

1.간략 한 설명
말 더 듬 단 어 는 세 가지 단어 모드 를 지원 하고 번 체 자 를 지원 하 며 사용자 정의 사전 을 지원 합 니 다.
2.세 가지 분사 모델
전체 모드:문장 에 있 는 모든 단어 가 될 수 있 는 단 어 를 스 캔 하여 속도 가 매우 빠 르 지만 나 쁜 의 미 를 해결 할 수 없습니다.
간소화 모드:문장 을 가장 정확하게 나 누고 불필요 한 단 어 를 추가 하지 않 으 며 문장 을 나 누 는 것 처럼 보인다.
검색엔진 모드:간소화 모드 에서 긴 단 어 를 다시 구분 합 니 다.

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  str1 = '           '
  a = jieba.lcut(str1, cut_all=True) #    
  print('   :{}'.format(a))
  b = jieba.lcut(str1, cut_all=False) #     
  print('    :{}'.format(b))
  c = jieba.lcut_for_search(str1) #       
  print('      :{}'.format(c))
운행 하 다.

3.어떤 단어 가 분리 되 어 서 는 안 된다.

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  str1 = '        '
  b = jieba.lcut(str1, cut_all=False) #     
  print('    :{}'.format(b))
  #          
  jieba.add_word('   ')
  d = jieba.lcut(str1) #        
  print(d)
운행 하 다.

4.어떤 단 어 는 반드시 분리 되 어야 한다.

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  # HMM  ,   True
  '''HMM   ,        (Hidden Markov Model, HMM),              ,
                           。
    jieba  ,          ,             HMM     Viterbi   ,
        :
          ,         ,     ,     ,     。
             ,     HMM      ,     Viterbi         ,      。
  '''
  str1 = '        '
  b = jieba.lcut(str1, cut_all=False, HMM=False) #     ,    HMM  
  print('    :{}'.format(b))
  #         
  jieba.suggest_freq((' ', ' '), True)
  e = jieba.lcut(str1, HMM=False) #    HMM  
  print('  :{}'.format(e))
운행 하 다.

이상 이 바로 본 고의 모든 내용 입 니 다.여러분 의 학습 에 도움 이 되 고 저 희 를 많이 응원 해 주 셨 으 면 좋 겠 습 니 다.

좋은 웹페이지 즐겨찾기