Python 은 jieba 라 이브 러 리 를 바탕 으로 간단 한 단어 와 단어 클 라 우 드 기능 실현 방법 을 진행 합 니 다.

6009 단어 Python분사사운
본 논문 의 사례 는 Python 이 jieba 라 이브 러 리 를 바탕 으로 간단 한 단어 와 단어 클 라 우 드 기능 실현 방법 을 서술 하 였 다.여러분 께 참고 하도록 공유 하 겠 습 니 다.구체 적 으로 는 다음 과 같 습 니 다.
목표:
1.텍스트 파일 가 져 오기
2.jieba 를 사용 하여 텍스트 를 나 누 기
3.워드 클 라 우 드 패키지 로 단어 구름 그리 기
환경:
Python 3.6.0 |Anaconda 4.3.1 (64-bit)
도구:
jupyter notebook
인터넷 에서 소설'아홉 째 문'을 내 려 받 았 다.다음은 이 소설 에 대해 단 어 를 나 누고 어 운 도 를 그 렸 다.
단어 사용 가장 유행 하 는 단어 팩 jieba,참고:https://github.com/fxsjy/jieba
또는 이 사 이 트 를 클릭 하 십시오jieba 라 이브 러 리 다운로드
어휘 클 라 우 드 사용 wordcloud 패키지,참고:https://github.com/amueller/word_cloud
또는 이 사 이 트 를 클릭 하 십시오워드 클 라 우 드 라 이브 러 리 다운로드
이 두 가방 은 모두 anaconda 가 가지 고 있 는 것 이 아니 므 로 홈 페이지 의 절차 에 따라 설치 해 야 한다.

import wordcloud as wc
import jieba
import matplotlib.pyplot as plt
from scipy.misc import imread
%matplotlib inline
plt.rc('figure', figsize=(15, 15))

먼저 파일 을 읽 고 문자열 대상 에 저장 합 니 다.

all_text = open(file='   .txt', encoding='utf-8').read()

문자열 의 내용 을 살 펴 보 니','\u3000'이라는 불필요 한 문자 가 많 습 니 다.

all_text

'\ufeff'도굴 노트'에서 2 월 홍 과 관련 된 이야기.'구 문 1:2 월 홍 ① 장 부 는 오랫동안 바 뀌 지 않 았 다.\u3000\u3000 그녀 는 한밤중 에 잠 을 이 루 지 못 하고 눈 을 뜨 자마자 침대 옆 에 드 리 워 진 장 부 를 보 았 다.달빛 아래 서 어둠 이 보 였 다.제일 하 얀 은 에서 뽑 아 낸 실 처럼 반 짝 거 리 는 것 이 었 다.\.....................................................u3000\u3000 과연 아무리 좋 은 것 도 좋 은 것 에서 나 쁜 것 으로 간다.\입추
단 어 를 나 누 기 전에 먼저 이 불필요 한 문자 들 을 제거 해라.

all_text = all_text.replace('
', '' ) all_text = all_text.replace('\u3000', '')
다음 에 단 어 를 한 번 만들어 보고 모든 단 어 를 빈 칸 으로 나 누 어 출력 하여 단어의 결 과 를 보 겠 습 니 다.

seg_list = jieba.cut(all_text, cut_all=False)
words =' '
for seg in seg_list:
  words = words + seg + ' '
print(words)

 '도굴 노트'에는 2 월 홍 과 관련 된 이야기 가 담 겨 있다.'구 문 1:2 월 홍 ① 실크 장 부 는 오랫동안 바 뀌 지 않 았 다.그녀 는 한밤중 에 잠 을 이 루 지 못 하고 눈 을 뜨 자 침대 옆 에 드 리 워 진 장 부 를 보 았 다.달빛 아래 서 어둠 이 보 였 다.원래는 반짝반짝 빛 이 나 는 것 이 마치 가장 하 얀 은 에서 나 온 실 같다.과연 아무리 좋 은 것 이라도 좋 은 것 에서 나 쁜 것 으로 간다.예전 에 입추 가 지나 면 그녀 는 직접 이 장 부 를 뜯 고 직접 가서 헹 군 다.그녀 는 이 물건 의 성질 을 알 고 조심스럽게 모 셔 야 한다.한 치 한 치 물 을 건 너 야 한다.지금 은 그녀 를 침대 에서 내 려 오지 못 하 게 하 는데,이 물건 은 아무 도 모 시 는 사람 이 없 으 니,오히려 이렇게 세 심하게 대 접 받 을 가치 도 없어 보인다.아마도 다음 입추 에 야 이 물건 을 건 드 리 는 사람 이 있 을 것 이다.그러나 그 사람 은 자신 이 아 닐 것 이다.점심 에 의사 가 그 에 게 한 그 말 들 은 비록 집 밖 에 있 지만,그녀 는 여전히 몇 점 을 들 었 다.자신의 병 은 아직 얼마나 오래 견 딜 수 있 을 지 모른다.그녀 가 한숨 을 쉬 자 가슴 속 의 그 고통 이 좀 좋아 진 것 같다.며칠
...<이하 생략>
분사 결과 에 따 르 면'도굴 노트','아홉 째 문','이월 홍','장대 부처님','제 철 입'등 책 제목,인명 이 분리 되 었 다.이 소설의 환경 에서 이런 것들 은 고정된 단어 가 되 고 기본 적 인 단어 전략 은 일반적인 인식 에 따라 단 어 를 나눈다.
이 상황 에 대해 jieba 는'사용자 사전'의 체 제 를 가지 고 사용 자 를 전체 단어 가 되 어야 한다 고 생각 하고 사전 에 넣 으 면 단 어 를 나 눌 때 그들 을 만나면 하나의 전체 로 여 긴 다.
디 렉 터 리 아래 에 텍스트 파일 dick.txt 를 새로 만 들 고 다음 단 어 를 입력 하 십시오.
아홉 째 가문
이월 홍
도굴 노트
큰 부처님
복성
해 구
개새끼
다음은 jieba 가 이 사전 파일 을 도입 하여 분 사 를 한 번 더 하 겠 습 니 다.

jieba.load_userdict('dict.txt')
all_seg = jieba.cut(all_text, cut_all=False)
all_word =' '
for seg in all_seg:
  all_word = all_word + seg + ' '
print(all_word)

 '도굴 노트'에는 2 월 홍 과 관련 된 이야기 가 담 겨 있다.'구 문 1:2 월 홍 ① 실크 장 부 는 오랫동안 바 뀌 지 않 았 다.그녀 는 한밤중 에 잠 을 이 루 지 못 하고 눈 을 뜨 자 침대 옆 에 드 리 워 진 장 부 를 보 았 다.달빛 아래 서 어둠 이 보 였 다.원래는 반짝반짝 빛 이 나 는 것 이 마치 가장 하 얀 은 에서 나 온 실 같다.과연 아무리 좋 은 것 이라도 좋 은 것 에서 나 쁜 것 으로 간다.예전 에 입추 가 지나 면 그녀 는 직접 이 장 부 를 뜯 고 직접 가서 헹 군 다.그녀 는 이 물건 의 성질 을 알 고 조심스럽게 모 셔 야 한다.한 치 한 치 물 을 건 너 야 한다.지금 은 그녀 를 침대 에서 내 려 오지 못 하 게 하 는데,이 물건 은 아무 도 모 시 는 사람 이 없 으 니,오히려 이렇게 세 심하게 대 접 받 을 가치 도 없어 보인다.아마도 다음 입추 에 야 이 물건 을 건 드 리 는 사람 이 있 을 것 이다.그러나 그 사람 은 자신 이 아 닐 것 이다.점심 에 의사 가 그 에 게 한 그 말 들 은 비록 집 밖 에 있 지만,그녀 는 여전히 몇 점 을 들 었 다.자신의 병 은 아직 얼마나 오래 견 딜 수 있 을 지 모른다.그녀 가 한숨 을 쉬 자 가슴 속 의 그 고통 이 좀 좋아 진 것 같다.며칠 됐어 요?
...<이하 생략>
이 결 과 를 보면 다 시 는 인명 과 서명 을 분리 하지 않 을 것 이다.
다음은 사 운 을 만 들 겠 습 니 다.
단어 클 라 우 드 를 만 드 는 데 사용 되 는 것 은 워드 클 라 우 드 패키지 입 니 다.두 가지 매개 변수 에서 특히 주의해 야 합 니 다.하 나 는 글꼴 이 고 하 나 는 배경 그림 입 니 다.글씨체 가 이해 하기 쉬 우 니 설명 하지 않 겠 다.배경 그림 은 단어 구름 이 표시 하 는 배경 모양 입 니 다.여기에 하트 모양 의 도안 을 골 랐 다.

다음은 어 운 제작 과정:

#     
font=r"C:\WINDOWS\Fonts\simhei.ttf"
#      ,    
color_mask = imread("love.jpg")
#       ,    
cloud = wc.WordCloud( font_path=font,#    
           background_color="black", #    
           max_words=2000,#          
           mask=color_mask,#      
           max_font_size=100, #     
           random_state=42)
#      
mywc = cloud.generate(all_word)
plt.imshow(mywc)



#             
mywc.to_file('   wordcloud.png')


이상 은 python 을 사용 하여 단 어 를 나 누고 단어 구름 그림 을 그 리 는 간단 한 조작 입 니 다.jieba 와 wordcloud 의 더욱 고 급 스 러 운 사용 방법 에 대해 서 는 좀 더 연구 하고 공부 해 야 한다.
Python 관련 내용 에 관심 이 있 는 독자 들 은 본 사이트 의 주 제 를 볼 수 있 습 니 다.
본 논문 에서 말 한 것 이 여러분 의 Python 프로 그래 밍 에 도움 이 되 기 를 바 랍 니 다.

좋은 웹페이지 즐겨찾기