파 이 썬,도 라 에 몽 에 올 라 가.-나 랑 동행 해.

머리말
이 글 을 통 해 당신 은 물건 을 받 을 것 입 니 다.
① 콩짜개 영화 데이터 의 추출;
② 손 으로 단어 구름 그림 그리 기 를 가르쳐 준다.
在这里插入图片描述
2.콩잎 파충류 절차
물론 콩잎 위 에는 다른 데이터 가 많아 서 우리 가 올 라 가서 분석 할 만하 다.그러나 본문 에서 우 리 는 단지 평론 정 보 를 얻 을 뿐이다.
대기 사이트 주소:
https://movie.douban.com/subject/34913671/comments?status=P
필드 가 하나 밖 에 없 기 때문에,우 리 는 직접 re 정규 표현 식 을 사용 하여 이 문 제 를 해결 합 니 다.
在这里插入图片描述
그 파충류 들 을 보 니 이것 은 또 너희들 이 연습 할 좋 은 기회 이다.
다음은 파충류 의 절 차 를 직접 알려 드 리 겠 습 니 다.

# 1.      ,    ,     
import requests
import chardet
import re

# 2.      ,        ,      ,         ,    ,        。
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36',
    #          Referer      ,           Referer                 
    'Referer':'https://www.douban.com/'
}

# 3.     ,       
for i in range(0,1001,20):
    url = f"https://movie.douban.com/subject/34913671/comments?start={i}&limit=20&status=P&sort=new_score"
    # 4.   requests     
    response = requests.get(url,headers=headers)#        
    # 5.             ,      encoding  ,    
    response.encoding = "utf-8"
    # 6.        ,    text  。     text content     
    text = response.text#            
    # 7.     ,          
    comments_list = [i for i in re.findall('<span class="short">(.*?)</span>',text,re.S)]
    # 8.     ,           ,      open()  ,   txt  
    for comment in comments_list:
         with open(r"  A :    2.txt","a",encoding = "utf-8") as f :  
                    f.write(comment + "
")
3.최종 효 과 는 다음 과 같다.
在这里插入图片描述
4.어휘 구름 그림 제작 절차
많은 학생 들 이 단어 구름 그림 을 만 들 지 못 합 니 다.이 기 회 를 빌려 저 는 상세 한 절 차 를 쓰 겠 습 니 다.여러분 이면 됩 니 다.
단어 구름 그림 을 그 리 는 상세 한 절 차 는 다음 과 같다.
  • ① 관련 라 이브 러 리 가 져 오기;
  • ② 텍스트 파일 을 읽 고 jieba 라 이브 러 리 동적 수정 사전 을 사용 합 니 다.
  • ③ jieba 라 이브 러 리 의 lcut()방법 으로 단 어 를 나눈다.
  • ④ 사용 정지 단 어 를 읽 고 추가 사용 정지 단 어 를 추가 하 며 사용 정지 단 어 를 제거 합 니 다.
  • ⑤ 단어의 주파수 통계;
  • ⑥ 단어 구름 그림 그리 기 ① 관련 라 이브 러 리 가 져 오기
    여기 있 습 니 다.원 하 는 라 이브 러 리 를 가 져 오 세 요.
    
    import jieba
    from wordcloud import WordCloud
    import matplotlib.pyplot as plt
    from imageio import imread
    
    import warnings
    warnings.filterwarnings("ignore")
    
    ② 텍스트 파일 읽 기,jieba 라 이브 러 리 동적 수정 사전 사용
    여기 with open()에서 텍스트 파일 을 읽 으 면 설명 하지 않 겠 습 니 다.여기 설명 좀 해 주세요.
    
    sentence = "        ,    "
    
    list(jieba.cut(sentence))
    결 과 는 다음 과 같다.
    在这里插入图片描述
    상기 절 분 된 결과 에 대해 만약 에 우리 가'호북성 광 수'와'제3 의 거리'를 모두 완전한 단어 로 생각 하고 분리 하지 않 으 려 면 어떻게 해 야 합 니까?이 럴 때 는 add 의 도움 이 필요 합 니 다.워드()방법,동적 수정 사전.
    
    sentence = "        ,    "
    
    jieba.add_word("    ")
    jieba.add_word("    ")
    
    list(jieba.cut(sentence))
    결 과 는 다음 과 같다.
    在这里插入图片描述
    요약:
  • jieba.add_워드()방법 은 하나의 동적 으로 만 단 어 를 추가 할 수 있 습 니 다.
  • 우리 가 여러 단 어 를 동적 으로 추가 해 야 할 때 jieba.load 를 사용 해 야 합 니 다.userdict()방법.즉,모든 사용자 정의 단 어 를 한 텍스트 에 넣 고 이 방법 을 사용 하여 사전 집 을 한꺼번에 동적 으로 수정 하 는 것 이다.
  • 상기 기초 가 있 으 면 우 리 는 텍스트 를 직접 읽 은 후에 사전 을 동적 으로 수정 합 니 다.
    
    with open(r"  A :    2.txt",encoding="utf-8") as f:
        txt = f.read()
    txt = txt.split()
    
    jieba.add_word("  A ")
    jieba.add_word("  ")
    ③ jieba 라 이브 러 리 의 lcut()방법 으로 단 어 를 나눈다.
    짧 은 줄 코드,간단 합 니 다.
    
    data_cut = [jieba.lcut(x) for x in txt]
    ④ 사용 정지 단 어 를 읽 고,사용 정지 단 어 를 추가 하고,사용 정지 단 어 를 제거한다
    사용 정지 단 어 를 읽 고 split()함수 로 나 누 면 을 얻 을 수 있 습 니 다.이 어 으로 추가 사용 정지 단 어 를 목록 에 추가 하면 된다.
    
    #      
    with open(r"stoplist.txt",encoding="utf-8") as f:
        stop = f.read()
    stop = stop.split()
    #        ,            
    stop = [" "] + stop
    #      
    s_data_cut = pd.Series(data_cut)
    all_words_after = s_data_cut.apply(lambda x:[i for i in x if i not in stop])
    
    ⑤ 단어의 빈도 통계
    여기 series 중 valuecounts()의 사용.
    
    all_words = []
    for i in all_words_after:
        all_words.extend(i)
        
    word_count = pd.Series(all_words).value_counts()
    ⑥ 단어 구름 그림 그리 기
    
    # 1、      
    back_picture = imread(r"aixin.jpg")
    
    # 2、      
    wc = WordCloud(font_path="simhei.ttf",
                   background_color="white",
                   max_words=2000,
                   mask=back_picture,
                   max_font_size=200,
                   random_state=42
                  )
    wc2 = wc.fit_words(word_count)
    
    # 3、     
    plt.figure(figsize=(16,8))
    plt.imshow(wc2)
    plt.axis("off")
    plt.show()
    wc.to_file("ciyun.png")
    
    효과 도
    在这里插入图片描述
    어 운 도 를 보면 알 수 있 듯 이 이것 은 또 하나의 최 루 영화 이다.이것 은 사랑 의 영화 이다.우리 와 함께 자란 대웅 이 는 모두 결 혼 했 습 니까?그럼 우 리 는?사실 우 리 는 어 렸 을 때 대웅 과 정 향 이 가 좋 은 친구 가 되 기 를 바 랐 다.바로 이 영화 에서 그들 은 결혼 했다.이 영 화 는 어떻게 상영 해 야 합 니까?모두 영화관 에 가서 결말 을 알 아 볼 수 있다.
    파 이 썬 이 도 라 에 몽 을 얻 었 습 니 다.-저 와 함께 2 번 의 콩잎 영화 평론 과 함께 생 긴 단어 구름 그림 에 관 한 글 은 여기까지 소개 되 었 습 니 다.더 많은 관련 파 이 썬 이 영화 평론 을 얻 고 생 긴 단어 구름 그림 내용 은 저희 의 이전 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 많은 응원 부 탁 드 리 겠 습 니 다!

    좋은 웹페이지 즐겨찾기