AV 여배우의 특징은 무엇일까? 작품명으로부터 추측해 보았다! (^_^)/~~

18209 단어 형태소 분석 파이썬 워드 클라우드 스크래핑

소개

여러분, AV의 작품명은 신경 쓴 적이 있습니까?

나는 어리석은 순간에 있는 의문이 떠올랐다.

「AV의 작품명은, AV여배우의 특징을 나타내고 있지?」
「그렇다면, 그 특징으로부터 자신의 AV버릇을 알 수 있지 않을까?」

그렇게 생각하면, 막상 행동!
가자.

이번에는 워드 클라우드라는 수법을 이용하여 가설을 입증해 나갈 것입니다.
(내가 좋아하는 나나자와 미아 씨에게 협력해 달라고 합니다.)

워드 클라우드란?

「워드 클라우드」란, 문장 중에 나타나는 출현 빈도가 높은 단어를 추출해, 1장의 그림으로 한 것입니다.
어떤 문장이 어떤 경향인지 시각적으로 "팍과 보기"로 알기 때문에, 빠르고, 취하기 쉬운 방법의 하나입니다.

HTML 획득

import requests #webページを取得するライブラリ
from bs4 import BeautifulSoup #取得したHTMLのデータの中から、タグを読み取り、操作できるライブラリ

url = "https://ja.wikipedia.org/wiki/%E4%B8%83%E6%B2%A2%E3%81%BF%E3%81%82" #七沢みあのwikiURL
response = requests.get(url)
response.encoding = response.apparent_encoding #response.apparent_encoding に、正しい文字コードである SHIFT_JISが格納されている(文字化けを防げます)
soup = BeautifulSoup(response.text, "html.parser") #BeautifulSoup(解析対象のHTML/XML, 利用するパーサー(解析器))

#HTMLをインデントできる
print(soup.prettify())

HTML을 제대로 얻을 수 있었습니다.

작품명 취득

span_list1=soup.findAll("td")
titles=[]
for i in span_list1:
    tmp=i.find("b")
    if tmp==None:
        continue
    else:
        print(tmp.text)
        titles.append(tmp.text)

위의 출력에서 "!"마크나 "-"마크 등 이번 분석에 필요하지 않은 요소가 포함되어 있기 때문에 지금부터 제거합니다.

클렌징

changed_titles2=''.join(titles)
#print(changed_titles2)

#2.前処理(英語や記号を正規表現で削除)←文字列に対して有効
import re
changed_titles2=re.sub("[a-xA-Z0-9_]","",changed_titles2)#英数字の削除
changed_titles2=re.sub("[!-/:-@[-`{-~]","",changed_titles2)#記号の削除
changed_titles2=re.sub(u"\n\n","\n",changed_titles2)#改行の削除
changed_titles2=re.sub(u"\r","",changed_titles2)#空白の削除
changed_titles2=re.sub(u"\u3000","",changed_titles2)#全角の空白を削除

이제 불필요한 문자를 제거할 수 있었습니다.
여기에서 형태소 해석에 들어갑니다.

형태소 분석

import MeCab

changed_titles2=''.join(changed_titles1) #リストから文字列にする必要があります
text = changed_titles2
m = MeCab.Tagger("-Ochasen")#テキストをパースするためのTaggerインスタンス生成

#名詞のみを取り除いてみます
nouns = [line for line in m.parse(text).splitlines()#Taggerクラスのparseメソッドを使うと、テキストを形態素解析した結果が返る
               if "名詞" in line.split()[-1]]

for str in nouns:
    print(str.split())

nouns = [line.split()[0] for line in m.parse(text).splitlines()
               if "名詞" in line.split()[-1]]
print(nouns)

tomo=[]
dictionary={}

add_dictionary={"女子大生":4,"ノーパン":2,"レイプ":1}#正しく形態素解析できない部分を訂正
dictionary.update(add_dictionary)

for word in nouns:
    if word in dictionary:
        dictionary[word]+=1
    else:
        dictionary[word]=1

dictionary = sorted(dictionary.items(), key=lambda x:x[1],reverse=True)
for key,value in dictionary:
    print(key,value)
    tomo.append(key)

결과는! ?

from wordcloud import WordCloud
import matplotlib.pyplot as plt

text_new=""
for i in tomo:
    text_new = text_new + " " + i

stopwords=["七沢","何","度","日","生","ノー","パン","レ","イ","プ","〜","中","女子大"]

word_cloud=WordCloud(background_color='white',font_path=r"C:\Users\tomoh\機械学習 able\ワードクラウド\meiryo.ttc",
                     min_font_size=3,prefer_horizontal=1,stopwords=stopwords)
word_cloud.generate(text_new)

plt.figure(figsize=(10,8))
plt.imshow(word_cloud)
plt.axis("off")
plt.show()

위의 결과는 나나자와 미아씨의 특징을 올바르게 나타내고 있는 것을 알 수 있습니다.

왜냐하면, 나나자와 미아씨의 동영상을 한 개도 놓치지 않고 감상한 경험이 있기 때문에야말로 알 수 있는 것이 있습니다. (경험담이 아닙니다.)

생각해 보면,
・츤데레
· 유혹
・도발
・여자대성
굉장히 끌리는 것을 느꼈습니다.

만약 그녀가 있으면, 이 3점이 갖추어져 있으면 좋겠다…

다른 여배우와 비교

타카하시 쇼코씨는 그라비아계에서 데뷔의 유명한 여배우군요.
이 결과로부터, 「그라비아, 아이돌, 연예인」이라고 하는 특징은 물론, 「언니, 상사, 유혹」이라고 하는 워드로부터 S기분이 있는 연상의 여성의 특징도 읽을 수 있습니다.

화내고 싶은 소망이 있는 M기질 분에게 추천군요.

미카미 유아 씨는 전 SKE 소속의 인기 여배우 씨네요.
이 결과로부터, 「아이돌」이라고 하는 특징은 물론, 「고급, 쾌감, 비누」라고 하는 워드로부터, 고급 비누양의 특징도 읽을 수 있습니다.

돈은 없지만 고급 비누를 맛보고 싶은 분에게 추천하네요.

미즈사 사쿠라 씨는 나나자와 미아 씨를 좋아하기 전에 신세를 진 여배우입니다.
이 결과에서 "큰 가슴, 수수함"이라는 특징을 읽을 수 있습니다.
아마, 아니오타의 수수한 큰 가슴의 여성을 좋아하는 분에게 추천된다고 생각합니다.

이상의 결과로부터,
나는 "수수하고 큰 가슴, 츤데레 기질이있는 여대생"을 좋아하는 것을 워드 클라우드에서 알았습니다.

확실히 그럴지도

「거유」라고 하는 점에서는, 타카하시 쇼코씨, 미카미 유아씨도 일치하고 있지만,
그것보다 나나자와 미아 씨와 미즈 사쿠라 씨의 동영상을 시청할 기회가 많기 때문에,
이번 가설은 입증입니다.

여러분도 꼭 시험해라.

Reference

이 문제에 관하여(AV 여배우의 특징은 무엇일까? 작품명으로부터 추측해 보았다! (^_^)/~~), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/tomoxxx/items/2a781b424b3071bc2984

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

형태소 분석은 데스크톱을 구성하는 데 도움이?

5분으로 할 수 있는 텍스트 해석【WordCloud】

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다