파이썬 초보자는 WordCloud에서 놀고 싶습니다 4
마지막까지
WordCloud를 가볍게 괴롭혔다. 서식도 괴롭히고 보기 쉽게 했다.
그러나, 일본어 출력할 때는 디폴트라고 문자화해 버리므로, 이번은 일본어를 대응시켜 간다.
참고로 한 사이트 ↓
WordCloud(워드 클라우드)를 일본어로 작성 [Python]
거의 마루 파쿠리
일본어 글꼴
폰트를 지정할 때, PC내의 폰트를 사용하고 있는 것이 대부분입니다만, 이번은 사이트로부터 인스톨 한 폰트를 사용합니다.
이번에 사용한 폰트는 이쪽↓
htps // // 푹 tf 예. 메/2994
다운로드 후 글꼴을 GoogleDrive에 넣고 경로를 지정하면 사용할 수 있습니다.
우선 해보자
from janome.tokenizer import Tokenizer
from wordcloud import WordCloud
import re
f = open("sample.txt", "r", encoding="UTF-8")
text = f.read()
FONT_PATH = '/content/drive/MyDrive/Togalite-Regular.otf'
여기는 매번 같다. 필요한 라이브러리를 가져오고 텍스트 파일을 열고 글꼴 경로를 지정합니다.
def get_word_str(text):
t = Tokenizer()
token = t.tokenize(text)
word_list = []
for line in token:
tmp = re.split('\t|,', str(line))
if tmp[1] in ["名詞"]:
word_list.append(tmp[0])
return " " . join(word_list)
# 文字列取得
word_str = get_word_str(text)
wordcloud = WordCloud(font_path=FONT_PATH,
background_color="white",
colormap="summer",
collocations=False)
wordcloud.generate(word_str)
wordcloud.to_file("wc3.png")
참고로 한 사이트와 거의 같습니다.def get_word_str(text)
에서 형태소 분석.re.split()
로 문자열을 분할.if tmp[1] in ["名詞"]
에서 명사만 지정.
wordcloud의 분은, 폰트의 지정 이외는 전회와 바뀌지 않는다.
실행 결과
제대로 일본어로 되어 있다. 할아버지보다 할머니가 많은 것은 왜일까.
요약
이번에는 WordCloud를 일본어 대응시켰다. 할 수 있었던 것은 좋지만, 제1회와 2회로 공부한 녀석 사용하지 않아? 조사해도 이번과 같은 코드였기 때문에, 어쩌면 단지 janome를 놀았을 뿐의 사람이었을지도 모른다.
생각해내는 한 일은 했지만, 원래, 코드끼리를 연결한 적이 없기 때문에 모른다.
가능하다면 공부 한 코드를 사용하고 싶었지만 결과로 올라 왔습니다!
(만약 할 수 있는 방법이 있고, 알고 있는 분이 있으면 가르쳐 주세요...)
Reference
이 문제에 관하여(파이썬 초보자는 WordCloud에서 놀고 싶습니다 4), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/E_Taku2800/items/4f4cb76c1a93b73e2d3e
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
폰트를 지정할 때, PC내의 폰트를 사용하고 있는 것이 대부분입니다만, 이번은 사이트로부터 인스톨 한 폰트를 사용합니다.
이번에 사용한 폰트는 이쪽↓
htps // // 푹 tf 예. 메/2994
다운로드 후 글꼴을 GoogleDrive에 넣고 경로를 지정하면 사용할 수 있습니다.
우선 해보자
from janome.tokenizer import Tokenizer
from wordcloud import WordCloud
import re
f = open("sample.txt", "r", encoding="UTF-8")
text = f.read()
FONT_PATH = '/content/drive/MyDrive/Togalite-Regular.otf'
여기는 매번 같다. 필요한 라이브러리를 가져오고 텍스트 파일을 열고 글꼴 경로를 지정합니다.
def get_word_str(text):
t = Tokenizer()
token = t.tokenize(text)
word_list = []
for line in token:
tmp = re.split('\t|,', str(line))
if tmp[1] in ["名詞"]:
word_list.append(tmp[0])
return " " . join(word_list)
# 文字列取得
word_str = get_word_str(text)
wordcloud = WordCloud(font_path=FONT_PATH,
background_color="white",
colormap="summer",
collocations=False)
wordcloud.generate(word_str)
wordcloud.to_file("wc3.png")
참고로 한 사이트와 거의 같습니다.
def get_word_str(text)
에서 형태소 분석.re.split()
로 문자열을 분할.if tmp[1] in ["名詞"]
에서 명사만 지정.wordcloud의 분은, 폰트의 지정 이외는 전회와 바뀌지 않는다.
실행 결과
제대로 일본어로 되어 있다. 할아버지보다 할머니가 많은 것은 왜일까.
요약
이번에는 WordCloud를 일본어 대응시켰다. 할 수 있었던 것은 좋지만, 제1회와 2회로 공부한 녀석 사용하지 않아? 조사해도 이번과 같은 코드였기 때문에, 어쩌면 단지 janome를 놀았을 뿐의 사람이었을지도 모른다.
생각해내는 한 일은 했지만, 원래, 코드끼리를 연결한 적이 없기 때문에 모른다.
가능하다면 공부 한 코드를 사용하고 싶었지만 결과로 올라 왔습니다!
(만약 할 수 있는 방법이 있고, 알고 있는 분이 있으면 가르쳐 주세요...)
Reference
이 문제에 관하여(파이썬 초보자는 WordCloud에서 놀고 싶습니다 4), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/E_Taku2800/items/4f4cb76c1a93b73e2d3e
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(파이썬 초보자는 WordCloud에서 놀고 싶습니다 4), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/E_Taku2800/items/4f4cb76c1a93b73e2d3e텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)