NLTK를 사용하는 단어 빈도 카운터

2561 단어 tutorialpythonnlpnltk
NLTK는 NLP용 오픈 소스 Python 라이브러리인 Natural Language Toolkit의 약자입니다.

NLTK를 사용하여 다음 텍스트의 단어 빈도를 계산하려고 합니다.

text= "Morocco, officially the Kingdom of Morocco, is the westernmost country in the Maghreb region of North Africa. It overlooks the Mediterranean Sea to the north and the Atlantic Ocean to the west, and has land borders with Algeria to the east, and the disputed territory of Western Sahara to the south. "



NLTK를 설치하려면

pip install nltk  


Jupyter가 설치되어 있지 않으면 터미널에 다음 명령을 입력하십시오.

pip install jupyterlab



pip install notebook



pip install voila


와 함께 주피터를 실행

jupyter notebook 


다음 라이브러리를 가져옵니다.



텍스트를 변수에 할당합니다.



다음 함수는 문장을 단어와 구두점으로 나눕니다.



출력에서 볼 수 있습니다.



다음 코드는 텍스트 토큰을 반복하고 지정된 토큰이 발생한 횟수를 계산합니다.
lower()를 사용하여 단어를 소문자로 변환할 것입니다. 이와 같이 대문자로 된 동일한 단어를 다른 것으로 간주하는 것을 피할 수 있습니다.



가장 자주 사용되는 상위 10개 단어:



이제 Matplotlib를 사용하여 시각화해 보겠습니다.

좋은 웹페이지 즐겨찾기