NLTK를 사용하는 단어 빈도 카운터
NLTK를 사용하여 다음 텍스트의 단어 빈도를 계산하려고 합니다.
text= "Morocco, officially the Kingdom of Morocco, is the westernmost country in the Maghreb region of North Africa. It overlooks the Mediterranean Sea to the north and the Atlantic Ocean to the west, and has land borders with Algeria to the east, and the disputed territory of Western Sahara to the south. "
NLTK를 설치하려면
pip install nltk
Jupyter가 설치되어 있지 않으면 터미널에 다음 명령을 입력하십시오.
pip install jupyterlab
pip install notebook
pip install voila
와 함께 주피터를 실행
jupyter notebook
다음 라이브러리를 가져옵니다.
텍스트를 변수에 할당합니다.
다음 함수는 문장을 단어와 구두점으로 나눕니다.
출력에서 볼 수 있습니다.
다음 코드는 텍스트 토큰을 반복하고 지정된 토큰이 발생한 횟수를 계산합니다.
lower()를 사용하여 단어를 소문자로 변환할 것입니다. 이와 같이 대문자로 된 동일한 단어를 다른 것으로 간주하는 것을 피할 수 있습니다.
가장 자주 사용되는 상위 10개 단어:
이제 Matplotlib를 사용하여 시각화해 보겠습니다.
Reference
이 문제에 관하여(NLTK를 사용하는 단어 빈도 카운터), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/leriaetnasta/word-frequency-counter-using-nltk-40ha텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)