NLTK 중국어 단어의 주파 수 를 집계 하고 출력 합 니 다.

# -*- coding: utf-8 -*-
'''
  NLTK            
'''
from nltk import FreqDist


def delblankline(infile, outfile):
    infopen = open(infile, 'r',encoding="utf-8")
    outfopen = open(outfile, 'w',encoding="utf-8")
    lines = infopen.readlines()
    cnt = Counter()
    for char in lines:
        cnt[char]+=1
    vocab = cnt.most_common()
    for each in vocab[:15000]:#  15000      
        outfopen.write(each[0])

delblankline("     ", "      ")

좋은 웹페이지 즐겨찾기