호텔 평론 예처리 프로그램

def corpus_content(corpus_path, seg_path):
    catelist = os.listdir(corpus_path)  #  corpus_path 
    print("catelist", catelist)
    with open(seg_path, 'w', encoding="UTF-8") as fw:
        #  
        for mydir in catelist:
            print(mydir)
            if mydir == "neg":
                label = -1
            else:
                label = 1
            class_path = corpus_path + mydir + "/"  #  ：6000/neg/

            file_list = os.listdir(class_path)  #  

            for file_path in file_list:  #  
                filedir = class_path + file_path  # #  ：train_corpus/art/21.txt
                content = readfile(filedir).replace(' ','').replace('
', '')
                label_content = str(label)+" "+content+"
"
                fw.write(label_content)

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

【Twitter】다운로드한 (자신의 계정의) 과거 트윗을 깨끗한 CSV로 하고 싶다

Twitter에서 '설정' > '계정' > '트위터 데이터' > '아카이브 다운로드' 에, 자신의 과거의 트윗을 모두 다운로드하는 기능이 준비되어 있는 것은 알고 있는 대로입니다. 다운로드한 파일에는 과거 트윗, R...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다