호텔 평론 예처리 프로그램
4173 단어 텍스트 처리
def corpus_content(corpus_path, seg_path):
catelist = os.listdir(corpus_path) # corpus_path
print("catelist", catelist)
with open(seg_path, 'w', encoding="UTF-8") as fw:
#
for mydir in catelist:
print(mydir)
if mydir == "neg":
label = -1
else:
label = 1
class_path = corpus_path + mydir + "/" # :6000/neg/
file_list = os.listdir(class_path) #
for file_path in file_list: #
filedir = class_path + file_path # # :train_corpus/art/21.txt
content = readfile(filedir).replace(' ','').replace('
', '')
label_content = str(label)+" "+content+"
"
fw.write(label_content)
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
【Twitter】다운로드한 (자신의 계정의) 과거 트윗을 깨끗한 CSV로 하고 싶다Twitter에서 '설정' > '계정' > '트위터 데이터' > '아카이브 다운로드' 에, 자신의 과거의 트윗을 모두 다운로드하는 기능이 준비되어 있는 것은 알고 있는 대로입니다. 다운로드한 파일에는 과거 트윗, R...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.