python에서 HTML 일괄 변환 Word 구현 방법

2014 단어 pythonwordhtml
오늘 우리는python을 사용하여word 내용을 html 파일로 변환한다고 말합니다.다음은 함께 살펴보겠습니다.
준비 작업
python 라이브러리 PyDocX를 사용하여 설치 방법(pip를 사용하여 설치), 명령은 다음과 같습니다.

pip install python-docx
라이브러리 소개
python-docx는 Microsoft Word (.docx) 파일을 만들고 업데이트하는 데 사용되는 Python 라이브러리입니다.그것은 워드에 대해 많은 조작을 할 수 있다.예를 들어 파일 열기, 내용 쓰기, 내용 스타일 작성, 내용 해석, 내용 읽기 등이다.주로word를 위한 기능 라이브러리입니다.
코드
다음은 같이 코드를 말해 봅시다.먼저 성명한 내용은 주로 코드 도구가 인터넷에 있는 사람들에게 판매되는 것으로 나타나 주석을 달았다.
1、os 라이브러리를 통해 현재 디렉터리에 있는 모든 파일 정보 얻기

#  
file_path = os.getcwd()
print(" :%s" % file_path)
2. 함수를 통해 데이터를 얻고 디렉터리 아래 파일을 판단하여 얻는다.docx 유형 문서

data = []
for root, dirs, files in os.walk(files_path, topdown=False):
for name in files:
f_p = os.path.join(root, name).replace("\\", "/")
file_type = os.path.splitext(f_p)
if file_type[1] == '.docx':
if " " in file_type[0]:
os.rename(f_p, f_p.replace(" ", ""))
f_p = f_p.replace(" ", "")
data.append(f_p)
return data
여기에서 우리는 판단의 조작을 했다. 주로 파일 이름에 빈칸이 생기는 문제를 방지하는 것이다. 테스트 과정에서 빈칸의 문서 이름이 파일을 찾을 수 없는 것을 발견했기 때문이다.
3. 데이터 상황 판단

if not file_array:
print(" docx word ")
#  
print(" ")
for v in file_array:
main(v)
현재 디렉터리에 일치하는 문서가 없으면 프로그램이 바로 뛰어나와 더 이상 아래로 실행되지 않습니다.
4, 변환 시작
여기서 우리가 사용하는 것은 3에서 순환 호출 방법이다. 다음은 코드를 보자

html = PyDocX.to_html(v)
file_name = os.path.splitext(v)
f = open("%s.html" % file_name[0], 'w', encoding="utf-8")
f.write(html)
f.close()
전체적으로 보면 전환하는 방법은 매우 간단하다. 라이브러리에서 이미 우리를 도와준 기능은 간단한 호출만 하면 된다.나는 기존의 워드 파일 이름을 유지하여 html 파일을 생성하는 것을 채택한다.이렇게 하면 찾기가 편리하다.
사실 여기서도 파일을 생성하지 않고 얻은 내용 데이터를 데이터베이스에 직접 저장하여 페이지에 직접 보여줄 수 있다.
이상은python이word를 어떻게 대량으로 HTML로 전환하는지에 대한 상세한 내용입니다. 더 많은pythonword가 html로 전환하는지에 대한 자료는 저희 다른 관련 글에 주목하세요!

좋은 웹페이지 즐겨찾기