Python 코딩 문제 및 텍스트 파일 처리 방법 상세 설명
문자 와 바이트 사이 의 변환 과정 을 코딩 이 라 고 하 는데 Python 은 100 개가 넘 는 코딩 기 를 가지 고 있 습 니 다.예 를 들 어:
ascii(영문 체계)gb 2312(중국어 체계)utf-8(전 세계 통용)
이 디코더 들 은 open(),str.encode(),by tes.decode()등 함수 의 encoding 인 자 를 전달 할 수 있 습 니 다.
UnicodeEncodeError
대부분의 비 UTF 인 코더(예 를 들 어 cp 437)는 유 니 코드 문자 의 일부분 만 처리 할 수 있 습 니 다.문 자 를 바이트 로 변환 할 때 대상 인 코딩 에 이 문자 가 정의 되 지 않 으 면 유 니 코드 인 코딩 오류 이상 을 던 집 니 다.
처리 방식 1:utf 8 인 코딩 사용.
처리 방식 2:errors 인자 추가:
# b'So Paulo'
city.encode("cp437", errors="ignore")
# ? b'S?o Paulo'
city.encode("cp437", errors="replace")
# XML b'São Paulo'
city.encode("cp437", errors="xmlcharrefreplace")
UnicodeDecodeError바 이 트 를 문자 로 변환 할 때 변환 할 수 없 는 바 이 트 를 만 났 을 때 유 니 코드 디 코드 오류 이상 을 던 집 니 다.모든 바이트 에 유효한 ASCII 문자 가 포함 되 어 있 는 것 도 아니 고,모든 문자 가 유효한 UTF-8 도 아니 기 때문이다.
처리 방식 도 두 가지 가 있 는데 위 와 같다.
SyntaxError
Python 3 은 기본적으로 UTF-8 인 코딩 원본 을 사용 합 니 다.불 러 온.py 모듈 에 UTF-8 이외 의 데이터 가 포함 되 어 있 고 인 코딩 을 명시 하지 않 으 면 SyntaxError 이상 을 던 집 니 다.
처리 방식 은 파일 상단 에 coding 주석 을 추가 하 는 것 입 니 다.
# coding: cp1252
그러나 이 방법 은 좋 지 않다.이 잘못된 문 자 를 찾 아 UTF-8 로 바 꾸 는 것 이 좋다.인터넷 에서 직접 IDE 로 실행 하면 자주 이 잘못 을 보고 합 니 다.
텍스트 파일 처리
유 니 코드 샌드위치:
프로그램 에서 바 이 너 리 에 최대한 적 게 접촉 하고 바이트 를 문자 로 디 코딩 하 며 문자열 대상 만 처리 합 니 다.예 를 들 어 Django 에서 view 는 유 니 코드 문자열 을 출력 해 야 합 니 다.Django 는 응답 데 이 터 를 바이트 시퀀스 로 인 코딩 하고 기본적으로 UTF-8 인 코딩 을 사용 합 니 다.
Python 에 내 장 된 open 함 수 는 이 원칙 을 사용 하여 파일 을 읽 을 때 필요 한 디 코딩 을 하고 텍스트 모드 로 파일 을 쓸 때 필요 한 인 코딩 을 합 니 다.
파일 디 코딩
윈도 우즈 는 윈도 우즈 10 과 같은 UTF-8 인 코딩 이 아니 기 때문에 이 문 제 를 더욱 쉽게 만 날 수 있다.
>>> open("cafe.txt", "w", encoding="utf8").write("café")
4
>>> open("cafe.txt").read()
'caf '
파일 을 쓸 때 utf 8 을 지 정 했 지만 파일 을 읽 을 때 지정 되 지 않 으 면 Python 은 시스템 기본 인 코딩 을 사용 합 니 다.
>>> import locale
#
# PYTHONENCODING ,sys.stdout/stdin/stderr
>>> locale.getpreferredencoding()
'cp936'
cp 936 은 마지막 바이트 의 디 코딩 을 é 가 아 닌 모 로 만 들 었 다.
>>> import sys
#
>>> sys.getdefaultencoding()
'utf-8'
>>> import sys
# ( )
>>> sys.getfilesystemencoding()
'utf-8'
GNU/Linux 나 Mac OS X 에 서 는 이 문제 가 발생 하지 않 습 니 다.몇 년 동안 기본 인 코딩 이 UTF-8 이 었 기 때 문 입 니 다.해결 방법 은 시스템 의 기본 인 코딩 에 의존 해 서 는 안 됩 니 다.파일 을 열 때 항상 encoding=인 자 를 명확 하 게 전달 해 야 합 니 다.장치 마다 기본 인 코딩 이 다 를 수 있 고 하루 걸 러 변화 가 발생 할 수 있 기 때 문 입 니 다.
작은 매듭
본 고 는 Python 의 인 코더 와 발생 할 수 있 는 유 니 코드 인 코딩 오류,유 니 코드 인 코딩 오류,SyntaxError 문 제 를 소개 한 다음 에 Python 의 open 함수 가 텍스트 파일 을 처리 하 는 원칙 을 제시 하고 마지막 으로 Windows 에서 발생 하기 쉬 운 파일 인 코딩 문제 에 대해 설명 했다.
파 이 썬 디 코딩 문제 및 텍스트 파일 처리 방법 에 관 한 이 글 은 여기까지 소개 되 었 습 니 다.더 많은 파 이 썬 디 코딩 및 텍스트 처리 내용 은 우리 의 이전 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 많은 지원 바 랍 니 다!
참고 자료:
《유창 한 파 이 썬》
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
로마 숫자를 정수로 또는 그 반대로 변환그 중 하나는 로마 숫자를 정수로 변환하는 함수를 만드는 것이었고 두 번째는 그 반대를 수행하는 함수를 만드는 것이었습니다. 문자만 포함합니다'I', 'V', 'X', 'L', 'C', 'D', 'M' ; 문자열이 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.