Python 코딩 문제 및 텍스트 파일 처리 방법 상세 설명

디코더
문자 와 바이트 사이 의 변환 과정 을 코딩 이 라 고 하 는데 Python 은 100 개가 넘 는 코딩 기 를 가지 고 있 습 니 다.예 를 들 어:
ascii(영문 체계)gb 2312(중국어 체계)utf-8(전 세계 통용)
  • latin1
  • utf-16
  • 디코더 에는 일반적으로 utf 8,utf-8,U8 등 여러 개의 별명 이 있다.
    이 디코더 들 은 open(),str.encode(),by tes.decode()등 함수 의 encoding 인 자 를 전달 할 수 있 습 니 다.
    UnicodeEncodeError
    대부분의 비 UTF 인 코더(예 를 들 어 cp 437)는 유 니 코드 문자 의 일부분 만 처리 할 수 있 습 니 다.문 자 를 바이트 로 변환 할 때 대상 인 코딩 에 이 문자 가 정의 되 지 않 으 면 유 니 코드 인 코딩 오류 이상 을 던 집 니 다.
    처리 방식 1:utf 8 인 코딩 사용.
    처리 방식 2:errors 인자 추가:
    
    #     b'So Paulo'
    city.encode("cp437", errors="ignore")
    #    ?  b'S?o Paulo'
    city.encode("cp437", errors="replace")
    #    XML    b'São Paulo'
    city.encode("cp437", errors="xmlcharrefreplace")
    
    UnicodeDecodeError
    바 이 트 를 문자 로 변환 할 때 변환 할 수 없 는 바 이 트 를 만 났 을 때 유 니 코드 디 코드 오류 이상 을 던 집 니 다.모든 바이트 에 유효한 ASCII 문자 가 포함 되 어 있 는 것 도 아니 고,모든 문자 가 유효한 UTF-8 도 아니 기 때문이다.
    처리 방식 도 두 가지 가 있 는데 위 와 같다.
    SyntaxError
    Python 3 은 기본적으로 UTF-8 인 코딩 원본 을 사용 합 니 다.불 러 온.py 모듈 에 UTF-8 이외 의 데이터 가 포함 되 어 있 고 인 코딩 을 명시 하지 않 으 면 SyntaxError 이상 을 던 집 니 다.
    처리 방식 은 파일 상단 에 coding 주석 을 추가 하 는 것 입 니 다.
    
    # coding: cp1252
    
    그러나 이 방법 은 좋 지 않다.이 잘못된 문 자 를 찾 아 UTF-8 로 바 꾸 는 것 이 좋다.
    인터넷 에서 직접 IDE 로 실행 하면 자주 이 잘못 을 보고 합 니 다.
    텍스트 파일 처리
    유 니 코드 샌드위치:

    프로그램 에서 바 이 너 리 에 최대한 적 게 접촉 하고 바이트 를 문자 로 디 코딩 하 며 문자열 대상 만 처리 합 니 다.예 를 들 어 Django 에서 view 는 유 니 코드 문자열 을 출력 해 야 합 니 다.Django 는 응답 데 이 터 를 바이트 시퀀스 로 인 코딩 하고 기본적으로 UTF-8 인 코딩 을 사용 합 니 다.
    Python 에 내 장 된 open 함 수 는 이 원칙 을 사용 하여 파일 을 읽 을 때 필요 한 디 코딩 을 하고 텍스트 모드 로 파일 을 쓸 때 필요 한 인 코딩 을 합 니 다.
    파일 디 코딩
    윈도 우즈 는 윈도 우즈 10 과 같은 UTF-8 인 코딩 이 아니 기 때문에 이 문 제 를 더욱 쉽게 만 날 수 있다.
    
    >>> open("cafe.txt", "w", encoding="utf8").write("café")
    4
    >>> open("cafe.txt").read()
    'caf '
    
    파일 을 쓸 때 utf 8 을 지 정 했 지만 파일 을 읽 을 때 지정 되 지 않 으 면 Python 은 시스템 기본 인 코딩 을 사용 합 니 다.
    
    >>> import locale
    #        
    #       PYTHONENCODING    ,sys.stdout/stdin/stderr    
    >>> locale.getpreferredencoding()
    'cp936'
    
    cp 936 은 마지막 바이트 의 디 코딩 을 é 가 아 닌 모 로 만 들 었 다.
    
    >>> import sys
    #                 
    >>> sys.getdefaultencoding()
    'utf-8'
    
    
    >>> import sys
    #    (      )   
    >>> sys.getfilesystemencoding()
    'utf-8'
    
    GNU/Linux 나 Mac OS X 에 서 는 이 문제 가 발생 하지 않 습 니 다.몇 년 동안 기본 인 코딩 이 UTF-8 이 었 기 때 문 입 니 다.
    해결 방법 은 시스템 의 기본 인 코딩 에 의존 해 서 는 안 됩 니 다.파일 을 열 때 항상 encoding=인 자 를 명확 하 게 전달 해 야 합 니 다.장치 마다 기본 인 코딩 이 다 를 수 있 고 하루 걸 러 변화 가 발생 할 수 있 기 때 문 입 니 다.
    작은 매듭
    본 고 는 Python 의 인 코더 와 발생 할 수 있 는 유 니 코드 인 코딩 오류,유 니 코드 인 코딩 오류,SyntaxError 문 제 를 소개 한 다음 에 Python 의 open 함수 가 텍스트 파일 을 처리 하 는 원칙 을 제시 하고 마지막 으로 Windows 에서 발생 하기 쉬 운 파일 인 코딩 문제 에 대해 설명 했다.
    파 이 썬 디 코딩 문제 및 텍스트 파일 처리 방법 에 관 한 이 글 은 여기까지 소개 되 었 습 니 다.더 많은 파 이 썬 디 코딩 및 텍스트 처리 내용 은 우리 의 이전 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 많은 지원 바 랍 니 다!
    참고 자료:
    《유창 한 파 이 썬》

    좋은 웹페이지 즐겨찾기