문자 인코딩 형식 요약 및 상호 변환(utf-8,gbk,ascii)
ASCII ((American Standard Code for Information Interchange):
미국 정보 교환 표준 코드는 라틴 자모를 바탕으로 한 컴퓨터 인코딩 시스템으로 주로 현대 영어와 다른 서유럽 언어를 나타내는 데 쓰인다.이것은 가장 일반적인 정보 교환 표준이며 국제 표준 ISO/IEC 646과 같습니다.ASCII가 처음으로 규범 표준의 유형으로 발표된 것은 1967년, 마지막 업데이트는 1986년으로 지금까지 128글자가 정의됐다.
GB2312(한자)
정보교환용 한자 인코딩 문자집은 중국 국가표준총국이 1980년에 발표하여 1981년 5월 1일부터 실시한 국가표준번호로 표준번호는 GB2312-1980이다.GB2312 인코딩은 한자 처리, 한자 통신 등 시스템 간 정보 교환에 적용되며 중국 본토에 통용된다.싱가포르 등지에서도 이 코드를 채택한다.중국 대륙의 거의 모든 중국어 시스템과 국제화 소프트웨어는 GB2312를 지원한다.
유니코드 다국어
문자 집합, 인코딩 방안 등을 포함한 컴퓨터 과학 분야의 업계 표준이다.유니코드는 전통적인 문자 인코딩 방안의 한계를 해결하기 위해 만들어진 것으로 각 언어의 모든 문자에 통일되고 유일한 이진 인코딩을 설정하여 크로스 언어, 크로스 플랫폼에서 텍스트 변환, 처리의 요구를 충족시킨다.1990년에 연구 개발을 시작했고 1994년에 정식으로 발표되었다.
UTF-8
8비트, Universal Character Set/Unicode Transformation Format에서 Unicode에 대한 가변 길이 문자 인코딩유니코드 표준의 모든 문자를 표시할 수 있으며, 인코딩의 첫 번째 바이트는 ASCII와 호환되기 때문에 원래 ASCII 문자를 처리하던 소프트웨어가 일부분만 수정하지 않아도 계속 사용할 수 있다.따라서 전자메일, 웹 페이지 및 기타 저장 또는 전송 문자의 응용에서 우선적으로 사용되는 인코딩이 되었다.
GBK = cp936
GBK는 (GBK는'국표','확장'중국어 병음의 첫 번째 자모로 영문 명칭:Chinese Internal Code Specification)이라고 전칭한다. 중화인민공화국 전국정보기술표준화기술위원회는 1995년 12월 1일에 제정했고 국가기술감독국 표준화사,전자공업부 과학기술과 품질감독사는 1995년 12월 15일 기술감독 표지판 1995229호 문서의 형식으로 이를 기술규범지도성 문서로 확정했다.이 버전의 GBK 사양은 버전 1.0입니다.
문자 변환 (encode 및 decode)
인코딩
ncoding은 인코딩이라는 뜻으로 정보를 분류한 결과를 컴퓨터와 사람이 식별하기 쉬운 기호 체계로 나타내는 과정으로 사람들이 통일적으로 인식하고 관점을 통일하며 정보를 교환하는 기술 수단이다.
디코딩
디코딩은 특정한 방법으로 디지털을 자신이 대표하는 내용으로 복원하거나 펄스 신호, 광신호, 무선 전파 등을 자신이 대표하는 정보, 데이터 등으로 전환하는 과정이다.디코딩은 수신자가 받아들인 기호나 코드를 정보로 복원하는 과정으로 인코딩 과정과 상대적이다.
utf-8과gbk
utf = open("utf-8.txt",'r')
utf_read = utf.read()
print(utf_read)
:
Traceback (most recent call last):
File "E:/scribe_upon/csdn/code__.py", line 12, in
utf_read = utf.read()
UnicodeDecodeError: 'gbk' codec can't decode byte 0xbd in position 8: illegal multibyte sequence
open () 방법의 기본 인코딩 방식은 시스템의 인코딩 방식 (즉locale.getpreferredencoding () 반환값) 이다.
>>> import locale
>>> locale.getpreferredencoding()
'cp936'
>>>
cp936은 GBK이기 때문에 utf-8 인코딩 형식은 encoding='utf-8'
utf = open("utf-8.txt",'r', encoding='utf-8')
utf_read = utf.read()
print(utf_read)
utf와 gbk의 변환
컴파일러에서 직접 변환할 수 없습니다. 인코딩 소프트웨어 (Notpad++) 를 통해 변환합니다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Java gbk to utf-81. 파일 코드: 스크립트 사용 gbk utf-8 스크립트 파일 바꾸기: 2. 파일 디코딩 후 로컬 환경은utf-8 환경으로 바뀌어 일부 디코딩 파일이 있을 수 있습니다. 수동으로 복구합니다 3. 중국어 js 인용 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.