여기 서 전단 HTML 과 자바 script 의 일상 업무 에서 자주 발생 하 는 인 코딩 문 제 를 간단하게 이야기 하 겠 습 니 다.컴퓨터 에서 우리 가 저장 한 정 보 는 모두 바 이 너 리 코드 로 표시 된다.우리 가 아 는,화면 에 표 시 된 영어,한자 등 기호 와 저장 용 바 이 너 리 코드 의 상호 전환 은 바로 인 코딩 이다.두 가지 기본 개념 에 대한 설명 이 필요 합 니 다.charset 과 charset encoding:charset,문자 집합,즉 특정한 기호 와 특정한 디지털 매 핑 관 계 를 가 진 표 입 니 다.즉,107 은 koubei 의'a'이 고 21475 는 입 소문 의'입'이 며 서로 다른 표 는 서로 다른 매 핑 관 계 를 가 집 니 다.예 를 들 어 ascii,gb 2312,Unicode.이 숫자 와 문자 의 매 핑 표를 통 해우 리 는 이 진 이 표시 하 는 숫자 를 어떤 문자 로 바 꿀 수 있다.chracter encoding,인 코딩 방식.예 를 들 어'입'에 해당 하 는 21475 라 는 숫자 에 대해 우 리 는\u5k3e 3 으로 표시 합 니까?아니면%E5%8F%A3 으로 표시 합 니까?이것 이 바로 character encoding 에 의 해 결정 된다.'koubei.com'과 같은 문자열 에 있어 미국인 들 이 자주 사용 하 는 문자 이다.그들 은 ASCII 라 는 문자 집합 을 만 들 었 다.전 칭 american standard code of information interchange 미국 표준 정보 교환 코드 이 고 0C 127 이라는 128 개의 숫자 로(2 의 7 차방,0)×00-0×7f)123 abc 와 같은 상용 128 자 를 대표 합 니 다.모두 7 bits 이 고 첫 번 째 는 기호 위치 입 니 다.코드 를 바 꾸 어 마이너스 라 는 것 을 표시 하려 면 모두 8 bits 로 하나의 byte 를 구성 해 야 합 니 다.그 당시 미국인 들 은 좀 인색 했다.만약 에 처음부터 byte 가 16 bits,32 bits 로 설계 되 었 다 면 세계 적 으로 많은 문제 가 적 었 을 것 이다.그러나 그 당시 에 그들 은 8 bits 면 충분 하 다 고 생각 했 고 128 개의 서로 다른 문 자 를 나 타 낼 수 있 었 을 것 이다!컴퓨터 라 는 것 은 미국인 들 이 만들어 낸 것 이기 때문에 그들 은 스스로 일 을 절약 하고 자신 이 사용 하 는 기 호 를 모두 인 코딩 하여 매우 시원 하 게 사용한다.그러나 컴퓨터 가 국제 화 되 기 시 작 했 을 때 문제 가 생 겼 습 니 다.중국 예 를 들 어 한 자 는 몇 만 원 입 니 다.어떻게 합 니까?기 존의 8 bits 하나의 byte 시스템 은 기본 입 니 다.파괴 할 수 없습니다.16 bits 같은 것 으로 바 꿀 수 없습니다.그렇지 않 으 면 너무 크게 바 뀌 어서 다른 길 로 갈 수 밖 에 없습니다.여러 개의 ascii 문자 로 다른 문 자 를 표시 할 수 있 습 니 다.즉,MBCS(Multi-Byte Character System,다 중 바이트 문자 시스템)입 니 다.이 MBCS 의 개념 이 있 으 면 우 리 는 더 많은 문 자 를 표시 할 수 있다.예 를 들 어 우 리 는 2 개의 ascii 문 자 를 사용 하면 16 bits 가 있 고 이론 적 으로 2 의 16 차방 65536 개의 문자 가 있다.그런데 이 인 코딩 들 은 어떻게 문자 에 분 배 됩 니까?예 를 들 어 입 소문 난'입'의 유 니 코드 인 코딩 은 21475 인 데 누가 결 정 했 습 니까?문자 집합,즉 방금 소개 한 charset 입 니 다.ascii 는 가장 기본 적 인 문자 집합 입 니 다.그 위 에 gb 2312,big 5 와 같은 간 체 중국어 와 번 체 중국 어 를 위 한 MBCS 문자 집합 등 이 있 습 니 다.마침내 유 니 코드 컨소시엄 이라는 기구 가 모든 문 자 를 포함 하 는 문자 집합(UCS,Universal Character Set)과 해당 하 는 인 코딩 방식 의 표준,즉 유 니 코드 를 만 들 기로 결정 했다.1991 년 부터 1 판 유 니 코드 국제 표준 을 발 표 했 고 ISBN 0-321-18578-1,국제 표준화 기구 ISO 도 이 맞 춤 형 제작 에 참여 했다.ISO/IEC 10646:the Universal Character Set.한 마디 로 하면 유 니 코드 는 이미 존재 하 는 지구 상의 모든 기 호 를 기본적으로 덮어 쓰 는 문자 표준 으로 현재 점점 광범 위 하 게 사용 되 고 있 으 며 ECMA 표준 도 자 바스 크 립 트 언어의 내부 문 자 는 유 니 코드 표준 을 사용 하도록 규정 하고 있다.(이것 은 자 바스 크 립 트 의 변수 명,함수 명 등 이 중국 어 를 허용 한 다 는 것 을 의미한다.)중국 에 있 는 개발 자 에 게 비교적 많은 문 제 를 만 날 수 있 는 것 은 바로 gbk,gb 2312,utf-8 간 의 전환 과 같은 문제 입 니 다.엄 밀 히 말 하면 이 표현 은 정확 하지 않다.gbk,gb 2312 는 문자 집합(charset)이 고 utf-8 은 인 코딩 방식(character encoding)이다.유 니 코드 표준 에서 UCS 문자 집합 을 인 코딩 하 는 방식 이다.유 니 코드 문자 집합 을 사용 하 는 웹 페이지 는 주로 UTF-8 인 코딩 을 사용 하기 때문에 사람들 이 자주 병렬 로 하 는데 사실은 정확 하지 않다.유 니 코드 가 생기 면 적어도 인류 문명 이 외계인 을 만 나 기 전 까지 는 만능 열 쇠 였 으 니 모두 사용 하 세 요.현재 가장 광범 위 한 유 니 코드 를 사용 하 는 인 코딩 방식 은 UTF-8(8-bit UCS/Unicode Transformation Format)입 니 다.특히 몇 가지 좋 은 점 이 있 습 니 다.인 코딩 UCS 문자 집합 은 전 세계 에서 통용 되 는 긴 인 코딩 방식(variable-length character encoding)입 니 다.ascii 두 번 째 점 을 호 환 하 는 것 이 큰 장점 입 니 다.이 는 이전에 순수 ascii 인 코딩 을 사용 한 시스템 을 호 환 시 키 고 추가 저장량 을 증가 시 키 지 않 습 니 다. 1 2다음 페이지전문 을 읽다
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다: