자바 유 니 코드 요약
4348 단어 unicode
String s = "\u0041\u00DF\u6771\uD801\uDC00";
System.out.println(s.length());
System.out.println(s.getBytes("UTF-8").length);
System.out.println("Print out length one by one...");
System.out.println("\u0041".getBytes("UTF-8").length);
System.out.println("\u00DF".getBytes("UTF-8").length);
System.out.println("\u6771".getBytes("UTF-8").length);
System.out.println("\uD801\uDC00".getBytes("UTF-8").length);
위 에서 5 를 출력 하면 5 개의 utf 16 인 코딩 유닛 을 표시 합 니 다!5
10
Print out length one by one...
1
2
3
4
문자 인 코딩 기본 개념:
Q:문자 가 무엇 입 니까?
A: 문자 )추상 적 인 최소 텍스트 단위 입 니 다.그것 은 고정된 모양(하나의 자형 일 수 있 음)이 없고 값 도 없다."A'는 문자 이 고'엄'은 문자 이 며'-(독일,프랑스 와 많은 다른 유럽 국가 들 이 통용 하 는 화폐의 표지)도 문자 이다.
Q:문자 집합 이 무엇 입 니까?
A: 문자 집합(character set)은 문자 의 집합 이다.예 를 들 어 한자 문 자 는 중국인 이 가장 먼저 발명 한 문자 로 중국어,일본어,한국어 와 베트남 어 를 쓰 는 데 사용 된다.
Q:인 코딩 문자 집합 은 무엇 입 니까?
A:인 코딩 문자 집합(coded characterset)은 문자 집합 으로 모든 문자 에 유일한 숫자 를 할당 합 니 다.유 니 코드 표준 의 핵심 은 인 코딩 문자 집합 이 고 알파벳'A'의 인 코딩 은 004116 이다. 문자"-"의 인 코딩 은 20AC 16 입 니 다.유 니 코드 표준 은 항상 16 진수 숫자 를 사용 하고 쓰기 전에 접두사'U+'를 붙 이기 때문에'A'의 인 코딩 은'U+0041'로 쓰 인 다.
Q:코드 점 이 무엇 입 니까?
A: 코드 포인트(Code points)는 문자 집합 을 인 코딩 할 수 있 는 숫자 를 말한다.인 코딩 문자 집합 은 효과 적 인 코드 점 범 위 를 정의 하지만 모든 코드 점 에 문 자 를 할당 할 필 요 는 없습니다.유효한 유 니 코드 코드 점 범 위 는 U+0000 에서 U+10FFFF 입 니 다.유 니 코드 4.0 은 100 여 만 개의 코드 점 중 96,382 코드 점 에 문 자 를 분배 합 니 다.
예 를 들 어 유 니 코드 U+20C 30 의 코드 점 은 134192 이 고 U+20C 30 과 134192 는 등가 이다.자바 에 서 는 int i=Integer.parseInt("20C 30",16)을 통과 할 수 있 습 니 다.코드 점 을 얻다.
Q:보충 문자 가 무엇 입 니까?
A: 추가 문자(Supplementary characters)는 코드 점 이 U+10000 에서 U+10FFFF 범위 사이 에 있 는 문자 입 니 다.즉,원본 유 니 코드 를 사용 한 16 비트 디자인 으로 표시 할 수 없 는 문자 입 니 다.U+0000 에서 U+FFFF 사이 의 문자 집합 은 때때로 기본 다 중 언어 면(BMP)이 라 고 불 린 다.따라서 모든 유 니 코드 문 자 는 BMP 에 속 하거나 추가 문자 에 속한다.
Q:문자 인 코딩 방안 은 무엇 입 니까?
A: 문자 인 코딩 방안(characterencodingscheme)은 하나 이상 의 인 코딩 문자 집합 에서 하나 이상 의 고정 너비 코드 유닛 시퀀스 에 대한 맵 입 니 다.가장 많이 사용 되 는 코드 단원 은 바이트 이지 만 16 비트 나 32 비트 정수 도 내부 처리 에 사용 할 수 있다.UTF-32,UTF-16,UTF-8 은 유 니 코드 표준 인 코딩 문자 집합의 문자 인 코딩 방안 이다.
Q: UTF-32,UTF-16,UTF-8 은 모두 무슨 뜻 입 니까?
A:이것들 은 모두 유 니 코드 의 인 코딩 방식 입 니 다.말하자면 어떻게 이 진 으로 유 니 코드 를 표시 하 는 지 입 니 다.
UTF-32 는 곧 모든 유 니 코드 코드 점 을 같은 값 의 32 비트 정수 로 표시 할 것 이다.내부 처리 에 가장 편리 한 표현 임 이 분명 하지만 일반 문자열 로 표현 하면 더 많은 메모 리 를 소모 해 야 합 니 다.
UTF-16 은 하나 또는 두 개의 할당 되 지 않 은 16 비트 코드 셀 의 시퀀스 를 사용 하여 유 니 코드 코드 점 을 인 코딩 합 니 다.U+0000~U+FFFF 인 코딩 은 같은 값 의 16 비트 단위 입 니 다.추가 문자 인 코딩 은 두 개의 코드 유닛 으로 첫 번 째 유닛 은 높 은 프 록 시 범위(U+D800~U+DBFF)에서,두 번 째 유닛 은 낮은 프 록 시 범위(U+DC 00~U+DFFF)에서 나온다.이것 은 개념 적 으로 다 중 바이트 인 코딩 과 유사 해 보일 수 있 지만 그 중에서 중요 한 차이 점 이 있 습 니 다.값 U+D800 에서 U+DFFF 는 UTF-16 에 사용 합 니 다.코드 점 으로 이 값 할당 문자 가 없습니다.이 는 하나의 문자열 에 있 는 모든 단독 코드 유닛 에 대해 소프트웨어 는 이 코드 유닛 이 특정한 단원 문 자 를 표시 하 는 지,또는 이 코드 유닛 이 특정한 쌍 단원 문자 의 첫 번 째 또는 두 번 째 단원 인지 여 부 를 식별 할 수 있다 는 것 을 의미한다.이것 은 일부 전통 적 인 다 바이트 문자 인 코딩 에 있어 현저 한 개선 이다.전통 적 인 다 바이트 문자 인 코딩 에서 바이트 값 0x 41 은 알파벳'A'를 표시 할 수도 있 고 두 바이트 문자 의 두 번 째 바이트 일 수도 있다.
UTF-8 은 인 코딩 유 니 코드 코드 점 을 1~4 바이트 의 시퀀스 로 인 코딩 합 니 다.U+0000~U+007 F 는 하나의 바이트 인 코딩 을 사용 하고 U+0080~U+07FF 는 두 개의 바이트,U+0800~U+FFFF 는 세 개의 바이트,U+10000~U+10FFFF 는 네 개의 바이트 를 사용한다.UTF-8 디자인 원 리 는 바이트 값 0x 00 에서 0x7F 는 코드 점 U+0000 에서 U+007 F(Basic Latin 문자 부분 집합,ASCII 문자 집합 에 대응)를 나타 낸다.이 바이트 값 은 다른 코드 점 을 영원히 표시 하지 않 습 니 다.이 특성 으로 인해 UTF-8 은 소프트웨어 에서 특수 한 의 미 를 일부 ASCII 문자 에 편리 하 게 부여 할 수 있 습 니 다.
유 니 코드 기호 범위|UTF-8 인 코딩 방식
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
JS의 문자열에서 베트남어 문자 제거텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.