자바 유 니 코드 요약

4348 단어 unicode
  • 유 니 코드 는 그 당시 세계 의 모든 문 자 를 대표 할 수 있 습 니 다!
  • 코드 점 은 바로 특정한 자모 와 관련 된 숫자 이 고 컴퓨터 세계 에서 모든 문자 에 유일한 대응 숫자 가 있다
  • .
  • UTF-8,UTF-16 은 인 코딩 표준 방안 을 말 합 니 다.예 를 들 어 utf 8 은 한 글자 가 1-4 개의 byte 로 표시 하 는 것 을 말 합 니 다!
  • utf 16 은 한 글자 에서 두 개의 16 비트 단위 의 코드 유닛 으로 표시 하 는 것 을 말한다.인 코딩 유닛 하나 로 표 시 를 할 경우 UTF-16 에 U+D800~U+DFFF 로 보류 할 수 없다 는 규정 이 있다.이 값 할당 문자 가 코드 점 으로 표시 되 지 않 았 습 니 다!2 개의 코드 유닛 이 필요 할 때 해당 하 는 고저 범위 로 표시 하기 때문이다.높 은 에이전트 범위(U+D800~U+DBFF),두 번 째 단원 은 낮은 에이전트 범위(U+DC 00~U+DFFF)에서 표시 합 니 다.
  •   String s = "\u0041\u00DF\u6771\uD801\uDC00";
            System.out.println(s.length());
            System.out.println(s.getBytes("UTF-8").length);
            System.out.println("Print out length one by one...");
            System.out.println("\u0041".getBytes("UTF-8").length);
            System.out.println("\u00DF".getBytes("UTF-8").length);
            System.out.println("\u6771".getBytes("UTF-8").length);
            System.out.println("\uD801\uDC00".getBytes("UTF-8").length);
     위 에서 5 를 출력 하면 5 개의 utf 16 인 코딩 유닛 을 표시 합 니 다!
  • 5
    10
    Print out length one by one...
    1
    2
    3
    4
    
     

  •  
     
     
    문자 인 코딩 기본 개념:
    Q:문자 가 무엇 입 니까?
    A: 문자 )추상 적 인 최소 텍스트 단위 입 니 다.그것 은 고정된 모양(하나의 자형 일 수 있 음)이 없고 값 도 없다."A'는 문자 이 고'엄'은 문자 이 며'-(독일,프랑스 와 많은 다른 유럽 국가 들 이 통용 하 는 화폐의 표지)도 문자 이다.
     
    Q:문자 집합 이 무엇 입 니까?
    A: 문자 집합(character set)은 문자 의 집합 이다.예 를 들 어 한자 문 자 는 중국인 이 가장 먼저 발명 한 문자 로 중국어,일본어,한국어 와 베트남 어 를 쓰 는 데 사용 된다.
     
    Q:인 코딩 문자 집합 은 무엇 입 니까?
    A:인 코딩 문자 집합(coded characterset)은 문자 집합 으로 모든 문자 에 유일한 숫자 를 할당 합 니 다.유 니 코드 표준 의 핵심 은 인 코딩 문자 집합 이 고 알파벳'A'의 인 코딩 은 004116 이다. 문자"-"의 인 코딩 은 20AC 16 입 니 다.유 니 코드 표준 은 항상 16 진수 숫자 를 사용 하고 쓰기 전에 접두사'U+'를 붙 이기 때문에'A'의 인 코딩 은'U+0041'로 쓰 인 다.
     
    Q:코드 점 이 무엇 입 니까?
    A: 코드 포인트(Code points)는 문자 집합 을 인 코딩 할 수 있 는 숫자 를 말한다.인 코딩 문자 집합 은 효과 적 인 코드 점 범 위 를 정의 하지만 모든 코드 점 에 문 자 를 할당 할 필 요 는 없습니다.유효한 유 니 코드 코드 점 범 위 는 U+0000 에서 U+10FFFF 입 니 다.유 니 코드 4.0 은 100 여 만 개의 코드 점 중 96,382 코드 점 에 문 자 를 분배 합 니 다.
    예 를 들 어 유 니 코드 U+20C 30 의 코드 점 은 134192 이 고 U+20C 30 과 134192 는 등가 이다.자바 에 서 는 int i=Integer.parseInt("20C 30",16)을 통과 할 수 있 습 니 다.코드 점 을 얻다.
     
    Q:보충 문자 가 무엇 입 니까?
    A: 추가 문자(Supplementary characters)는 코드 점 이 U+10000 에서 U+10FFFF 범위 사이 에 있 는 문자 입 니 다.즉,원본 유 니 코드 를 사용 한 16 비트 디자인 으로 표시 할 수 없 는 문자 입 니 다.U+0000 에서 U+FFFF 사이 의 문자 집합 은 때때로 기본 다 중 언어 면(BMP)이 라 고 불 린 다.따라서 모든 유 니 코드 문 자 는 BMP 에 속 하거나 추가 문자 에 속한다.
     
    Q:문자 인 코딩 방안 은 무엇 입 니까?
    A: 문자 인 코딩 방안(characterencodingscheme)은 하나 이상 의 인 코딩 문자 집합 에서 하나 이상 의 고정 너비 코드 유닛 시퀀스 에 대한 맵 입 니 다.가장 많이 사용 되 는 코드 단원 은 바이트 이지 만 16 비트 나 32 비트 정수 도 내부 처리 에 사용 할 수 있다.UTF-32,UTF-16,UTF-8 은 유 니 코드 표준 인 코딩 문자 집합의 문자 인 코딩 방안 이다.
     
    Q: UTF-32,UTF-16,UTF-8 은 모두 무슨 뜻 입 니까?
    A:이것들 은 모두 유 니 코드 의 인 코딩 방식 입 니 다.말하자면 어떻게 이 진 으로 유 니 코드 를 표시 하 는 지 입 니 다.
    UTF-32 는 곧 모든 유 니 코드 코드 점 을 같은 값 의 32 비트 정수 로 표시 할 것 이다.내부 처리 에 가장 편리 한 표현 임 이 분명 하지만 일반 문자열 로 표현 하면 더 많은 메모 리 를 소모 해 야 합 니 다.
    UTF-16 은 하나 또는 두 개의 할당 되 지 않 은 16 비트 코드 셀 의 시퀀스 를 사용 하여 유 니 코드 코드 점 을 인 코딩 합 니 다.U+0000~U+FFFF 인 코딩 은 같은 값 의 16 비트 단위 입 니 다.추가 문자 인 코딩 은 두 개의 코드 유닛 으로 첫 번 째 유닛 은 높 은 프 록 시 범위(U+D800~U+DBFF)에서,두 번 째 유닛 은 낮은 프 록 시 범위(U+DC 00~U+DFFF)에서 나온다.이것 은 개념 적 으로 다 중 바이트 인 코딩 과 유사 해 보일 수 있 지만 그 중에서 중요 한 차이 점 이 있 습 니 다.값 U+D800 에서 U+DFFF 는 UTF-16 에 사용 합 니 다.코드 점 으로 이 값 할당 문자 가 없습니다.이 는 하나의 문자열 에 있 는 모든 단독 코드 유닛 에 대해 소프트웨어 는 이 코드 유닛 이 특정한 단원 문 자 를 표시 하 는 지,또는 이 코드 유닛 이 특정한 쌍 단원 문자 의 첫 번 째 또는 두 번 째 단원 인지 여 부 를 식별 할 수 있다 는 것 을 의미한다.이것 은 일부 전통 적 인 다 바이트 문자 인 코딩 에 있어 현저 한 개선 이다.전통 적 인 다 바이트 문자 인 코딩 에서 바이트 값 0x 41 은 알파벳'A'를 표시 할 수도 있 고 두 바이트 문자 의 두 번 째 바이트 일 수도 있다.
    UTF-8 은 인 코딩 유 니 코드 코드 점 을 1~4 바이트 의 시퀀스 로 인 코딩 합 니 다.U+0000~U+007 F 는 하나의 바이트 인 코딩 을 사용 하고 U+0080~U+07FF 는 두 개의 바이트,U+0800~U+FFFF 는 세 개의 바이트,U+10000~U+10FFFF 는 네 개의 바이트 를 사용한다.UTF-8 디자인 원 리 는 바이트 값 0x 00 에서 0x7F 는 코드 점 U+0000 에서 U+007 F(Basic Latin 문자 부분 집합,ASCII 문자 집합 에 대응)를 나타 낸다.이 바이트 값 은 다른 코드 점 을 영원히 표시 하지 않 습 니 다.이 특성 으로 인해 UTF-8 은 소프트웨어 에서 특수 한 의 미 를 일부 ASCII 문자 에 편리 하 게 부여 할 수 있 습 니 다.
    유 니 코드 기호 범위|UTF-8 인 코딩 방식

    좋은 웹페이지 즐겨찾기