유니코드 사양서 읽기 III

2154 단어 유니코드

2. General Structure



2.1 Architectural Context



II장에서도 해설했지만, Unicode의 사양은 문자에 단지 번호를 붙이는 것만이 아니고, 그 텍스트를 어떻게 처리할까까지 밟고 있다.

기본 텍스트 프로세스



그럼 「텍스트의 처리」란 무엇인가. 대체로 아래와 같은 것.
  • 문자 그리기
  • 문자 크기, 커닝 등
  • 단어나 문장의 단락에 대해서(더블 클릭으로 선택할 수 있겠지요?)
  • 키 입력, 삽입, 삭제 등의 텍스트 파일 조작
  • 검색, 정렬 (정렬), 텍스트 비교
  • 맞춤법 검사, 형태소 분석 등
  • 텍스트 압축, 압축 해제, 송수신 등

  • Text Elements, Characters, and Text Processes



    어떤 단위로 텍스트를 다루어야 하는가? 이것은 언어와 그 처리에 따라 다릅니다.
    예를 들면 일본어라면 「가」는 「가」에 탁점이 붙은 표현을 해야 할 것이다. 한편으로 검색할 때는 「가」로 걸려 싶지 않다. 독일어라면 ß의 대용으로서 ss를 1단위로 취급하는 것이 요구되기도 한다.

    the quick brown fox



    폰트의 표시 확인에 자주 사용되는 샘플 캐릭터 라인.
    htps : // 그럼.ぃきぺぢ아. 오 rg / uuki / tee_kui ck_b 로wn_fue x_ju mps_oh r_tea_zy_dog

    독일어 ck와 k-k 정보



    Text Elements



    언어와 그 처리에 의해 혼자서 취급되어야 할 단위. 예에 열거된 word(단어), Syllable(음절), Collation Unit(?), Composite(합성 문자)

    Characters



    위의 Text Elements를 구성하는 코드 포인트가 할당된 단위입니다. 유니코드 문자(assigned characters).

    grapheme clusters



    이것은 아시아의 언어의 서자법이나 폰트 사양까지 보지 않으면 무엇을 말하고 싶은지 파악할 수 없다. 예를 들면 버마어에서는 아래의 캡쳐와 같은 것으로 1정합이 되기도 한다. 이것은 더 이상 Syllable이나 Composite라고 하는 것으로 설명할 수 없다. 이러한 것을 grapheme clusters라고합니다.

    htps : // / cs. 미 c 로소 ft. 코 m / 엔 - s / ty pog et phy / sc pt - ゔ ぉ p 맨 t /

    자세한 내용은 Unicode Standard Annex #29, “Unicode Text Segmentation,” 참조.

    Text Processes and Encoding



    여기에서는 유니코드가 특정 언어나 처리계에 특화된 것이 아님이 명기되어 있다.
    따라서 위에서 나타낸 버마어와 같은 복잡한 스크립트를 표시하거나 할 때는 유니 코드 구조만으로는 대응할 수 없으며 글꼴이나 OS 레이아웃 시스템이 필요할지도 모른다.

    좋은 웹페이지 즐겨찾기