유니코드 사양서 읽기 III

2. General Structure

2.1 Architectural Context

II장에서도 해설했지만, Unicode의 사양은 문자에 단지 번호를 붙이는 것만이 아니고, 그 텍스트를 어떻게 처리할까까지 밟고 있다.

기본 텍스트 프로세스

그럼 「텍스트의 처리」란 무엇인가. 대체로 아래와 같은 것.

문자 그리기

문자 크기, 커닝 등

단어나 문장의 단락에 대해서(더블 클릭으로 선택할 수 있겠지요?)

키 입력, 삽입, 삭제 등의 텍스트 파일 조작

검색, 정렬 (정렬), 텍스트 비교

맞춤법 검사, 형태소 분석 등

텍스트 압축, 압축 해제, 송수신 등

Text Elements, Characters, and Text Processes

어떤 단위로 텍스트를 다루어야 하는가? 이것은 언어와 그 처리에 따라 다릅니다.
예를 들면 일본어라면 「가」는 「가」에 탁점이 붙은 표현을 해야 할 것이다. 한편으로 검색할 때는 「가」로 걸려 싶지 않다. 독일어라면 ß의 대용으로서 ss를 1단위로 취급하는 것이 요구되기도 한다.

the quick brown fox

폰트의 표시 확인에 자주 사용되는 샘플 캐릭터 라인.
htps : // 그럼.ぃきぺぢ아. 오 rg / uuki / tee_kui ck_b 로wn_fue x_ju mps_oh r_tea_zy_dog

독일어 ck와 k-k 정보

Text Elements

언어와 그 처리에 의해 혼자서 취급되어야 할 단위. 예에 열거된 word(단어), Syllable(음절), Collation Unit(?), Composite(합성 문자)

Characters

위의 Text Elements를 구성하는 코드 포인트가 할당된 단위입니다. 유니코드 문자(assigned characters).

grapheme clusters

이것은 아시아의 언어의 서자법이나 폰트 사양까지 보지 않으면 무엇을 말하고 싶은지 파악할 수 없다. 예를 들면 버마어에서는 아래의 캡쳐와 같은 것으로 1정합이 되기도 한다. 이것은 더 이상 Syllable이나 Composite라고 하는 것으로 설명할 수 없다. 이러한 것을 grapheme clusters라고합니다.

htps : // / cs. 미 c 로소 ft. 코 m / 엔 - s / ty pog et phy / sc pt - ゔぉ p 맨 t /

자세한 내용은 Unicode Standard Annex #29, “Unicode Text Segmentation,” 참조.

Text Processes and Encoding

여기에서는 유니코드가 특정 언어나 처리계에 특화된 것이 아님이 명기되어 있다.
따라서 위에서 나타낸 버마어와 같은 복잡한 스크립트를 표시하거나 할 때는 유니 코드 구조만으로는 대응할 수 없으며 글꼴이나 OS 레이아웃 시스템이 필요할지도 모른다.

Reference

이 문제에 관하여(유니코드 사양서 읽기 III), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/gnagaoka/items/1b919dfbf9aa1374213f

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다