웨이브 대시, 전각 틸더 문제 요약

3246 단어 문자 코드

애초에 파도 대시와 전각 물결이란?



웨이브 대시 ~


  • 0x8160(Shift_JIS)
  • 0x301C(UTF-8)
  • WAVE DASH(유니코드 포인트 : U+301C)

  • 일본어 문자
  • 범위를 나타낸다 : 오사카 ~ 도쿄 등
  • 줄임표 : ~ 에서

  • 전각 칠다 ~


  • Shift_JIS에는 없습니다
  • 0xFF5E(UTF-8)
  • FULLWIDTH TILDE(유니코드 포인트 : U+FF5E)

  • 다양한 의미의 문자
  • 알파벳 위에 붙여서 비음을 나타냅니다 : ñ
  • 수학 기호 (거의 같음 의미)
  • 홈 디렉토리를 나타내는 기호 : ~/download

  • 유니코드 측의 파 대시 할당 실수



    Shift_JIS의 파 대시를 유니 코드에 할당 할 때,
    웨이브 대시의 형태를 잘못해서 "내려 올라간다"라고 표기해 버렸다

    ※ unicode 8.0에서 수정되었습니다. → 유니코드의 WAVE DASH 예시자형이 25년 만에 수정된 이유 - INTERNET Watch

    Windows XP 이전 환경에서는 그에 따라 파 대시를 표시하기 때문에 다른 환경과 표시가 다릅니다.

    Windows XP 이전 환경의 각 표기법


  • 웨이브 대시 0x301C(UTF-8) : 잘못된
  • 전각 틸더 0xFF5E(UTF-8) :

  • Windows XP 이전의 환경에서는 파 대시의 의미로 전각 틸더가 사용된다



    파 대시를 입력하려고 '에서'을 변환하면 전각 틸더가 출력된다
  • 착각인지 위의 실수로 외형이 의도 한 것과 다른 것을 피하고 싶었는지 ... 불명

  • 파 대시 (0x8160)를 UTF-8로 변환하면 CP932와 Shift_JIS에서 변환 결과가 다른 구현이 있습니다.


  • 다양한 구현마다 상당히 마을 거리가 문제
  • 이 때문에, Shift_JIS 와 UTF8 를 오가거나 하는 환경이라면, 도중에, 파 대시가, 전각 틸더로 바뀌거나, 전각 틸더를 Shift_JIS 로 해석하려고 해, 존재하지 않는 문자 취급이 되거나 한다
  • 예를 들어 HTML 문자 코드가 Shift_JIS이고 내부 환경이 UTF-8 웹 서비스입니다.

    참고 : iconv 변환 규칙




    원래 문자 코드
    변환 전 문자
    변환 후 문자


    CP932
    웨이브 대시(0x8160)
    전각 틸더(0xFF5E)

    Shift_JIS
    웨이브 대시(0x8160)
    웨이브 대시(0x301C)


  • libiconv/lib/cp932.h

  • 어쩌면 Windows 환경에서 전각 물결 모양이 파 대시로 취급되는 것을 고려합니다.

    참고


  • 웨이브 대시 - Wikipedia
  • 문자 코드 정보(시프트 JIS 문제)
  • bnoordhuis/libiconv
  • 좋은 웹페이지 즐겨찾기