그림 문자의 읽기 (발음) 를 얻다

3844 단어 emoji
NCC Advent Calendar 2020 21일째 보도(지각)다.
디스코드에 사용되는 낭독 음성 등을 만들 때 그림문자를 읽게 하려면🤔:'생각하는 표정'처럼 그림문자와 독법의 대응표가 필요하다.
투덜거리기만 하면 찾을 수 있을 줄 알았는데 못 찾을 줄 알고 기사를 썼어요.

원시 데이터


결론적으로 유니코드.org이 사이트에 시계가 있어요.

이 테이블은GiitHub의cldr창고xml 파일를 바탕으로 한 것으로 이xml을 사용하면 됩니다.
이 xml 데이터에는 그림 문자, 짧은 이름, 키워드의 대응이 있습니다.「🤔」의 경우 짧은 이름은'생각하는 얼굴', 키워드는'생각하는 얼굴'이다.또 낭독할 때는 짧은 이름만 있으면 충분하다.

제이슨에 대한 성형


JavaScript는 xml 형식의 데이터를 처리하기 어려워서 json을 완성합니다.xml 분석 라이브러리를 사용하여 필요한 데이터만 추출합니다.
그래서 만든 것은emoji-pronunciation-ja.다음 그림에서 보여준 json 데이터입니다.

주의점


단순히 문자열만 반복하면 구상된 독법이 이루어지지 않을 수도 있다.
그림 문자와 일치하는 정규 표현식/\p{Emoji_Modifier_Base}\p{Emoji_Modifier}?|\p{Emoji_Presentation}|\p{Emoji}\uFE0F/gu으로 유명하지만 json 데이터로 일치하는 정규 표현식을 바꾸면 순조롭게 진행될 수 없습니다.
const emojiReg = /\p{Emoji_Modifier_Base}\p{Emoji_Modifier}?|\p{Emoji_Presentation}|\p{Emoji}\uFE0F/gu;

const emojiReplace = text => {
    return text.replace(emojiReg, (match => {
        return emojiAnnotation[match];
    }))
}


예를 들어, "🐈‍⬛」고양이 검은 사각 특대라고 읽습니다.「🐈‍⬛」네U+1F408 U+200D U+2B1B의.🐈」및 "⬛」의 유니코드 조합입니다.이 정규 표현식은 최근 유니코드에 해당 색상이 있는 정사각형 문자와 조합하여 색상을 변경하는 표현 방법이 추가됨에 따라 대응할 수 없습니다.그래서 결합된 그림문자가 아니라 "🐈」및 "⬛」서로 다른 그림과 문자로 조화를 이루면 이런 사태가 발생할 수 있다.
수정 방법이 아직 확립되지 않았기 때문에 가능하면 보충하고 싶습니다.
이 방면의 말은 아래의 보도에 대해 매우 상세하다.
유니버설 그림 문자에 대한 다양한 (그림 문자의 표준과 프로그램 처리)
(보충)
환경에 따라 보도된 검은 고양이의 그림 문자가 잘 드러나지 않는 것 같다.정말이야...
선명하게 보이다

표시되지 않음

총결산


유니코드는 대단한데 힘들어요.

참고물


그게 다야.

좋은 웹페이지 즐겨찾기