'천안문'필터 금지가'천안 가물가물 12200;'이라면
개요
온라인 게임에서 흔히 볼 수 있는 이름과 프로필에 입력할 수 없는 금지어.
기본적으로 초기 설치는 간단하며 이체자를 사용하면 통과할 수 있다.
天安門
의 경우天安⾨
면 필터에 걸지 않아도 됩니다.이는'문'부분이'문(u9580)'이 아닌'문 12200;(u2fa8)'이라는 또 다른 문자가 통상적인'천안문'에서 문자열 검색이 뜨겁지 않기 때문이다.
해결하다
그럼 이걸 어떻게 해결하면 좋을까요?
다양한 수단이 있지만 하나의 예로 정규 표현의 해결을 기술한다.
정규 표현식에 대응하는 예시
정규 표현식에는 일치하는 키워드 모드가 여러 개 있을 수 있습니다.
예를 들어'새우'와'얼마'를 일치시키려는 경우
창작
(えび|いくら)
을 통해 둘을 일치시킬 수 있다.천안문도 마찬가지다
(天安門|天安⾨)
문제를 피할 수 있습니다.느끼다유감!
그렇다면 천안문도 천안연 12200;도 아닌 봉화옥은?
안돼.
이번에'하늘'의 문자는'하늘(u5929)'이 아니라'목127101;(u319d)'이다.
그것은 숨바꼭질의 시작이다.
그 밖에 정규 표현식에 대응하는 예시
정규 표현식에서 한 문자 단위로 여러 개의 키워드를 가질 수 있습니다.
예를 들어'최고'와'최저'를 일치시키려는 경우
창작
最[高低]
을 통해 둘을 일치시킬 수 있다.즉 천안문
쓰기
[天㆝]安[門⾨]
를 통해 이체자에 대응할 수 있다.잘 됐다!해결!느끼다
이체자로 필터를 회피하는 것은 문제의 한 예이며, 필터의 회피 방법도 존재한다.
(한꺼번에 설명할 수 있는 것이 생각나지 않아 여기에 쓰지 않는다)
새로운 회피 전략에 어떻게 대처해야 하는지는 각양각색의 지식이 필요하다.
그리고 이 문제에 대한 조사와 대응에는 막대한 인건비가 필요하다.
정규 표현식 정보
정규 표현이 매우 재미있어서 공부하기에 매우 즐겁다.
나는 업무 중에 매우 활발하다.
참조:
정규 표현식의 견본 목록
정규 표현식 검사기
후일담(2010/09/30 추기)
유니코드를 정규화하면 된다는 평을 얻었다.
이게 뭐야!정말 교활하다!
여러분도 크롬
F12 → Esc
이 밀어낸 콘솔란에 다음 내용을 입력해 보세요!"天安⾨".match(/天安門/)
"天安⾨".normalize('NFKC').match(/天安門/)
참조:String.prototype.normalize() - JavaScript | MDN
정규화 형식의 단일 코드 정규화 행위의 차이를 살펴보다 | 분석 노트
Reference
이 문제에 관하여('천안문'필터 금지가'천안 가물가물 12200;'이라면), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://zenn.dev/yakinik/articles/d090f4ffa938adbd451f텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)