임의 문자열 식별
보충하여 기록하다
목표
무작위 문자열의 생성은 매우 간단하지만 (정말 무작위 등 번거로움이 없다면) 어떤 문자열을 지정할 때 이 문자열이 무작위 문자열인지 아닌지를 판정하고 싶습니다.
이번 처리의 무작위 문자열 정의
무작위 문자열의 특징과 검증
발생 빈도 확인
읽을 수 있는 검증
의미 있는 검증
우리는 상태 이동 모델로 고려한다
$P =\prod_{i,\j}{p_{i,\j}}$
이동 확률로 무엇을 볼 수 있는가
해봤어요.
이동 확률을 구하는 절차와 평가를 진행했다.
실시
실험
이것은 중학교 영어 단어 일람표에서 학습하여 적당한 입력을 한 결과입니다. 영어 단어와 다른 적당한 문자열은 분리되어 보입니다. 검증은 훈련과 테스트를 엄격하게 구분해야 하지만 대상은 언어입니다. 훈련과 많이 다른 신조어가 자주 생성되지 않는다는 가설은 유사도 판정을 목적으로 합니다.나는 일정한 성능이 있다고 생각한다.
입력
확률
apple
0.09252656
blue
0.06042812
difficualt
0.00774749
nvjhyhjnajas
0.00018930
zf3cd
0.00055871
가명
0.00000661
또 영어 단어에 관해서는 모든 영어 단어를 모은 자료고dwyl/english-wordsn가 있기 때문에 영어 단어에 관해서는 이걸로 공부하면 문제가 없을 것 같다. 또 일본어 단어의 좋은 목록을 찾지 못했다.
실험2(추가, 2019/06/12)
상기 영어 단어 데이터dwyl/english-wordsn를 사용하여 학습한 모델로 중학교에서 학습한 영어 단어(약 500개 단어)와 같은 수량의 무작위로 생성된 영어 문자열의 확률을 계산했다.
총결산
이 랜덤 판정은 다른 분류 문제의 특징량 중 하나가 될 수 있는지 계산하는 것이다. 실제로 이 랜덤 판정에 편입되어 분류 문제를 진행했지만 좋은 결과를 얻었기 때문에 나쁜 방법은 아니라고 생각한다.
PyPI 등록됨(추적, 2019/06/05)
이 이동 확률을 pip install로 계산하기 위해 등록해 보았습니다texttrans · PyPI. 영어 단어는 이미 배워서 공개했습니다. 일본어에 좋은 데이터가 있으면 추가할 것입니다.$ pip install texttrans
from texttrans.texttrans import TextTrans
p = TextTrans().prob("pen")
print(p) # 0.11640052876679541
Reference
이 문제에 관하여(임의 문자열 식별), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/mitsuharu_e/items/309288b68220adddaf8b
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
$ pip install texttrans
from texttrans.texttrans import TextTrans
p = TextTrans().prob("pen")
print(p) # 0.11640052876679541
Reference
이 문제에 관하여(임의 문자열 식별), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/mitsuharu_e/items/309288b68220adddaf8b텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)