자막 생성 모델에 글꼴 이미지 만들기

원문
Deep neural networks are easily fooled High confidence predictions for unrecognizable images
DNN의 내용을 이해하기 위해 인류가 이해할 수 없지만 99% 이상의 confidence에서 DNN으로 분류된 이미지를 생성했다.
예를 들면 다음과 같다.


(논문 참조)
generating 모델에도 이fooling 이미지를 생성해 보십시오.

일반 설명 생성 예


이런 느낌.

말의 초상화를 넣으면 이런 제목이 나오는데 말 같은 것이 두 마리 보이는 것 같다.
단어의 출현 확률에 따라 문장의 출현 확률을 계산해 쉽게 출현하는 문장 3개를 보여준다.
왼쪽의 숫자가 작을수록 이 그림에 대해 더 적절한 문장으로 판단됩니다.
(실제로 모든 단어의 소프트맥스 대수의 합을 나타내는 기호 반전은 단어 수로 나눈다)
또한 픽셀 값을 무작위 이미지에 넣으면 다음과 같은 문장이 생성됩니다.

문장이지만 숫자가 커서 그림에 무엇이 있는지 판단할 수 없다는 뜻이다.

결과 생성


아무튼 잘 만들어졌어요.


두 장이 생성되었다. 둘 다 인간이 무엇인지 몰랐고, 기계는 높은 확률로 말에 관한 문장을 생성했다. (= 숫자는 앞의 예보다 작다)
디렉터리 인코딩, 이미지 픽셀을 직접 유전자로
아래: indirect encoding, 픽셀 간의 관련성
논문에서 indirect encoding의 도안은 매우 아름답다. 예술로 전시된 것으로 알려졌지만 NN을 신속하게 제작하고 관련시키는 것은 순조롭지 않다.

왜 그래?


어떤 문장의 생성 확률을 높이기 위해 이미지를 진화시킨다.
최초의 예에서 생성된 문장의 맨 위에 있는
"a couple of horses are standing in a field"
선택, 이 문장의 생성 확률을 높이고 이미지를 진화시키기 위해.
매번 8개의 새로운 개체를 생성하고 8개의 우수한 개체를 남기면directencoding은 300대 정도에 이런 결과를 얻었다.

모델 생성 정보


이번에 제목 생성 모델 쇼, Attend and Tell에 대해 fooling image를 생성했습니다.
모델 COCO의 BLEU 값은 0.689/0.503/0.359/0.255입니다.

총결산


우리는 성공적으로 진화 알고리즘을 사용하여 fooling 이미지를 생성하여 모델을 생성하는 문장의 생성 확률을 높였다. 이 이미지는 같은 CNN으로 학습한 다른 모델에도 fooling이 가능한가.

좋은 웹페이지 즐겨찾기