Mediapipe: 포스트 SIFT? KNIFT 특징량을 이용한 템플릿 매칭

공식 샘플 실행 절차



공식적으로 준비된 샘플은 달러 지폐의 뒷면을 감지하는 프로그램입니다.
이 동영상을 보는 한 굉장히 좋은 느낌으로 기대할 수 있습니다.

https://github.com/google/mediapipe/raw/master/mediapipe/docs/images/mobile/template_matching_android_cpu.gif

미국의 온라인 뱅크 앱에서는 수표를 카메라로 읽고 입금하는 기능도 있으며,
그러한 기능의 구현으로 이 샘플은 이대로 사용할 수 있을 것 같은 생각이 듭니다.
(단, 이 샘플 프로그램은 동영상 파일이 입력입니다.)

이 앱을 이동하는 단계는
1. 색인 생성
2. 프로그램 실행입니다.

이 인덱스 파일은 아마 고차원 벡터에 대한 인덱스일 것이다.

안드로이드에서 움직이고 싶은 사람은 Android용 단계

우분투의 경우 색인 작성 절차을 한 후에,
데스크톱 명령 실행 절차 를 하면 됩니다.

사례: 책 표지 템플릿 매칭



Mediapipe에 어제 추가된 KNIFT(학습해 만들어진 SIFT 특징량과 같은 것)를 사용한 템플릿 매칭 샘플을 실행해 보았다. 2권의 책의 이미지를 추가하면 이런 느낌을 감지할 수 있다. 이미지 좌표의 직사각형이지만. 피 c. 라고 r. 이 m/zdCtX2MwHZ — Xiong Jie (@_xiongjie_) April 23, 2020


퍼트 실행해 본 느낌, 공식 샘플의 GIF 동영상만큼 안정된 검지가 되어 있는 것처럼 보이지 않는다.

공통적으로 말할 수 있는 것은 움직임이나 오클루전에 약한 것. 공식 샘플의 동영상에서도, 화면 흔들림이나 USD가 움직이고 있을 때는, 검출이 그다지 되어 있지 않다.



원인은 아마도 (요구조사)



  • 움직일 때 흔들리고 잘 감지 할 수 없습니다
  • 오클루전이 있으면 유사도가 충분히 높아지지 않습니다
  • 반사가 크면 잘 안 된다


트래킹이 jittering하고 있는 것은, 트래킹으로 해결할 수 있을 것.



세세한 메모



  • GLOG_logtostderr=1에서 그래프의 노드 내 처리를 포함하여 로그를 제공합니다.
  • LOG(INFO) << "文字"; 에서 INFO 레벨 로그 출력
  • 카메라 동영상의 녹화에는 ffmpeg를 사용할 수 있다. 예: ffmpeg -f v4l2 -thread_queue_size 8192 -s 640x480 -i /dev/video4 -c:v h264 -b:v 768k output.mp4
  • 이미지의 크기 변환에는 convert -resize 400x600 66872238_p0.jpg 66872238_p0.png를 사용할 수 있습니다. -resize 400x600! 로 화면 비율을 저장하지 않습니다.

좋은 웹페이지 즐겨찾기