Azure Video Indexer 데모 요약

목적



지난 게시물에서 AWS Rekognition에 대해 가볍게 언급했습니다.
AWS Rekognition 데모 요약
이번은 실제로 Azure Video Indexer의 데모를 체험했으므로, Rekognition과 같이 사용감 등을 봐 가면 좋겠습니다.

Rekognition과의 차이



Video Indexer는 기본적으로 Rekognition과 할 수 있는 것이 같습니다. 그 때문에 차이를 설명해 갑니다.
- UI의 차이
- 대화 내용 주제
- 브랜드 인식
- 장면 분할
- 사용자 정의성
- 얼굴 분석/비교(기능이 없는 것만으로 설명은 생략합니다)

UI 차이 1



Video Indexer는 타임라인이라고 하는 UI가 있어, 보다 시간축을 의식한 제작이 되고 있습니다. 타임라인에서는 아래 그림과 같이 점점 정보를 추가할 수 있습니다.


UI 차이 2



플레이어 부의 기능이 풍부합니다. Rekognition은 재생과 음성만 제어할 수 있습니다만, Video Indexer에서는 재생 속도, 음성 해석한 단어의 자막(배경색 등도 변경 가능), 화질 설정, 전체화면, 시크썸네일과 기능이 갖추어져 있습니다. 게다가 그것을 포함 버튼으로 html화해 주었습니다.


대화 내용 주제



대화 내용에서 주제를 추출해주는 것 같습니다. 반대로 대화가 없는 이미지에는 주제가 없었습니다. 일본어의 해석은 아직도 정밀도가 나쁘고, 거기서 생긴 토픽도 정밀도가 나쁘다고 합니다.


브랜드 인식



브랜드를 등록해 두고, 관련 링크등을 설정해 둘 수 있는 것 같습니다. 동영상 광고(예: 자동차 브랜드)의 전환에 영향을 미칠 것 같습니다.


장면 분할



장면 분할은 챕터처럼 작동합니다. 키프레임은 화면의 구성이 변경점을 잘라 주는 듯한 움직임으로 보이고 시크섬 네일에서도 이용하고 있는 이미지 같았습니다.


사용자 정의 1



브랜드 인식도 마찬가지입니다만, 모델을 확장할 수 있는 것 같습니다. Rekognition에서는 확장성은 보이지 않았기 때문에, ML 시점에서 보면 여기는 큰 차이일지도 모릅니다.


사용자 정의 2



아마도 동영상을 클리핑할 수 있는 기능인 것 같습니다. 추출 방법은 분석된 메타를 이용할 수 있는 것 같았다. 동영상 편집하는 경우는 필요하다고 생각합니다만, 완패케를 전달하는 서비스에서는 특별한 필요는 느끼지 않았습니다.


보충 정보



해석 시간에 대해서는 640x480의 1분 정도의 척의 동영상을 해석하는데 6분 정도 걸렸습니다.
Rekognition과 달리, Suggestive는 리뷰 대상이라는 형태로 표현됩니다. 수상한 동영상은 Microsoft 측에 리뷰 요청해야 합니다. 다만 일본어의 정밀도가 낮음에 따라 이쪽의 판정 정밀도도 나쁘다고 느꼈습니다.


요약



Video Indexer의 기능을 보면 Rekognition은 이미지 해석으로부터 끝을 발하는 감이 강한 인상이었습니다. 얼굴 분석/비교 기능의 유무는 그 근처에 있을 것 같습니다. 동영상에 스코프를 짜는 경우는 Video Indexer 쪽이 고기능으로 느꼈습니다.

좋은 웹페이지 즐겨찾기