실시간 카메라 영상＋Google Cloud Vision 2:LABEL_DETECTION

이게 뭐야?

카메라 이미지에 무엇이 비치고 있는지 (Label)를 표시하는 일반적인 프로그램.
「실시간의 카메라 영상＋Google Cloud Vision(＋OpenCV)」의 샘플 코드가 발견되지 않았으므로, 투고.

무엇이 비치고 있는지 추출하는 엔진은 Google Cloud Vision API(LABEL_DETECTION)를 이용. SDK가 아닌 REST 버전.

그 외는 그 1：FACE_DETECTION 와 함께

환경

Windows 7

OpenCV 3.4.1

Python 2.7.15

Google Cloud Vision SDK가 3계 비대응이므로, 어쩔 수 없이 2.7을 이용중. (이번에는 SDK를 사용하지 않지만)

참고로 한 자료

Python에서 Google Cloud Vision을 사용한 얼굴 감지

Google Cloud Vision API를 호출하는 부분의 코드는 여기를 참조합니다. (원문은 FACE_DETECTION이지만 API를 두드리는 방법은 함께)

코드

sample.py

#! /usr/bin/python
# -*- coding: utf-8 -*-

# Google Cloud Vision API：LABEL_DETECTION

import sys
import base64
import cv2

from requests import Request, Session
import json
import time
import threading

# GCPのAPIキー
api_key = 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX'

# 検出する顔の数の最大数 (増やすとレスポンスが遅くなる）
max_results = 5

# END POINTS
DISCOVERY_URL = 'https://vision.googleapis.com/v1/images:annotate?key='

# cv画像と画像ファイルへのPathと検出最大数が引数
def googleAPI(img, max_results):
    # 通信不良等を考慮してTry/expectしておく
    try:
        # カメラ画像をJPG画像へ変換
        retval, image = cv2.imencode('.jpg', img)

        # Headerやpayload
        str_headers = {'Content-Type': 'application/json'}
        batch_request = {'requests': [{'image': {'content': base64.b64encode(image)}, 'features': [{'type': 'LABEL_DETECTION', 'maxResults': max_results, }]}]}

        # セッション作ってリクエストSend
        obj_session = Session()
        obj_request = Request("POST", DISCOVERY_URL + api_key, data=json.dumps(batch_request), headers=str_headers)
        obj_prepped = obj_session.prepare_request(obj_request)
        obj_response = obj_session.send(obj_prepped, verify=True, timeout=180)

        # Responseからjsonを抽出
        response_json = json.loads(obj_response.text)

        # return
        return response_json

    except:
        return img, ""

class googleApiThread(threading.Thread):
    def __init__(self):
        threading.Thread.__init__(self)
        self.return_value = None   # RETURN VALUE
        self.frame = None
        self.flagStop = True # TRUE = LOOPし続ける
        self.processTime = 0.0

    def run(self):
        # ちゃんとしたカメラ画像が格納されるまで少しWait
        # カメラ画像が格納されないうちにgoogleAPIを呼び出すと、cv2.imencodeがExceptionとなる。。
        time.sleep(1)

        while(self.flagStop):

            # 処理時間を測定
            timeStart = time.time()

            # Google Cloud Vision APIの呼び出し
            self.return_value = googleAPI(self.frame, max_results)

            # debug
            # print(self.return_value)

            timeEnd = time.time()
            self.processTime = timeEnd - timeStart

    def set_frame(self, frame):
        self.frame = frame

    def set_stopFlag(self):
        self.flagStop = False

    def get_value(self):
        return self.return_value

    def get_processTime(self):
        return self.processTime

if __name__ == '__main__':
    # カメラ映像の取り込みスタート
    cap = cv2.VideoCapture(0)

    # 別Threadの起動
    threadGoogleApi = googleApiThread()
    threadGoogleApi.start()

    while(True):
        ret, frame = cap.read()

        # 別スレッドの認識処理の画像を更新
        threadGoogleApi.set_frame(frame)

        # 別スレッドの最新の処理結果を受け取る（1秒に1回ぐらいしか更新されないけど）
        response_json = threadGoogleApi.get_value()
        processTime = threadGoogleApi.get_processTime()

        # 'labelAnnotations'があれば何かラベルを検出した
        if response_json is not None:
            if 'labelAnnotations' in response_json['responses'][0]:
                labels = response_json['responses'][0]['labelAnnotations']

                count = 0
                for label in labels:
                    # ラベルを表示（画像に書き込み）
                    cv2.putText(frame, str(label['description']), (0, 80 + 30 * count), cv2.FONT_HERSHEY_PLAIN, 2, (255, 255, 255), 2, cv2.LINE_AA)
                    count += 1

        # 処理速度を表示（画像に書き込み）
        cv2.putText(frame, str('%03.1f' % processTime) + " sec", (0, 30), cv2.FONT_HERSHEY_PLAIN, 2, (255, 255, 255), 2, cv2.LINE_AA)

        cv2.imshow("camera image", frame)
        if cv2.waitKey(1) == 27:    # ESCキーで終了
            break

    # 終了処理
    threadGoogleApi.set_stopFlag()
    cap.release()

실행 결과

추출된 라벨이 표시됩니다. 상당한 인식률!

water(물)

bottle (병)

plastic bottle(페트병)

product(제품)

유리 병 (유리 병)

왼쪽 상단의 숫자는 Google Cloud Vision의 처리 시간. 한 번에 1~2초가 걸려 실시간성은 낮다.
배치 용입니까?

Reference

이 문제에 관하여(실시간 카메라 영상＋Google Cloud Vision 2:LABEL_DETECTION), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/45lb_plates/items/fc78a1ecae3d3689ebc1

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다