Cloud Pak for Data 가상화 Google BigQuery의 테이블 액세스

11945 단어 BigQuerycp4d
Cloud Pak for Data(CP4D)는 IBM의 통합 데이터 플랫폼입니다.Openshift에서 가져온 SW 버전과 IBM Cloud의 SaaS 버전이 있습니다.
각 기능 측면에서 SW판의 기능이 비교적 풍부하고 SaaS 버전의 기능이 그 뒤를 바짝 따른다.
이번에는 OpenShift에 구축된 CP4D v3입니다.Google BigQuery의 테이블에 대한 가상화 액세스 방법은 다음과 같습니다.
가상화(Data Virtulization)가 2021년 7월 7일 사아스 에디션에서도 시행됐지만, 공짜 라이트 프로그램 없이 유료 프로그램으로만 이용할 수 있어 아쉽다.

1. 데이터 가상화?


데이터 가상화는 데이터를 복제하지 않고도 데이터를 제공할 수 있는 CP4D의 대표적인 기능이다.여러 DB의 다양한 양식을 활용해 분석 처리와 머신러닝을 하고 싶을 때 CP4D로 데이터 가상화를 하면 CP4D를 통해 가상화 서비스에 접근할 수 있는 사용자라면 각 DB의 연결 설정을 몰라도 데이터에 접근할 수 있다.
이전 방법이라면 각 DB 관리자에게 데이터 접근권을 신청해 연결 정보를 얻거나 추출한 CSV 등을 받을 시간이 필요했지만, CP4D의 가상화된 데이터 소스 관리자가 데이터 소스를 집중적으로 설정하면 CP4D 내 접근 관리가 완료된다.
또 CP4D를 통해 가상화 서비스에 접근할 수 있는 사용자라면 외부의 BI 도구 등에서도 DB2의 JDBC 연결을 통해 가상화 데이터에 접근할 수 있다.
가상화 가능한 DB(v3.5): (2021/05/19 현재)

또 여기에는 설명이 없지만, CP4D 내 왓슨 Knowledge Catalog와 협업을 통해 디렉터리에 로그인한 정보를 데이터 가상화 기능에 간단하게 활용하거나 데이터 마스크 등 프라이버시 설정을 계승할 수 있다.

2. Google BigQuery를 사용하여 서비스 계정 만들기


다음의 MEMBER 테이블을 데이터 세트 S로 사용하기 위해 모래상자CUSTOMER에서 제작되었습니다.이 테이블을 가상화합니다.

연결 정보를 설정하기 위해 서비스 계정을 만듭니다.기존 서비스 계정을 사용하려면 이 프로그램을 건너뛰십시오.

2-1. Google Cloud Constore에 로그인하여 화면 왼쪽 위에 있는 메뉴에서 IAM 및 관리 → 서비스 계정을 클릭하십시오.



2-2. 위의 "+ 서비스 계정 만들기" 를 클릭하십시오



2-3. 서비스 계정 상세 정보 작성

サービス アカウント名, "만들기"를 클릭

2-4. 역할 설정


역할 선택BigQuery 管理者에서 을 선택하고 계속을 클릭합니다.


2-4. 완료를 클릭합니다.



만든 서비스 계정을 표시합니다.

2-5. 창설된 서비스 계정 조작을 클릭하고 "관리 키" 를 누르십시오



2-6. 화면에서 "키 추가" - "새 키 만들기" 클릭



2-7. 키 유형 "JSON", "만들기"를 클릭


나중에 파일 저장 대화 상자가 표시됩니다. 나중에 알 수 있는 곳에 저장하십시오.

Google BigQuery 에서 수행한 작업입니다.

3. CP4D: 가상화 데이터 소스 설정


여기서부터 CP4D로 일해요.

3.1. 메뉴에서 데이터 가상화를 선택합니다.




3-2. 데이터 소스 창에서 데이터 소스 추가 - 새 연결 생성 을 클릭합니다.


플랫폼 접속에 이미 정의되어 있는 경우 기존 접속 선택에서 정의할 수도 있지만 여기서는 설명하지 않습니다.

'데이터 원본' 화면이 나타나지 않으면 제목 옆에 있는 갈고리 모양을 누르고 메뉴를 열고 '데이터 원본' 을 선택하십시오.
이 메뉴에 '데이터 원본' 표시가 없으면 권한이 없습니다. 관리자에게 문의하십시오.

3-3. 새 연결 창에서 Google BigQuery 를 클릭합니다.



3-4. 새 Google BigQuery 창에 데이터 소스 정보를 입력한 후 만들기 를 클릭합니다.

  • 이름: 임의의 이름.다음 예에서 Qiita BQ
  • 자격정보: 편집기 등을 열어 2-6으로 다운로드한 파일을 표시하고 내용을 복사한다.

  • 3-5. [원격 커넥터에 추가(옵션)] 화면에서 [건너뛰기]를 클릭합니다.



    연결이 성공하면 데이터 원본 목록에 안전하게 표시됩니다.

    4.CP4D: Google BigQuery의 테이블 가상화


    이제 CP4D 가상화 Google BigQuery의 테이블에 액세스하십시오.
    데이터 가상화 화면이 아닌 경우 "3-1. 메뉴에서 데이터 가상화 선택" 단계에 따라 화면을 데이터 가상화 화면으로 설정합니다.

    4-1. 데이터 가상화 메뉴에서 "가상화"를 클릭


    데이터 가상화 메뉴는 이해하기 어려우니 페이지 제목(여기データ・ソース) 오른쪽 표시를 눌러 보십시오.


    4-2. 가상화할 양식을 검토하여 카트에 추가


    추가된 데이터 원본에서 접근할 수 있는 표를 표시합니다.
    이번에는 하나뿐입니다. 여러 개가 나타나지 않으면 데이터베이스로 필터를 하거나 검색 창에 표 이름을 넣어서 축소합니다.


    책상 오른쪽 눈동자테이블 컨텐트를 미리 보려면 태그를 클릭합니다.

    MEMBER 양식을 가상화하고 싶으므로 체크하고 "카트에 추가"를 클릭하십시오.

    4-3. 디스플레이 카드


    "카트 표시"를 클릭하여 카트를 표시합니다.

    가상화 테이블의 이름과 패턴을 변경할 수 있습니다. (이번에는 변경하지 않습니다.)또한 오른쪽의 세로 메뉴에서 열 이름을 미리 보거나 편집하거나 카트에서 테이블을 삭제할 수 있습니다.

    '표 편집' 을 눌러 보세요.
    열 이름을 편집하거나 일본어의 열 이름으로 수정할 수 있습니다.
    열을 선택할 수도 있고, 필요하지 않은 열은 선택을 취소할 수 있어 가상화 후의 표를 피할 수 있다.
    변경 후 "적용"을 클릭하세요.
    이 부분은 수정하지 않고 '취소' 로 닫습니다. (위의 검은색 취소를 누르십시오.)

    4-4. 가상화 구현


    가상화를 수행하려면 가상화를 클릭합니다.

    다음 화면이 나왔습니다. 성공했습니다!"자신의 가상화 데이터 표시"를 클릭하여 확인하세요.

    자신의 가상 데이터에 표 이름을 표시합니다.미리보기에서 보세요.

    Google BigQuery의 테이블이 CP4D로 가상화되어 액세스되었습니다.

    또한 이'자신의 가상화 데이터'화면은 데이터 가상화 메뉴에서'자신의 가상화 데이터'를 클릭하여 표시할 수 있다.

    시계 하나만 보면 Google Big Query에 직접 방문하면 되지 않을까요?이렇게 생각할 수 있지만 이 가상화된 표는 일반 Db2의 표와 마찬가지로 가상화된 다른 표와 JOIN의 보기를 만들 수도 있고 외부의 BI 도구에서 접근할 수도 있습니다.
    가상화 후에는 Google BigQuery의 표, Db2의 표, Oracle DB의 표 등 3개의 JOIN을 참조할 수 있다는 것이다.
    또 CP4D 내 디렉토리에 게재하거나 프로젝트와 공유할 수 있기 때문에 CP4D의 사용자 ID와 CP4D에 대한 적절한 권한이 있으면 구글 빅쿼리에서 권한이 없어도 간단하게 데이터 접근이 가능하다.

    5. 외부 도구에서 CP4D 가상화 DB에 액세스


    CP4D 이외의 도구에서 CP4D 가상화 DB에 액세스해 보십시오.

    5-1. 권한 확인


    가상화된 본인 ID를 사용하지 않으면 데이터 가상화 메뉴에서 사용자 관리를 클릭하여 사용자의 추가에서 ID를 추가하십시오.


    5-2. 접속 정보 확인


    CP4D 가상화 DB에 대한 연결 정보를 데이터 가상화 메뉴에서 "연결 상세 정보"를 누르면 표시됩니다.

    오른쪽에는 Db2의 연결 정보로 쓰여 있으며, Db2에 연결할 수 있는 도구라면 데이터를 연결하고 참조할 수 있습니다.(이번에는 SSL 연결 없음)

    5-3. 연결 시도


    OSS의 DB ToolDBeaver에서 연결합니다.

    테이블 목록을 표시할 수 없지만 SQL 실행이 실패한 이유

    그게 다야.

    좋은 웹페이지 즐겨찾기