Databricks에서 Azure Data Lake Storage로의 연결 단계(서비스 프린터 인증)

4974 단어 AzureDatabricksadls
개요
Databricks에서 Azure Data Lake Storage(ADLS gen2)로의 액세스 단계를 요약하고 싶습니다.
1. Azure에서의 인증 방식 선택
먼저 스토리지 액세스 시 인증 방법을 결정합니다.주로 다음과 같은 세 가지가 있다.
  • 메모리 계정 키
  • SAS Token
  • 서비스 제공업체(이번에는 여기)
  • 나는 어떤 인증 방식을 사용해야 하는지를 간단하게 비교했다.(개인 주관성 포함)
    인증 방법
    범위 설정
    간편한 설치
    추천 용도
    개요
    메모리 계정 키
    전체 스토리지 계정

    개인 사용/환경 검증
    메모리 계정으로 발행된 키 사용하기
    SAS Token
    컨테이너

    환경 및 소규모 환경 검증
    각 컨테이너나 스토리지 계정에 대해 발행하거나 유효 기간을 설정할 수 있으므로 검증 환경에서 사용하기 편리합니다.
    서비스 공급자
    컨테이너

    공식 환경
    설정이 좀 복잡하긴 하지만 애플리케이션이 권한을 부여했기 때문에 여러 용기를 관리할 수 있는 등
    이번에는 서비스를 이용한 공식 인증의 설정 절차를 소개한다.
    2. Azure Data Lake Storage 제작
    그럼 바로 스토리지(Azure Data Lake Storage)를 제작하겠습니다.
    제작 순서에 관해서는 이쪽을 보세요.
    3. 서비스 선호 설정
    서비스 제공업체란 무엇입니까?
    서비스 공급업체는 Application에서 사용하는 ID를 사용하여 응용 프로그램에 액세스할 수 있도록 권한을 부여할 수 있습니다.또한 OAuth의 인증 허가를 받아 서비스 제공자를 사용하면 데이터 수소에서 저장 대상에 접근하거나 특정한 권한을 부여한 상태에서 Job을 실행할 수 있다.또한 스토리지 객체를 서비스 공급업체와 연결하기 위해 여러 스토리지 객체를 통합 관리할 수 있습니다.
    참조: 서비스 제공업체를 더 이상 두려워하지 않겠지
    서비스 템플릿 만들기
    서비스 센터 제작에 관해서는 여기 기사.를 보십시오.
    대략적인 작업 절차는 다음과 같다.
    1. Azure Active Directory 서비스에 어플리케이션 ID 새로 등록
    2. 클라이언트 기밀 배포
    3. ADLS 컨테이너에서 상기 어플리케이션 ID에 액세스 롤러 부여
    이후 데이터 축적에 사용된 서비스 제공자의 정보는 다음과 같다.
    - application_Service Principal의 Application ID
    - directory_서비스 Principal의 Directory ID
    -client Secret Key: Service Principal에서 만든 비밀 키

    참조:
    1. Azure 서비스 공급업체에서 OAuth 2.0을 사용하여 Azure Data Lake Storage Gen2에 액세스
    1. Container 수준에서 Azure Data Lake Storage 액세스 제어
    1. Azure Databricks: 3-2. Azure Data Lake Storage Gen2를 DBFS에 설치
    Databricks 액세스 방법
    Databricks 액세스 방법으로는 DBFS 및 Direct Access 를 통해 액세스할 수 있습니다.

    또한 DirectAccess의 경우 수첩에 세션 자격과 클러스터 자격을 설정하는 두 가지 방법이 있습니다.각자의 특징은 다음과 같다.
    접근 방법
    자격.
    위치 설정
    유효기간
    사용자 범위 액세스
    DBFS 경유
    노트북.
    퇴직할 때까지
    작업공간의 모든 사용자
    Direct
    세션 자격
    Notebook(매번 실행)
    Notebook 세션 진행 중
    수첩 사용자
    Direct
    단체 자격
    Cluster 설정
    Cluster 시작 중
    Cluster 사용자
    또 설정 시 계좌 키가 직접 보이지 않도록 비밀 설정을 할 수 있다.이렇게 하면 안전하게 열쇠를 관리할 수 있다.비밀 설정을 하려면 비밀 오실로그래프 설정을 추가해야 한다.자세한 내용은 이쪽 절차를 보십시오.
    견본 노트
    DBFS를 통한 액세스 설정
    DBFS를 통해 액세스할 경우 스토리지는 DBFS의/mnt 아래에 마운트됩니다.이렇게 되면 누구든지 이 저장 장치에 접근할 수 있다.또한 한 번 설정하면 umount를 하지 않으면 노트북을 닫거나 클래스를 바꿔도 접근할 수 있기 때문에 전원이 사용하는 저장 장치를 설정할 때 이 방법을 추천합니다.
    견본 노트
    Direct 액세스(세션 자격) 설정
    물론 DBFS 없이 Direct 액세스를 수행할 수도 있습니다.이런 상황에서 두 가지 방법이 있는데 하나는 노트북에 인증 설정을 하고 방문하는 세션 자격 설정, 집단에 대한 설정을 통해 전체 집단 이용자가 이용할 수 있는 집단 자격 설정이다.
    견본 노트
    Direct 액세스(클러스터 자격) 설정
    액세스 키를 클러스터의 Spark Config에 설정하면 클러스터를 사용하는 사용자가 스토리지에 쉽게 액세스할 수 있습니다.이 경우 집단의 접근 권한을 사용하여 사용자의 권한을 관리할 수 있다.
    견본 노트

    좋은 웹페이지 즐겨찾기