Databricks Community Edition에서 Notebook 시작

3620 단어 Databricks

소개



Databricks는 특히 해외에서 파죽의 기세를 보여주는 데이터 분석 기반입니다.
  • 데이터 분석을 위한 통합 플랫폼
  • 2000 개 이상의 글로벌 기업이 빅 데이터 및 기계 학습 파이프 라인을 설계하는 데 사용됩니다.
  • 2020 Gartner Magic Quadrant에서 Leader로 지명 (데이터 과학 및 기계 학습 플랫폼 분야)
  • Apache Spark, Delta Lake, MLflow 개발자가 만든

  • 실제 비즈니스에서 이용한다면 아키텍처 구축과 권한 설계가 필수이지만 오픈 데이터 소스에서 우선 사용감을 시험하고 싶은 분에게 무료 플랜이 준비되어 있습니다. 유상판과 무상판의 차이는 이하와 같다(2020년 2월 시점)



    이 논문에서는 무료 버전인 Databricks Community Edition을 등록하고 Notebook을 시작하는 과정을 안내합니다.

    계정 생성



    Try Databricks로 이동하여 GET STARTED를 클릭하십시오.


    모든 항목을 입력하고 Sign Up을 클릭합니다.


    잠시 후 이 화면으로 이동합니다.


    Mead에 도착한 이메일 링크로 전환하여 비밀번호를 설정합니다 (초기 등록에서도 Reset Password가되는 것 같습니다).


    이것으로 완료. 즉시 콘솔 화면이 나타납니다.


    클러스터 만들기



    Home 화면에서 New Cluster를 클릭


    Community Edition에서는 Driver 클러스터만. Cluster Name은 선택적으로 설정합니다. Runtime Version의 경우 기존 아키텍처 및 스크립트와의 협업을 고려할 필요가 없다면 기본값으로 좋을 것입니다 (2020 년 2 월 25 일 현재 6.2).
    인스턴스는 us-west 에 일어나는 것 같습니다. 하나를 선택하고 Create Cluster를 클릭하십시오.


    조금 기다리면 여기 아이콘이 녹색으로 바뀝니다. 이제 Cluster를 준비했습니다.


    Notebook 만들기



    상단 화면에서 New Notebook을 클릭하고 원하는 이름을 입력합니다. 방금 계정을 만든 경우 이전에 만든 클러스터를 선택했을 것입니다. Create를 클릭합니다.


    즉시 노트북 화면이 나타납니다.


    사이고에게



    일정 규모 이상의 데이터를 보유하고 있고, 그 분석에 Spark 사용하고 있다면, 현시점에서는 Databricks 일택이 될까 생각합니다. 평소 Jupyter Notebook에서 분석을 하고 있는 분은 만져 두는 것만으로도 손해는 없을 것.

    참고 링크



    Databricks

    좋은 웹페이지 즐겨찾기