위대한 유산 - 튜토리얼

배터리 포함 데이터 유효성 검사를 제공하는 Python 도구인 Great Expectations 사용에 대한 간략한 자습서입니다. 여기에는 데이터 테스트, 프로파일링 및 문서화를 위한 도구가 포함되며 pandas 데이터 프레임, Apache Spark, SQL 데이터베이스, Snowflake와 같은 데이터 웨어하우징 솔루션, 클라우드 스토리지 제품(S3, Azure Blob Storage, GCS)과 같은 많은 백엔드와 통합됩니다. 이 자습서에서는 Great Expectations를 사용하기 위해 알아야 할 주요 개념을 다루며 첫 번째 기대 제품군을 작성하고 실행하는 과정을 부드럽게 안내합니다.

온라인 읽기

함께 읽고 싶다면 저장소에서 tutorial_great_expectations.ipynb 을 열면 됩니다. 모든 중요한 출력물을 온라인에서 사용할 수 있도록 했습니다.

자신의 컴퓨터에서 아무 것도 실행하지 않고 자습서를 실행하려면 open it in Google Colab .

도커를 사용하여 실행

docker가 설치되어 있으면 컨테이너를 가져와서 자습서를 실행할 수 있습니다.

docker pull dataroots/tutorial-great-expectations && docker run -it --rm -p 8888:8888 dataroots/tutorial-great-expectations

또는 이 리포지토리를 복제하고 컨테이너를 직접 빌드합니다.

docker build . -t tutorial-great-expectations && docker run -it --rm -p 8888:8888 tutorial-great-expectations``

그런 다음 출력의 마지막 줄에 있는 URL을 원하는 웹 브라우저에 복사하여 붙여넣고 tutorial_great_expectations 노트북으로 이동합니다. 타고 즐기십시오!

도커 없이 실행

자신의 컴퓨터에서 자습서를 실행하려면 virtual environment 을 사용하는 것이 좋습니다.
  • 저장소 복제
  • 종속성을 설치합니다: pip install -r requirements.txt .
  • 루트 디렉토리에서 jupyter notebook를 실행합니다. 그런 다음 tutorial_great_expectations 노트북으로 이동합니다.
  • AttributeError: module 'great_expectations' has no attribute data_context 가 표시되면 Great Expectations가 설치되지 않은 것일 수 있습니다. 이 문제를 해결하려면 커널이 설치되어 있는지 확인하고 커널을 다시 시작하십시오.



    감사의 말

    Hass Avocado Boardhttps://hassavocadoboard.com/volume-data-projections/에서 제공한 아보카도 데이터 세트.

