Docker에 Apache Zeppelin + Apache Spark + Python (Keras, TensorFlow) 환경을 만들어 보았습니다.

목적

Apache Zeppelin with Apache Spark + Python(Keras, TensorFlow) over Docker

현재 작업에서 Apache Spark를 사용하여 데이터를 정리하고 집계하고 통계를 수행하고 있지만 쉘이나 프로젝트에서 데이터를 정형화하고 통계를 작성하면 무엇이 무엇인지 모르기 때문에 GUI에서 대화 형 도구로 사용됩니다. 를 이용하고 있다.

Apache Zeppelin

notebook로서 처리를 정리할 수 있으므로 꽤 편리하다.
(ipython의 Spark 전문 버전과 같은 것)

또한 Apache Zeppelin은 docker에서 작동합니다.
(처리가 완전 분산 모드로 동작하는 spark에 던져 있기 때문에, zeppelin 자체의 리소스는 그다지 필요하지 않기 때문에)

이 환경에서는 데이터의 클렌징·집계·통계 작업을 손쉽게 실시할 수 있지만 기계 학습의 환경 정비는 아직 되어 있지 않다.
특히 DNN을 사용하고 싶은 경우, Spark MLlib에서는 대응하고 있지 않기 때문에 다른 라이브러리가 필요하다.

그래서 위의 환경에 Python(Keras, TensorFlow)을 추가하여 클렌징, 집계, 통계, 기계 학습까지 단번에 실시할 수 있는 환경으로 한다.

상정하고 있는 처리 분담은 이하와 같다.
- 클렌징 : Spark(Scala)
- 집계 : Spark SQL
- 통계 : Spark SQL
- 기계 학습 : Spark MLlib, Python(Keras, TensorFlow)

D-Zeppelin

Apache Zeppelin with Apache Spark + Python (Keras, TensorFlow) over Docker를 D-Zeppelin으로

사용법은 Readme를 읽으십시오.
(hive의 metasotre를 다루는 데 어려움을 겪었습니다 ...)

미래

D-Zeppelin의 GPU 대응과 환경이 생겼기 때문에 실제로 환율 예측을 시작하고 싶습니다.

Reference

이 문제에 관하여(Docker에 Apache Zeppelin + Apache Spark + Python (Keras, TensorFlow) 환경을 만들어 보았습니다.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/tw_trader1/items/e624aebb30457c702572

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다