Docker에 Apache Zeppelin + Apache Spark + Python (Keras, TensorFlow) 환경을 만들어 보았습니다.

목적



이전 게시물 에서 QRNN에서 혼돈 시계열 데이터 예측 시도했다.

Apache Zeppelin with Apache Spark + Python(Keras, TensorFlow) over Docker



현재 작업에서 Apache Spark를 사용하여 데이터를 정리하고 집계하고 통계를 수행하고 있지만 쉘이나 프로젝트에서 데이터를 정형화하고 통계를 작성하면 무엇이 무엇인지 모르기 때문에 GUI에서 대화 형 도구로 사용됩니다. 를 이용하고 있다.

Apache Zeppelin

notebook로서 처리를 정리할 수 있으므로 꽤 편리하다.
(ipython의 Spark 전문 버전과 같은 것)

또한 Apache Zeppelin은 docker에서 작동합니다.
(처리가 완전 분산 모드로 동작하는 spark에 던져 있기 때문에, zeppelin 자체의 리소스는 그다지 필요하지 않기 때문에)

이 환경에서는 데이터의 클렌징·집계·통계 작업을 손쉽게 실시할 수 있지만 기계 학습의 환경 정비는 아직 되어 있지 않다.
특히 DNN을 사용하고 싶은 경우, Spark MLlib에서는 대응하고 있지 않기 때문에 다른 라이브러리가 필요하다.

그래서 위의 환경에 Python(Keras, TensorFlow)을 추가하여 클렌징, 집계, 통계, 기계 학습까지 단번에 실시할 수 있는 환경으로 한다.

상정하고 있는 처리 분담은 이하와 같다.
- 클렌징 : Spark(Scala)
- 집계 : Spark SQL
- 통계 : Spark SQL
- 기계 학습 : Spark MLlib, Python(Keras, TensorFlow)

D-Zeppelin



Apache Zeppelin with Apache Spark + Python (Keras, TensorFlow) over Docker를 D-Zeppelin으로

사용법은 Readme를 읽으십시오.
(hive의 metasotre를 다루는 데 어려움을 겪었습니다 ...)

미래



D-Zeppelin의 GPU 대응과 환경이 생겼기 때문에 실제로 환율 예측을 시작하고 싶습니다.

좋은 웹페이지 즐겨찾기