Polynote 사용하기
Polynote란?
Polynote 은 요 전날 Netflix가 공개했습니다. notebook입니다.
Jupyter Notebook과 같은 것이라고 생각하면 이미지하기 쉽다고 생각합니다.
현재는 Scala, Python, SQL 에 대응하고 있어, 셀 마다 구분할 수 있는 것이 특징적입니다.
이번에는 환경 구축을 해 간단한 코드를 움직이는 것을 목표로 해 갑니다.
환경 구축
macOS Catalina에서 작동하는지 확인했습니다.
공식 문서 참고.
스파크
Apache Spark가 필요합니다.
영어이지만 이 블로그이 매우 도움이되었습니다.
필자의 경우는 이미 JVM이나 Scala를 넣고 있었으므로, Spark의 인스톨 부분만 했습니다.
Java는 Java8을 선택하는 것이 무난하다고 생각합니다. cf. Stack Overflow: spark-2-4-java-11-compatibility
파이썬
Python3과 pip3이 필요하므로 설치해 둡시다.
여러 종속 패키지를 설치합니다.
pip3 install jep jedi pyspark virtualenv
필요하면 pyspark
이나 pandas
등도 넣어 둡니다.
Polynote
먼저 여기에서 최신 버전의 것을 다운로드합니다.
이번에는 0.2.13
의 polynote-dist.tar.gz
를 선택했습니다.
그런 다음 확장하여 노트북을 시작합니다.
tar -zxvpf polynote-dist.tar.gz
cd polynote
./polynote.py # localhost:8192 にノートブックが立ち上がる
움직여 보자
기본적인 조작에 대해서는 공식 문서 에 있습니다.
노트북을 만들고 Spark 설정하기
브라우저에서 localhost:8192
로 이동합니다.
새 노트북을 만들어 Spark를 설정합니다.Configuration & dependencies
의 Spark Config
에
키 : spark.master
val : local[*]
넣어 Save & Restart
합니다.
코드를 작성하고 실행
Spark Dataframe을 만들고 그래프 그리기 기능을 사용해보십시오.
다음 코드를 입력하여 실행합니다.
import org.apache.spark.sql._
import org.apache.spark.sql.types._
val schema = StructType(
List(
StructField("name", StringType, true),
StructField("point", IntegerType, true)
)
)
val data = Seq(
Row("Taro", 10), Row("Jiro", 20), Row("Ichiro", 30)
)
val df = spark.createDataFrame(
spark.sparkContext.parallelize(data),
schema
)
df
이런 느낌이 듭니다.
Out
에 있는 그래프 마크를 클릭하면 모달이 나타납니다.Measures
의 Mean point
를 Y 축으로, Dimensions
name
를 X 축으로 끌어서 놓고 playPlot
를 클릭합니다.
그래프가 표시되었습니다.
이상, 환경 구축을 해 간단한 코드를 움직여 그래프의 묘화 기능을 사용해 보았습니다.
Polynote 는 현재 베타판으로, 마이너 버전 업은 며칠마다 행해지고 있는 상황이므로, 환경 구축이나 조작에 대해서는 큰 변경이 있을지도 모릅니다.
참고
macOS Catalina에서 작동하는지 확인했습니다.
공식 문서 참고.
스파크
Apache Spark가 필요합니다.
영어이지만 이 블로그이 매우 도움이되었습니다.
필자의 경우는 이미 JVM이나 Scala를 넣고 있었으므로, Spark의 인스톨 부분만 했습니다.
Java는 Java8을 선택하는 것이 무난하다고 생각합니다. cf. Stack Overflow: spark-2-4-java-11-compatibility
파이썬
Python3과 pip3이 필요하므로 설치해 둡시다.
여러 종속 패키지를 설치합니다.
pip3 install jep jedi pyspark virtualenv
필요하면
pyspark
이나 pandas
등도 넣어 둡니다.Polynote
먼저 여기에서 최신 버전의 것을 다운로드합니다.
이번에는
0.2.13
의 polynote-dist.tar.gz
를 선택했습니다.그런 다음 확장하여 노트북을 시작합니다.
tar -zxvpf polynote-dist.tar.gz
cd polynote
./polynote.py # localhost:8192 にノートブックが立ち上がる
움직여 보자
기본적인 조작에 대해서는 공식 문서 에 있습니다.
노트북을 만들고 Spark 설정하기
브라우저에서 localhost:8192
로 이동합니다.
새 노트북을 만들어 Spark를 설정합니다.Configuration & dependencies
의 Spark Config
에
키 : spark.master
val : local[*]
넣어 Save & Restart
합니다.
코드를 작성하고 실행
Spark Dataframe을 만들고 그래프 그리기 기능을 사용해보십시오.
다음 코드를 입력하여 실행합니다.
import org.apache.spark.sql._
import org.apache.spark.sql.types._
val schema = StructType(
List(
StructField("name", StringType, true),
StructField("point", IntegerType, true)
)
)
val data = Seq(
Row("Taro", 10), Row("Jiro", 20), Row("Ichiro", 30)
)
val df = spark.createDataFrame(
spark.sparkContext.parallelize(data),
schema
)
df
이런 느낌이 듭니다.
Out
에 있는 그래프 마크를 클릭하면 모달이 나타납니다.Measures
의 Mean point
를 Y 축으로, Dimensions
name
를 X 축으로 끌어서 놓고 playPlot
를 클릭합니다.
그래프가 표시되었습니다.
이상, 환경 구축을 해 간단한 코드를 움직여 그래프의 묘화 기능을 사용해 보았습니다.
Polynote 는 현재 베타판으로, 마이너 버전 업은 며칠마다 행해지고 있는 상황이므로, 환경 구축이나 조작에 대해서는 큰 변경이 있을지도 모릅니다.
참고
import org.apache.spark.sql._
import org.apache.spark.sql.types._
val schema = StructType(
List(
StructField("name", StringType, true),
StructField("point", IntegerType, true)
)
)
val data = Seq(
Row("Taro", 10), Row("Jiro", 20), Row("Ichiro", 30)
)
val df = spark.createDataFrame(
spark.sparkContext.parallelize(data),
schema
)
df
Reference
이 문제에 관하여(Polynote 사용하기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/unirt/items/9017524778a680da7483텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)