Pyspark에 대한 expr 함수
개요
expr 함수의 매개 변수에서 사용할 수 있는 함수는 pspark입니다.sql.functions 내의 함수입니다.
사용 예
예1
다음은 pspark입니다.sql.functions.sqrt를 사용합니다.
xy_df = xy_df.withColumn('distance',F.expr('sqrt(x * x + y * y)'))
예2
pyspark.sql.functions.rand 등 설정 사용하기 - 1~1의 랜덤수
rand_df = rand_df.withColumn('random',F.expr('rand() * 2 - 1'))
예3
상술한 방법 등과 결합하여 몬테카로법의 원주율
※ Spark in Action의 맵/Reduce와는 다른 방법을 사용합니다.(브로드웨이는...)
darts = 10000
l = []
for x in range(darts):
l.append([x])
# l.append((x,)) tupleの場合
# https://jamiekt.wordpress.com/2016/12/13/creating-a-spark-dataframe-containing-only-one-column/
xy_df = spark.createDataFrame(l, ["index"])
xy_df = (
xy_df
.withColumn("x", F.expr("rand() * 2 - 1"))
.withColumn("y", F.expr("rand() * 2 - 1"))
.withColumn("distance", F.expr("sqrt(x * x + y * y)"))
.withColumn("inside_a_circle", F.expr("CASE WHEN distance < 1 THEN True ELSE False END")
)
)
4 * xy_df.filter('inside_a_circle = True').count() / 10000
Reference
이 문제에 관하여(Pyspark에 대한 expr 함수), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://zenn.dev/tjjj/articles/a73e2eb497518c텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)