Pyspark에 대한 expr 함수

개요

expr 함수의 매개 변수에서 사용할 수 있는 함수는 pspark입니다.sql.functions 내의 함수입니다.

사용 예

예1

다음은 pspark입니다.sql.functions.sqrt를 사용합니다.

xy_df = xy_df.withColumn('distance',F.expr('sqrt(x * x + y * y)'))

예2

pyspark.sql.functions.rand 등 설정 사용하기 - 1~1의 랜덤수

rand_df = rand_df.withColumn('random',F.expr('rand() * 2 - 1'))

예3

상술한 방법 등과 결합하여 몬테카로법의 원주율
※ Spark in Action의 맵/Reduce와는 다른 방법을 사용합니다.(브로드웨이는...)

darts = 10000

l = []

for x in range(darts):
    l.append([x])
#   l.append((x,)) tupleの場合
# https://jamiekt.wordpress.com/2016/12/13/creating-a-spark-dataframe-containing-only-one-column/

xy_df = spark.createDataFrame(l, ["index"])

xy_df = (
    xy_df
    .withColumn("x", F.expr("rand() * 2 - 1"))
    .withColumn("y", F.expr("rand() * 2 - 1"))
    .withColumn("distance", F.expr("sqrt(x * x + y * y)"))
    .withColumn("inside_a_circle", F.expr("CASE WHEN distance < 1 THEN True ELSE False END")
    )
)

4 * xy_df.filter('inside_a_circle = True').count() / 10000

Reference

이 문제에 관하여(Pyspark에 대한 expr 함수), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://zenn.dev/tjjj/articles/a73e2eb497518c

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다