Pyspark의col 함수에 대한 매개 변수
모티프
col("columnName")이 지정한 columnName의 뜻을 몰라서 확인했습니다.
결실
다음 링크에서처럼 col("column Name")로 지정된 경우 DataFrame과 연관된 col이 없는 상태입니다.(A generic column no yet associated with a DataFrame.)
따라서 Withcolumn 메소드 등 매개변수에 사용된 경우 DataFrame과 처음으로 연관되어 DataFrame의 해당 열을 받습니다.
또한 DataFrame의 열 이름에서 col의 열 이름을 찾을 수 없는 경우 Analysis Exception: cannot resolve'colname'given input columns:
되다
3
from pyspark.sql.functions import col
df = df.withColumn('new_column_name', col("columnName"))
또한 잡담이지만 소양이 있는 Column 대상을 생성한 경우lit 함수를 사용한다.from pyspark.sql.functions import lit
data = [('Alice', 13,),('Bob',17),('Taro',25)]
df = spark.createDataFrame(data,['name', 'age'])
df.show()
df = df.withColumn('newcol',lit('hoge'))
df.show()
+-----+---+
| name|age|
+-----+---+
|Alice| 13|
| Bob| 17|
| Taro| 25|
+-----+---+
+-----+---+------+
| name|age|newcol|
+-----+---+------+
|Alice| 13| hoge|
| Bob| 17| hoge|
| Taro| 25| hoge|
+-----+---+------+
Reference
이 문제에 관하여(Pyspark의col 함수에 대한 매개 변수), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://zenn.dev/tjjj/articles/3792a3dd1e742c텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)