Apache Spark의 DataFrame에서 row_number를 실행하는 방법
row_number
편리하네요.Apache Spark의
DataFrame
하지만 1.4.0
이후라면 row_number
DataFrame 샘플
버전
이름
1.0
Apple Pie
1.1
Banana Bread
1.5
Cupcake
1.6
Donut
2.0
Eclair
2.1
Froyo
2.3
진저브레드
3
Honeycomb
4.0
Ice Cream Sandwich
4.3
Jelly Bean
4.4
KitKat
row_number
org.apache.spark.sql.expressions.Window
를 import하여 rowNumber().over()
에 전달합니다.import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions._
val identified = df.select(
rowNumber().over( Window.partitionBy().orderBy() ) as "id",
$"version",
$"name",
)
↑같이
partitionBy
에 인수를 건네주지 않으면 모든 데이터에 대해서 통번이 접해집니다.identified.take(5)
res1: Array[org.apache.spark.sql.Row] = Array([1,"1.0","Apple Pie"], [2,"1.1","Banana Bread"], [3,"1.5","Cupcake"], [4,"1.6","Donut"], [5,"2.0","Eclair"])
Reference
이 문제에 관하여(Apache Spark의 DataFrame에서 row_number를 실행하는 방법), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/iyunoriue/items/cdf7d9a3bc0839e5b6fe텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)