Apache Spark의 DataFrame에서 row_number를 실행하는 방법

SQL 윈도우 함수 row_number 편리하네요.
Apache Spark의 DataFrame 하지만 1.4.0 이후라면 row_number

DataFrame 샘플

버전
이름

1.0
Apple Pie

1.1
Banana Bread

1.5
Cupcake

1.6
Donut

2.0
Eclair

2.1
Froyo

2.3
진저브레드

3
Honeycomb

4.0
Ice Cream Sandwich

4.3
Jelly Bean

4.4
KitKat

row_number

org.apache.spark.sql.expressions.Window 를 import하여 rowNumber().over() 에 전달합니다.

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions._

val identified = df.select(
    rowNumber().over( Window.partitionBy().orderBy() ) as "id",
    $"version",
    $"name",
)

↑같이 partitionBy 에 인수를 건네주지 않으면 모든 데이터에 대해서 통번이 접해집니다.

identified.take(5)
res1: Array[org.apache.spark.sql.Row] = Array([1,"1.0","Apple Pie"], [2,"1.1","Banana Bread"], [3,"1.5","Cupcake"], [4,"1.6","Donut"], [5,"2.0","Eclair"])

Reference

이 문제에 관하여(Apache Spark의 DataFrame에서 row_number를 실행하는 방법), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/iyunoriue/items/cdf7d9a3bc0839e5b6fe

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다