[빅데이터시스템] SparkSQL

Caching

Spakr RDD를 배웠을 위 두가지 트랜스폼을 배웠음

Narrow transformation : 나눠진 파티션 안에서 작업이 이루어짐. 속도가 빠름
e.g : select, where, etc.
Wide Transformation : 파티션이 셔플링되면서 작업이 이루어짐. 속도가 느려짐
e.g : group by, order by, Join, etc.

GROUP BY, ORDER BY 은 실행되면서 Wide Transformation 을 수행해서 파티션들이 셔플링이 된다.
위 자료를 보면 시간은 5.22 정도 걸렸다.
Job 을 보게되면 8개의 파티션에서 200개의 파티션이 사용된 것을 볼 수 있다.
: 파티션이 셔플링 될 때의 디폴트 값이 200이기 때문이다.
데이터의 양이 많지 않다면, 디폴트 셔플링 파티션 수를 줄여서 성능을 개선할 수 있다.

SET spark.sql.shuffle.partitions=8 	 # Shuffling Partiton Control

명령어를 통해서 디폴트 값을 수정할 수 있다.

셔플링되는 파티션의 수를 수정하고나서 같은 명령어를 수행하면 수행시간이 줄어든 것을 확인할 수 있다. 이는 셔플링되는 수가 적어졌기 때문에 명령 수행 속도가 빨라진 것이다.

: 일반적인 join 연산은 좌측의 파티션들이 오른쪽 파티션과 같이 셔플링이 된 다음, 필드가 같은 것끼리 join을 하는 방식을 사용하고 있다.
-> 이는 셔플링이 많이 일어나다보니 시간이 오래 걸린다.
-> broadcast 제안.

: 작은데이터들만 셔플링을 통해 오른쪽과 같이 만들어진 후, 큰 데이터와 작은 데이터가 Join하는 방식
-> 작은 데이터들만 셔플링을 하고, 큰 데이터는 셔플링하지 않음으로써 셔플링에 드는 비용을 줄인다.

테이블의 크기를 확인한다.
: fireCalls > fireCallsParquet 이므로, fireCallsParquet이 작은 데이터임을 확인할 수 있다.

SparkSQL 명령을 수행했을 때, 내부를 동작을 로그로 띄워 설명해주는 키워드
위 자료를 보면 상단 명령을 SortMergeJoin을 수행했다는 것을, 아래 자료를 보면 BroadcastHashJoin을 수행했다라는 것을 알 수 있다.

이 문제에 관하여([빅데이터시스템] SparkSQL), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@aszxvcb/빅데이터시스템-SparkSQL

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)