데이터 팩토리 - 데이터 흐름에서 중복 행 제거 (첫 번째 행만 선택) 방법 참고

소개



Azure Synapse Pipeline(Azure Data Factory)의 DataFlow에서 열에 중복 값이 ​​있는 경우 첫 번째 행만 선택하는 흐름을 만듭니다.
자신을위한 간단한 메모입니다.

방법


  • Aggregate(집계) 활동을 배치합니다.
  • 그룹화 탭 열의 설정 항목에 중복을 제외하려는 대상 열을 지정합니다.

    컬럼 이름 부분은 이미 있는 컬럼 이름과 겹치지 않는 것을 지정합니다.
    ※이번은 데이터를 입력하고 있지 않기 때문에 에러 표시가 나와 있습니다만, 소스 데이터 세트에 열이 들어가 있으면 에러 표시는 사라집니다.
  • 집계 탭 → 추가에서 열 패턴 추가를 선택합니다.
  • 표현식 빌더 열기를 선택하고 다음 내용을 작성합니다.




  • 모든 열을 대상으로 해, 열명은 원을 그대로 출력해, 중복이 있었을 경우는 fist($$) 에 의해 최초의 행이 출력된다, 라고 하는 이미지입니다.
    '$$'는 일치하는 열의 기존 열 값을 나타냅니다.

    결론



    이제 대상 열에 중복이 있었을 경우, 최초의 행만 남기는 플로우를 작성할 수 있었습니다!
    원래는 문서 스니펫 을 참고로 하고 있습니다.
    스니펫은 전체 열을 대상으로 중복이 있을 경우 첫 번째 행만 남기는 형태로 되어 있기 때문에 이를 특정 행을 선택하는 형태로 시도했습니다.

    참고



    매핑 데이터 흐름 스크립트 - Azure Data Factory | Microsoft Doc
    first()

    좋은 웹페이지 즐겨찾기