Pentaho Data Integration을 통해 CSV 파일 내보내기

4150 단어 PDIpentahoETL
배치 처리에서도 가공된 데이터를 CSV 파일로 출력하는 경우가 있다고 생각해 ETL에서 테스트 데이터를 만들어 CSV 파일로 출력하는 방법을 총괄했다.
참고가 됐으면 좋겠어요.

테스트 데이터 만들기


데이터 출력에 사용할 테스트 데이터를 만듭니다.
데이터 격자 절차를 사용하면 좋아하는 데이터를 수동으로 만들 수 있다.
우선, 데이터 격자 설정 절차.

그런 다음 데이터 격자를 두 번 클릭하여 설정합니다.
이번에는 키(String)와 var(Number) 두 열이 있는 테스트 데이터를 만들고 싶다.
먼저 원 탭에서 열 이름과 유형을 설정합니다.

그리고 데이터 탭을 선택하고 키와 var에 데이터를 설정합니다.

미리 보기에는 다음과 같은 데이터가 표시됩니다.

데이터 격자 설정이 완료되었습니다.

정렬


var 값의 내림차순으로 정렬한 후 출력하려고 하기 때문에 먼저 정렬합니다.
줄을 배열하는 절차는 데이터 격자의 절차와 연결된다.
그런 다음 행 정렬 단계를 두 번 클릭하여 설정 화면을 표시합니다.

정렬 설정이 완료되었습니다.

미리 보기


정렬이 설정되어 있기 때문에 처리 결과를 먼저 확인하고 싶습니다.
미리 보기를 원하는 단계에서 미리 보기를 마우스 오른쪽 버튼으로 클릭하여 지금까지 수행한 ETL 처리 결과의 실제 값을 확인할 수 있습니다.

미리 보기를 선택하면 다음 화면이 표시되므로 빠른 시작을 누릅니다.

미리보기 결과를 표시합니다.
정렬 처리된 결과이기 때문에 var의 값에 따라 순서를 낮추는 것을 확인할 수 있습니다.

미리 보기 기능은 PDI가 ETL 처리를 제작할 때 반드시 갖추어야 하는 기능입니다.
구체적인 사용 방법은 매번 하나의 처리를 추가할 때마다 미리 보기에서 추가된 처리가 정확한 동작을 하는지 확인하는 동시에 설정된 이미지를 변경하는 것이다.

CSV 출력


마지막으로 정렬된 결과는 CSV 형식으로 출력됩니다.
텍스트 파일 출력 절차를 사용합니다.텍스트 파일의 출력 단계를 배치하고 행 정렬 단계에 연결합니다.

그런 다음 텍스트 파일 출력 단계를 두 번 클릭하여 설정합니다.
우선 파일 탭에 출력 목표와 출력 파일 이름 등을 설정합니다.

그리고 일반 탭에 구분자와 문자 코드를 설정합니다.

마지막으로 필드 탭에서 내보낸 열 설정 등의 형식을 설정합니다.
필드를 가져와서 자동으로 필드를 설정하면 필요하면 자세한 설정을 변경하기가 수월합니다.

이로써 제작, 정렬 테스트용 데이터를 완성하고 CSV 파일을 통해 출력하는 처리가 완료되었습니다!

실행


파일을 출력할지 여부를 확인하기 위해 마지막으로 만든 처리를 실행합니다.
제작된 ETL 프로세스를 저장하고 실행합니다.

실행하면 다음과 같은 정렬된 데이터가 지정한 위치로 출력됩니다.

CSV 파일의 출력 설정 결과가 확인됩니다.
실제 처리에서는 더욱 복잡한 데이터 가공과 출력 설정이 필요할 수 있지만, 기본적으로 이번에 소개한 글을 바탕으로 상세한 설정을 시도하면서 변경을 하면 처리를 완성할 수 있다.
앞으로도 자주 사용하는 처리를 중심으로 보도할 예정이니 오늘은 여기까지!

좋은 웹페이지 즐겨찾기