ETL Embulk 정보 데이터 분석 기반 입문을 읽은 정리. 개인적으로 필요한 부분에 대해서만. Embulk 소개. 이용방법과 어디에 특화되어 있는지 이해 배치형의 병렬·분산 벌크 데이터 로더 간단히 말하면 대량 데이터를 효율적으로 전송하는 도구 병렬 처리를 가지고 있는 것만으로 병렬 정의할 수 있는 것은 아니다 (그것은 digdag) 준 실시간 수집으로 유스 케이스 증가 영향 추출 배치 설정 파일 번잡화에 의한 ... ETLEmbulk애드테크 파이썬과 Embulk로 여러 데이터 소스를 가로 지르는 소나기 ETL 만들기 최근, TreasureData와 자사의 DB의 데이터를 맞춘 집계를 배치 처리하는 것이 많아서 python으로 일단 csv에 내보내 Embulk로 업로드하고 있었습니다만, 데이터 소스가 늘어나면 귀찮아져 가기 때문에 보다 간단하고 범용화한 쓰는 방법을 생각했습니다. 결국은 WF 사용해 주면 좋은 이야기이므로 수요가 있을지 불명합니다만, WF 공부하는 것도 시간이 걸리므로 익숙한 언어로 촉촉하... 파이썬TreasureDataEmbulkETLcron ETL 메커니즘을 Docker로 구현해 보았습니다. 이전 세미나에서 데이터 분석 기반의 이야기를 들었을 때 규모가 너무 커서 잘 모르는 경우가 있었습니다. CPU보다 GPU가 좋다든가, IoT의 데이터를 실시간으로 업로드한다든지 실제로 그런 일 좀 할 수 없고, 모르면 분위기 잡을 수 없는 사람이 대부분이라고 생각합니다. 그러나 좀 더 규모가 작은 데이터에서도 분석 사용하고 싶은, 분석하고 싶다는 사람도 많을까 생각합니다. os OS X El... ETL도커EmbulkRails 이제 좋은 힘으로 파워포로 구성도 등 만드는 것을 그만두자 PlantUML로 ETL 구성도 같은 것을 쓴다 파워 포인트·Google 슬라이드 등으로 만든 자료의 버전 관리는, 여러분 어떻게 하고 있습니까? 동시 편집할 수 있는 Google 프레젠테이션은 아직 로컬로 작업하는 파워포인트는 팀에서의 작업에 정말 적합하지 않다… 게다가 Google 프레젠테이션을 외부 회원에게 공개하지 않았다면 더 이상 프로젝트의 속도를 느끼지 않습니다. DX는 뭐야? 라고 생각하십니까? 생각이 DX가 아니다... 정말... DXETL거버넌스plantuml Xplenty : Google Sheet에서 데이터 검색 이 블로그에서는 Xplenty의 Rest API Component를 사용하여 Google Sheet에서 데이터를 로드하는 방법에 대해 설명합니다. 미리 연결 화면에서 만든 Google Sheet 인증을 선택합니다. URL:https://sheets.googleapis.com/v4/spreadsheets/シートID/values:batchGet?ranges=セル範囲&majorDimension=R... ETLGoogleSpreadSheetXplenty Power Query 이벤트 기간을 하루에 분할 의 활용 예입니다. | 이 소재입니다. 상세 에디터를 사용하지 않고, 화면 포치포치( +if문 )로 만들어 본 느낌입니다. Excel에서 데이터 가공하고 있는 감각에 가까울지도. 이벤트 데이터 | 을 참고로 만들어 보았습니다. 日付 열의 데이터 형식은 날짜/시간입니다. 을 참고하여 이벤트 테이블에 캘린더 테이블을 교차 조인합니다. 새로운 열을 만들어 원하는 데이터에 "1"이 들어가도록 합니다... DataprepPowerQueryExcelPowerBIETL Power Query 크로스 조인 Power Query에서 교차 결합(교차 결합)해 보았습니다. 두 개의 테이블을 결합하여 새 테이블을 만들 때, 두 테이블의 데이터를 모두 결합하는 방법입니다. Power Query의 "쿼리 병합"(소위 Join)은 외부 조인, 내부 조인 등은 선택할 수 있지만 크로스 조인은 준비되어 있지 않습니다. 그리고 2개의 테이블을 묶는 조합열을 반드시 선택하지 않으면 병합할 수 없습니다. 이 "쿼리... DataprepPowerQueryExcelPowerBIETL Tableau Prep 사용 - 명령줄을 통한 자동화 Tableau Prep 2018.2.2의 새로운 기능입니다. 이제 명령줄에서 flow 파일(.tfl)을 실행할 수 있습니다. 이렇게 하면 Windows 작업 스케줄러 등을 사용하여 Tableau Prep 일정을 실행할 수 있습니다. 작업 스케줄러 만지지 않았다면, 다음 문서를 참조하십시오. Tableau Prep에서는 출력 형식으로 로컬로 csv, tde, hyper 형식으로 토출할지, Ta... TableauETLautomationTableauPrep Bluemix: 단순 ETL 서비스 DataConnect(Data Set Catalog 사용) DataConnect의 기본적인 사용법은 아래와 같은 기사로 여러가지 써 왔습니다만, 매회 매번, 데이터 소스에의 접속 정의로부터, 스키마나 테이블을 찾아내 ...과 같은 작업을 몇번이나 해 해야 하고 좀 귀찮았어요. 또, DB의 구성 잘 모르는 앱 가게라든지가 보면, 일일이 DB를 (들)물어 「셀프 서비스의 간이 ETL」이라고 하면 조금 불편한 부분도 있었을까라고 생각합니다. Data Se... BluemixETLDataConnect구름 Bluemix : 단순 ETL 서비스 DataConnect, GUI에서 워크 플로우를 작성하도록 ETL 작업을하는 기능이 beta되어 있었기 때문에 시도했습니다. 이런 식으로, 플로우를 GUI로 시각적으로 알기 쉽게 그리는 것 같은 기능 「Design Data Flow」가 beta 릴리스된 것 같기 때문에 시험해 보았습니다. ・필요한 데이터 소스(A, B, C로 한다)를 모두 일단 정의 · 각 데이터 소스에 대해 수행하려는 처리 (조인, 성형)를 각각 정의 A에게는 ~~를 한다 B에는~~을 한다 C에는~~한다 라는 것을 정의합니다. · 마지막으로 각 ... Bluemix구름DataConnect데이터베이스ETL Azure Data Factory를 사용하여 CSV 데이터를 SQL 데이터베이스로 가져오기 저는 SQL Server에 익숙하기 때문에 일반적으로 SQL Server 통합 서비스(이하 SSIS)를 주저하지 않고 사용합니다. 근데 SSIS가 뭐예요?아!Visual Studio가 있습니까?아!Windows 환경에서만 개발할 수 있습니까?아!허가증 비용, 이렇게 많이 들어요!!!나는 이런 확률이 매우 높다는 것을 깊이 느꼈다. 를 사용할 수 있습니다. SQL 데이터베이스(빈 데이터베이스)... AzureDataFactoryETLAzureAzureSQLDatabase Solving the frequent Fernet Key cryptography error for containerized Apache-Airflow Airflow finds the Fernet key you would like to use from the config file, which by default gets generated and added to airflow/airflow.cfg when you first run the airflow initdb command. For this diagnosis and If you're us... PythonDockercryptographyairflowETL ETL에서 AWS를 사용할 때의 선택 항목 느낌은 있지만 구성 요소만 연결하면 직관적이고 알기 쉬우며 정식 문서만 읽으면 기본적으로 쓰여 있기 때문에 사용하기가 매우 어렵다. SQL 쿼리를 수행합니다.셸과 같은 쿼리를 정의할 수도 있고 S3의 쿼리 파일을 읽고 실행할 수도 있습니다. 실행 스케줄 정의.일정을 특별히 정의하지 않고 필요에 따라 집행할 수도 있다. 파일이 있는 상태에서 실행할 수도 있고 데이터의 존재를 확인할 수도 있다.... DataPipelineETLAWS Pentaho Data Integration을 통해 Table로 데이터 내보내기 데이터 격자를 사용하여 ETL에서 테스트 데이터를 제작하는데 그 중에서 설정 방법은 이다. 여기에 상기 참조 페이지에서 제작한 처리에 표 출력 처리의 형식을 추가하고자 하기 때문에 다음과 같은 표 출력 절차를 설정하여 데이터 격자 절차와 연결한다. 이 경고가 무엇을 전달했느냐면 "출력 목적지가 여러 개 있지만 데이터 전달 방법은 어떻게 할 것인가?"그러니까 즉, 위의 예에서 어떻게 데이터 격... PDIpentahoETL
Embulk 정보 데이터 분석 기반 입문을 읽은 정리. 개인적으로 필요한 부분에 대해서만. Embulk 소개. 이용방법과 어디에 특화되어 있는지 이해 배치형의 병렬·분산 벌크 데이터 로더 간단히 말하면 대량 데이터를 효율적으로 전송하는 도구 병렬 처리를 가지고 있는 것만으로 병렬 정의할 수 있는 것은 아니다 (그것은 digdag) 준 실시간 수집으로 유스 케이스 증가 영향 추출 배치 설정 파일 번잡화에 의한 ... ETLEmbulk애드테크 파이썬과 Embulk로 여러 데이터 소스를 가로 지르는 소나기 ETL 만들기 최근, TreasureData와 자사의 DB의 데이터를 맞춘 집계를 배치 처리하는 것이 많아서 python으로 일단 csv에 내보내 Embulk로 업로드하고 있었습니다만, 데이터 소스가 늘어나면 귀찮아져 가기 때문에 보다 간단하고 범용화한 쓰는 방법을 생각했습니다. 결국은 WF 사용해 주면 좋은 이야기이므로 수요가 있을지 불명합니다만, WF 공부하는 것도 시간이 걸리므로 익숙한 언어로 촉촉하... 파이썬TreasureDataEmbulkETLcron ETL 메커니즘을 Docker로 구현해 보았습니다. 이전 세미나에서 데이터 분석 기반의 이야기를 들었을 때 규모가 너무 커서 잘 모르는 경우가 있었습니다. CPU보다 GPU가 좋다든가, IoT의 데이터를 실시간으로 업로드한다든지 실제로 그런 일 좀 할 수 없고, 모르면 분위기 잡을 수 없는 사람이 대부분이라고 생각합니다. 그러나 좀 더 규모가 작은 데이터에서도 분석 사용하고 싶은, 분석하고 싶다는 사람도 많을까 생각합니다. os OS X El... ETL도커EmbulkRails 이제 좋은 힘으로 파워포로 구성도 등 만드는 것을 그만두자 PlantUML로 ETL 구성도 같은 것을 쓴다 파워 포인트·Google 슬라이드 등으로 만든 자료의 버전 관리는, 여러분 어떻게 하고 있습니까? 동시 편집할 수 있는 Google 프레젠테이션은 아직 로컬로 작업하는 파워포인트는 팀에서의 작업에 정말 적합하지 않다… 게다가 Google 프레젠테이션을 외부 회원에게 공개하지 않았다면 더 이상 프로젝트의 속도를 느끼지 않습니다. DX는 뭐야? 라고 생각하십니까? 생각이 DX가 아니다... 정말... DXETL거버넌스plantuml Xplenty : Google Sheet에서 데이터 검색 이 블로그에서는 Xplenty의 Rest API Component를 사용하여 Google Sheet에서 데이터를 로드하는 방법에 대해 설명합니다. 미리 연결 화면에서 만든 Google Sheet 인증을 선택합니다. URL:https://sheets.googleapis.com/v4/spreadsheets/シートID/values:batchGet?ranges=セル範囲&majorDimension=R... ETLGoogleSpreadSheetXplenty Power Query 이벤트 기간을 하루에 분할 의 활용 예입니다. | 이 소재입니다. 상세 에디터를 사용하지 않고, 화면 포치포치( +if문 )로 만들어 본 느낌입니다. Excel에서 데이터 가공하고 있는 감각에 가까울지도. 이벤트 데이터 | 을 참고로 만들어 보았습니다. 日付 열의 데이터 형식은 날짜/시간입니다. 을 참고하여 이벤트 테이블에 캘린더 테이블을 교차 조인합니다. 새로운 열을 만들어 원하는 데이터에 "1"이 들어가도록 합니다... DataprepPowerQueryExcelPowerBIETL Power Query 크로스 조인 Power Query에서 교차 결합(교차 결합)해 보았습니다. 두 개의 테이블을 결합하여 새 테이블을 만들 때, 두 테이블의 데이터를 모두 결합하는 방법입니다. Power Query의 "쿼리 병합"(소위 Join)은 외부 조인, 내부 조인 등은 선택할 수 있지만 크로스 조인은 준비되어 있지 않습니다. 그리고 2개의 테이블을 묶는 조합열을 반드시 선택하지 않으면 병합할 수 없습니다. 이 "쿼리... DataprepPowerQueryExcelPowerBIETL Tableau Prep 사용 - 명령줄을 통한 자동화 Tableau Prep 2018.2.2의 새로운 기능입니다. 이제 명령줄에서 flow 파일(.tfl)을 실행할 수 있습니다. 이렇게 하면 Windows 작업 스케줄러 등을 사용하여 Tableau Prep 일정을 실행할 수 있습니다. 작업 스케줄러 만지지 않았다면, 다음 문서를 참조하십시오. Tableau Prep에서는 출력 형식으로 로컬로 csv, tde, hyper 형식으로 토출할지, Ta... TableauETLautomationTableauPrep Bluemix: 단순 ETL 서비스 DataConnect(Data Set Catalog 사용) DataConnect의 기본적인 사용법은 아래와 같은 기사로 여러가지 써 왔습니다만, 매회 매번, 데이터 소스에의 접속 정의로부터, 스키마나 테이블을 찾아내 ...과 같은 작업을 몇번이나 해 해야 하고 좀 귀찮았어요. 또, DB의 구성 잘 모르는 앱 가게라든지가 보면, 일일이 DB를 (들)물어 「셀프 서비스의 간이 ETL」이라고 하면 조금 불편한 부분도 있었을까라고 생각합니다. Data Se... BluemixETLDataConnect구름 Bluemix : 단순 ETL 서비스 DataConnect, GUI에서 워크 플로우를 작성하도록 ETL 작업을하는 기능이 beta되어 있었기 때문에 시도했습니다. 이런 식으로, 플로우를 GUI로 시각적으로 알기 쉽게 그리는 것 같은 기능 「Design Data Flow」가 beta 릴리스된 것 같기 때문에 시험해 보았습니다. ・필요한 데이터 소스(A, B, C로 한다)를 모두 일단 정의 · 각 데이터 소스에 대해 수행하려는 처리 (조인, 성형)를 각각 정의 A에게는 ~~를 한다 B에는~~을 한다 C에는~~한다 라는 것을 정의합니다. · 마지막으로 각 ... Bluemix구름DataConnect데이터베이스ETL Azure Data Factory를 사용하여 CSV 데이터를 SQL 데이터베이스로 가져오기 저는 SQL Server에 익숙하기 때문에 일반적으로 SQL Server 통합 서비스(이하 SSIS)를 주저하지 않고 사용합니다. 근데 SSIS가 뭐예요?아!Visual Studio가 있습니까?아!Windows 환경에서만 개발할 수 있습니까?아!허가증 비용, 이렇게 많이 들어요!!!나는 이런 확률이 매우 높다는 것을 깊이 느꼈다. 를 사용할 수 있습니다. SQL 데이터베이스(빈 데이터베이스)... AzureDataFactoryETLAzureAzureSQLDatabase Solving the frequent Fernet Key cryptography error for containerized Apache-Airflow Airflow finds the Fernet key you would like to use from the config file, which by default gets generated and added to airflow/airflow.cfg when you first run the airflow initdb command. For this diagnosis and If you're us... PythonDockercryptographyairflowETL ETL에서 AWS를 사용할 때의 선택 항목 느낌은 있지만 구성 요소만 연결하면 직관적이고 알기 쉬우며 정식 문서만 읽으면 기본적으로 쓰여 있기 때문에 사용하기가 매우 어렵다. SQL 쿼리를 수행합니다.셸과 같은 쿼리를 정의할 수도 있고 S3의 쿼리 파일을 읽고 실행할 수도 있습니다. 실행 스케줄 정의.일정을 특별히 정의하지 않고 필요에 따라 집행할 수도 있다. 파일이 있는 상태에서 실행할 수도 있고 데이터의 존재를 확인할 수도 있다.... DataPipelineETLAWS Pentaho Data Integration을 통해 Table로 데이터 내보내기 데이터 격자를 사용하여 ETL에서 테스트 데이터를 제작하는데 그 중에서 설정 방법은 이다. 여기에 상기 참조 페이지에서 제작한 처리에 표 출력 처리의 형식을 추가하고자 하기 때문에 다음과 같은 표 출력 절차를 설정하여 데이터 격자 절차와 연결한다. 이 경고가 무엇을 전달했느냐면 "출력 목적지가 여러 개 있지만 데이터 전달 방법은 어떻게 할 것인가?"그러니까 즉, 위의 예에서 어떻게 데이터 격... PDIpentahoETL