DynamoDB에서 EMR hive를 사용하여 S3에 CSV를 출력해 보았습니다.
1. S3에 CSV를 출력하는 버킷과 폴더 만들기
이번에는 이런 느낌으로 했다.
emr-dynamodb-export-test-2017-11-30/2130
2. EMR로 클러스터 시작
クラスターを作成
클릭 クラスター名
를 입력합니다. EC2 キーペア
를 지정합니다. クラスターを作成
를 클릭. (물론 변경해도 좋음) 잠시 기다려.
대기중이 되면 다음.
3. 마스터에 SSH 연결
マスターパブリック DNS
에, SSH
링크가 있기 때문에, 클릭.hadoop
ssh -i ~/hoge.pem [email protected]
※ 이유는 모르지만 보안 그룹의 인바운드에
22
가 없어 수동으로 추가한 적이 있었다.단!!
hive 실행
hive
같은 DynamoDB 테이블 사용)
-
testtable01
DynamoDB의 테이블 이름. create external table hive_Table (
hv_timestamp bigint,
hv_user string,
hv_id string,
hv_jst string,
hv_value bigint
)
stored by 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler'
tblproperties (
"dynamodb.table.name" = "testtable01",
"dynamodb.column.mapping"="hv_timestamp:timestamp,hv_user:user,hv_id:id,hv_jst:jst,hv_value:value"
)
;
create external table s3_Table (
hv_timestamp bigint,
hv_user string,
hv_id string,
hv_jst string,
hv_value bigint
)
row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
location 's3://emr-dynamodb-export-test-2017-11-30/2130/'
;
insert overwrite table s3_Table
select *
FROM hive_Table
;
Query ID = hadoop_20171130135920_255a0f5b-47ad-4a9a-b00c-99cd0394ef00
Total jobs = 1
Launching Job 1 out of 1
Status: Running (Executing on YARN cluster with App id application_1512049485217_0001)
----------------------------------------------------------------------------------------------
VERTICES MODE STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED
----------------------------------------------------------------------------------------------
Map 1 .......... container SUCCEEDED 1 1 0 0 0 0
Reducer 2 ...... container SUCCEEDED 1 1 0 0 0 0
----------------------------------------------------------------------------------------------
VERTICES: 02/02 [==========================>>] 100% ELAPSED TIME: 36.58 s
----------------------------------------------------------------------------------------------
Loading data to table default.s3tablenamek
OK
Time taken: 43.527 seconds
(완료되면 클러스터 삭제)
이상
4. 다음은 ...
Reference
이 문제에 관하여(DynamoDB에서 EMR hive를 사용하여 S3에 CSV를 출력해 보았습니다.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/high-u/items/dd8ad5b4226a98c33ff8텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)