20211111
1이 다섯개!
linux
head, tail
특히 tail에 -t(실시간) 옵션을 붙여서 log를 보는 경우가 많다
databricks snowflake
돈을 내지만 그래도 하둡을 편리하게 이용할 수 있다.
data = LOAD '/mydata/sample.csv' using PigStorage(',') as (place:chararray, place_date:chararray, period:chararray, avg_val:int, min_val:int, max_val:int)
limit_data = LIMIT data 10;
dump data;
limit_data = LIMIT data 10;
dump limit_data;
rank_data = rank data;
limit_data = LIMIT rank_data 10;
dump limit_data
data2 = filter rank_data by (rank_data > 1);
data3 = foreach data2 generate place, place_date, avg_val;
STORE data3 INTO '/mydata/pig';
STORE data3 INTO '/mydata/pig2' using PigStorage(',');
hive --service metastore &
hive --service hiveserver &
앤드표시는 백그라운드 실행 해당 서비스 두가지를 실행한다 하이브로 백그라운드에서
pig -useHCatalog
접속
### 출발-도착지 공항 스케줄이 많은 순으로 출력
airport_info = LOAD 'airport_info' USING org.apache.hive.hcatalog.pig.HCatLoader();
rt = group airport_info by (airport, city);
result = foreach rt generate FLATTEN(group), COUNT(airport_info) as count;
sort_result = ORDER result BY count DESC;
STORE sort_result INTO ‘/mydata/airport_info’;
Author And Source
이 문제에 관하여(20211111), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@soe8192/20211111저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)