20211111

1이 다섯개!

linux

head, tail

특히 tail에 -t(실시간) 옵션을 붙여서 log를 보는 경우가 많다

databricks snowflake

돈을 내지만 그래도 하둡을 편리하게 이용할 수 있다.

data = LOAD '/mydata/sample.csv' using PigStorage(',') as (place:chararray, place_date:chararray, period:chararray, avg_val:int, min_val:int, max_val:int)
limit_data = LIMIT data 10;
dump data;
limit_data = LIMIT data 10;
dump limit_data;
rank_data = rank data;
limit_data = LIMIT rank_data 10;
dump limit_data
data2 = filter rank_data by (rank_data > 1);
data3 = foreach data2 generate place, place_date, avg_val;
STORE data3 INTO '/mydata/pig';
STORE data3 INTO '/mydata/pig2' using PigStorage(',');

hive --service metastore &
hive --service hiveserver &

앤드표시는 백그라운드 실행 해당 서비스 두가지를 실행한다 하이브로 백그라운드에서
pig -useHCatalog
접속


### 출발-도착지 공항 스케줄이 많은 순으로 출력 
airport_info = LOAD 'airport_info' USING org.apache.hive.hcatalog.pig.HCatLoader();
rt = group airport_info by (airport, city);
result = foreach rt generate FLATTEN(group), COUNT(airport_info) as count;
sort_result = ORDER result BY count DESC;

STORE sort_result INTO ‘/mydata/airport_info’;

Author And Source

이 문제에 관하여(20211111), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@soe8192/20211111

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다