hadop + hive apache nginx 방문 로그 분석 (1)

1839 단어
처음 보 는 사이 인 데, 계속해서 몇 편의 문 서 를 보고 어리둥절 하 게 실험 을 하 였 다.
모두 세 대의 기계 가 한 대 에 마스터 두 대의 슬 레이 브 이다.
Hive 마스터 에 설치 (설치 방법 정리 대기)
my sql 도 설치 해 야 합 니 다.
hive conf 디 렉 터 리 의 hive - site. xml 수정
증가시키다
<property>
<name>hive.aux.jars.path</name>
<value>file:///opt/hive/lib/hive-contrib-0.10.0.jar</value>
</property>

file:///opt/hive/lib/hive-contrib-0.10.0.jar  이것 은 나의 설치 디 렉 터 리 입 니 다. 만약 당신 의 hive 가 이 버 전이 아니라면 hive - contrib 로 시작 하 는. jar 파일 을 찾 으 십시오.
그리고 데이터베이스 시트 를 만 들 기 시작 합 니 다. \ # hive hive 모드 에 들 어가 서 다음 SQL 문 구 를 입력 하 십시오.
hive> CREATE TABLE  apachelog  (ipaddress STRING,identity STRING,user STRING,time STRING,request STRING,protocol STRING,status STRING,size STRING,referer STRING,agent STRING) ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' WITH SERDEPROPERTIES ("input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*) ([^ ]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\".*\") ([^ \"]*|\".*\"))?","output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s %10$s")STORED AS TEXTFILE;

물론 위 에 있 는 SQL 문 구 를 지정 한 파일 에 기록 하고 (예 를 들 어 import. sql) 실행 합 니 다. source  import.sql
오류 가 발생 하면 mysql 이 시작 되 었 는 지, 아니면 mysql 이 설정 되 어 있 는 지 확인 하 십시오
표 문 구 를 만 든 후 show tables 를 실행 할 수 있 습 니 다. 명령 은 우리 가 방금 만 든 시 계 를 보 려 고 합 니 다.
마지막 으로 분석 할 로그 파일 가 져 오기
hive>load data local inpath '/home/log/map.gz' overwrite into table apachelog;  

로그 지원. gz 등 형식 가 져 오기
가 져 오기 완료 후 select * from 실행 가능 apachelog limit 10 ; 앞의 10 가지 데 이 터 를 살 펴 보 겠 습 니 다.
 기록 이 거 칠 고 초보 자 들 이 함께 공부 하 는 데 도움 이 되 기 를 바 랍 니 다.

좋은 웹페이지 즐겨찾기