모집 사이트 기술 류 품사 분석제2판

3401 단어 개인 항목
목표: 빅 데이터 프로젝트 연습 수요: 채용 사이트 (잠 정지 련 채용) 에서 채용 정 보 를 얻 고 주파수 통 계 를 통 해기업 이 IT 인재 에 대한 수요 사용 구 조 를 분석: 플랫폼: 아 리 클 라 우 드 파충류: scrapyhttps://docs.scrapy.org/en/latest/index.html 한 LP 중국어 단어https://github.com/hankcs/HanLP 로그 수집: Flume 데이터 컴 퓨 팅 플랫폼: Hadoop 프로 세 스 1. 파충 류 를 통 해 지 정 된 일자리 의 채용 정 보 를 얻 습 니 다.처리 대기 파일 생 성 2. Flume 을 사용 하여 정기 적 으로 파일 수집 3. spark 를 데이터 처리 플랫폼 으로 사용 4. spark 에서 HanLP 를 사용 하여 중국어 단어 작업 5. 셸 을 사용 하여 워 크 플 로 스케줄 링 6. 반자동 화 처리
개발 과정 에서 발생 한 문제 1. 웹 페이지 에서 콘 텐 츠 를 기어 오 르 기 때문에 trim 으로 제거 할 수 없 는 빈 칸, UTF - 8 인 코딩 의 빈 칸 (194 160) 을 만 났 습 니 다. 해결 방법:
byte[] utf8Space = new byte[]{(byte) 0xc2, (byte) 0xa0};
String mSpace = new String(utf8Space, "utf8");

//[-62,-92]    
word = word.replaceAll(mSpace,"");

2. HanLP 는 로 컬 모드 에서 잘 작 동 하지만 클 러 스 터 모드 에서 문제 가 있 습 니 다. 클 러 스 터 모드 에서 코드 에 사용자 정의 단 어 를 동적 으로 추가 하 는 것 이 잘못 되 었 습 니 다.사용자 정의 단 어 는 사용자 정의 단어 파일 을 추가 하 는 형식 으로 만 존재 합 니 다 ① hanlp. properties 는 spark 의 conf 디 렉 터 리 아래 ② hanlp. properties 의 root 가 Liux 를 가리 키 는 로 컬 사전 정 보 를 저장 하 는 폴 더 ③ 클 러 스 터 에 있 는 모든 기 계 를 완성 해 야 합 니 다 ② ④ 사용자 정의 단어 사전 이 업데이트 되면 custom 폴 더 에 있 는. bin 파일 을 삭제 합 니 다.사용자 정의 단어 가 적 용 됩 니 다.
3. flume 은 spooldir 모드 를 사용 합 니 다. 이 모드 에서 하나의 변 수 는 주의해 야 합 니 다. 저 는 전체 줄 에서 데 이 터 를 읽 고 싶 기 때문에 spark 에서 도 모든 행위 에 기록 되 어 있 기 때문에 flume 가 데 이 터 를 hdfs 로 전송 하 는 구조 가 변 하지 않도록 해 야 합 니 다.
LINE 는 줄 마다 문자 개 수 를 설정 하 는 속성 이 있 습 니 다. deserializer. maxLine Length 는 기본적으로 2048 이 며, 이 문자 수 보다 큰 줄 은 절 단 됩 니 다.
수정 방법
agent1.sources.spooldirSource.deserializer.maxLineLength =1048576

줄 마다 데이터 가 차단 되 지 않도록 비교적 큰 상한 선 을 설정 하 세 요.
4. crontab 사용
crontab -e

편집 인터페이스 에 들 어가 면 다음 코드 는 매일 정시 에 작업 스 크 립 트 를 시작 합 니 다.
53 13 * * * /home/hadoop/lib/start_tech_analyze.sh &>/home/hadoop/data/tech_analyze_log.txt 2>&1

① crontab 를 사용 할 때 출력 내용 의 재 설정 &>/home/hadoop/data/tech_analyze_log.txt 2>&1 을 추가 해 야 합 니 다. 그렇지 않 으 면 한편 으로 는 출력 결 과 를 볼 수 없 으 며, 다른 한편 으로 는 crontab 는 / var / mail / $user 에 기본적으로 출력 되 어 있 습 니 다.② crontab 를 사용 할 때 실행 스 크 립 트 는 기본적으로 사용자 의 환경 변 수 를 불 러 오지 않 기 때문에 스 크 립 트 에 사용자 환경 변 수 를 불 러 옵 니 다.
. ~/.bash_profile

③ crontab 조작
$ service crond start //    
$ service crond stop //    
$ service crond restart //    

좋은 웹페이지 즐겨찾기