모집 사이트 기술 류 품사 분석제2판
3401 단어 개인 항목
개발 과정 에서 발생 한 문제 1. 웹 페이지 에서 콘 텐 츠 를 기어 오 르 기 때문에 trim 으로 제거 할 수 없 는 빈 칸, UTF - 8 인 코딩 의 빈 칸 (194 160) 을 만 났 습 니 다. 해결 방법:
byte[] utf8Space = new byte[]{(byte) 0xc2, (byte) 0xa0};
String mSpace = new String(utf8Space, "utf8");
//[-62,-92]
word = word.replaceAll(mSpace,"");
2. HanLP 는 로 컬 모드 에서 잘 작 동 하지만 클 러 스 터 모드 에서 문제 가 있 습 니 다. 클 러 스 터 모드 에서 코드 에 사용자 정의 단 어 를 동적 으로 추가 하 는 것 이 잘못 되 었 습 니 다.사용자 정의 단 어 는 사용자 정의 단어 파일 을 추가 하 는 형식 으로 만 존재 합 니 다 ① hanlp. properties 는 spark 의 conf 디 렉 터 리 아래 ② hanlp. properties 의 root 가 Liux 를 가리 키 는 로 컬 사전 정 보 를 저장 하 는 폴 더 ③ 클 러 스 터 에 있 는 모든 기 계 를 완성 해 야 합 니 다 ② ④ 사용자 정의 단어 사전 이 업데이트 되면 custom 폴 더 에 있 는. bin 파일 을 삭제 합 니 다.사용자 정의 단어 가 적 용 됩 니 다.
3. flume 은 spooldir 모드 를 사용 합 니 다. 이 모드 에서 하나의 변 수 는 주의해 야 합 니 다. 저 는 전체 줄 에서 데 이 터 를 읽 고 싶 기 때문에 spark 에서 도 모든 행위 에 기록 되 어 있 기 때문에 flume 가 데 이 터 를 hdfs 로 전송 하 는 구조 가 변 하지 않도록 해 야 합 니 다.
LINE 는 줄 마다 문자 개 수 를 설정 하 는 속성 이 있 습 니 다. deserializer. maxLine Length 는 기본적으로 2048 이 며, 이 문자 수 보다 큰 줄 은 절 단 됩 니 다.
수정 방법
agent1.sources.spooldirSource.deserializer.maxLineLength =1048576
줄 마다 데이터 가 차단 되 지 않도록 비교적 큰 상한 선 을 설정 하 세 요.
4. crontab 사용
crontab -e
편집 인터페이스 에 들 어가 면 다음 코드 는 매일 정시 에 작업 스 크 립 트 를 시작 합 니 다.
53 13 * * * /home/hadoop/lib/start_tech_analyze.sh &>/home/hadoop/data/tech_analyze_log.txt 2>&1
① crontab 를 사용 할 때 출력 내용 의 재 설정
&>/home/hadoop/data/tech_analyze_log.txt 2>&1
을 추가 해 야 합 니 다. 그렇지 않 으 면 한편 으로 는 출력 결 과 를 볼 수 없 으 며, 다른 한편 으로 는 crontab 는 / var / mail / $user 에 기본적으로 출력 되 어 있 습 니 다.② crontab 를 사용 할 때 실행 스 크 립 트 는 기본적으로 사용자 의 환경 변 수 를 불 러 오지 않 기 때문에 스 크 립 트 에 사용자 환경 변 수 를 불 러 옵 니 다.. ~/.bash_profile
③ crontab 조작
$ service crond start //
$ service crond stop //
$ service crond restart //
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
모집 사이트 기술 류 품사 분석제2판클 러 스 터 모드 에서 코드 에 사용자 정의 단 어 를 동적 으로 추가 하 는 것 이 잘못 되 었 습 니 다.사용자 정의 단 어 는 사용자 정의 단어 파일 을 추가 하 는 형식 으로 만 존재 합 니 다 ① hanl...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.