Fess 빌드(docker)

이것은 첫 번째 보도다.
부족함과 오류 등이 있으면 지적해 주십시오.
전체 텍스트 검색 OSS의 Fess를 가져왔기 때문에 메모입니다.
WEB 시스템 내에서 검색하기 위해 가져온 것입니다.
사용할 때 설정상 힘들기 때문에 공유도 겸유하고 있습니다.

가상 호스트 환경(참조)

  • vagrant + VirtualBox
  • Centos7
  • HDD 50GB
  • Memory 8GB
  • docker (19.03.5)
  • docker-compose (1.25.2)
  • 環境構築


    docker에서 Fess를 구성합니다.
    (경험증 시 codelibs/fess:13.5.0 구축)

    1. 이미지 가져오기


    아래와 같이 GiitHub에서clone 공식 창고를 시작하십시오.git clone https://github.com/codelibs/docker-fess.git

    2. 시작


    docker-compose로 시작하십시오.
    Fess+elasticsearch(2대)+kibana를 시작합니다.
    시작 시간은elasticsearch만 떨어질 수 있지만,restart에서 해결됩니다.docker-compose up -d docker-compose restart시작 후 구성은 다음과 같습니다.
    [root@localhost compose]# docker ps
    CONTAINER ID        IMAGE                                   COMMAND                  CREATED             STATUS              PORTS                                        NAMES
    f054fc200d28        codelibs/fess:13.5.0                    "/bin/sh -c /usr/sha…"   2 months ago        Up About a minute   9200/tcp, 9300/tcp, 0.0.0.0:8081->8080/tcp   fess01
    60b78d5d0f58        docker.elastic.co/kibana/kibana:7.5.1   "/usr/local/bin/dumb…"   2 months ago        Up About a minute   0.0.0.0:5602->5601/tcp                       kibana
    577c9e3abe87        codelibs/fess-elasticsearch:7.5.1       "/usr/local/bin/dock…"   2 months ago        Up About a minute   9300/tcp, 0.0.0.0:9202->9200/tcp             es02
    17089688b1f1        codelibs/fess-elasticsearch:7.5.1       "/usr/local/bin/dock…"   2 months ago        Up About a minute   9300/tcp, 0.0.0.0:9201->9200/tcp             es01
    

    3. 확인/로그인


    http://localhost:8080방문하십시오.
    검색 화면만 나오면 OK.
    또한 오른쪽 상단의 로그인부터 시작하여 관리자에 로그인하십시오.
    초기 PASS는 admin/admin입니다.

    4. 자유형 설정 예


    자유형→WEB.
    항목
    값 설정
    이름:
    web_crawler_test
    URL
    http://xxx.xxx.xxx.xxx/test/
    자유 객체로 사용할 URL
    http://xxx.xxx.xxx.xxx/test/.*
    자유형 대상에서 제외된 URL
    http://xxx.xxx.xxx.xxx/test_out/.* .*history.*
    최대 액세스 수
    200000
    스레드 수
    5
    간격
    500
    상승치
    1.0
    컨디션
    사용 가능
    자유형 대상에서 제외하려면 경로 아래를 지정하십시오.
    특정 문자가 포함된 URL만 제외하려면.*history.*로 지정합니다.
    대상자가 워낙 많아 최대 방문 수는 20만건이다.

    5. 스케줄링 설정


    시스템 - 스케줄러를 엽니다.
    첫 번째와 시험 때는 바로 시작합니다.
    정기 실시에 관해서는 일정 항목만 설정하는 것을 주의해 주십시오.
    분/시/일/월/일 순으로 기재하다.
    예)토요일 0시에 실시하고 싶다→0**6

    6. 결과 확인


    시스템 정보 - 작업 로그를 엽니다.

    스케줄러가 실행한 결과 로그를 표시합니다.
    상태 표시줄에 OK가 표시되면 완료됩니다.

    6-1.(참조) 오류 조사

  • 객체 경로에 액세스할 수 없음 → 호스트 측 이름이 해결되지 않았습니다...
  • 스케줄러 실패→elasticsearch 떨어졌어...(curl로 잘 확인해봐)
  • 집단의 상태는 예를 들어 다음과 같다.
    [root@localhost compose]# curl http://localhost:9201/_cluster/health?pretty
    {
      "cluster_name" : "fess-es",
      "status" : "green",
      "timed_out" : false,
      "number_of_nodes" : 2,
      "number_of_data_nodes" : 2,
      "active_primary_shards" : 91,
      "active_shards" : 182,
      "relocating_shards" : 0,
      "initializing_shards" : 0,
      "unassigned_shards" : 0,
      "delayed_unassigned_shards" : 0,
      "number_of_pending_tasks" : 0,
      "number_of_in_flight_fetch" : 0,
      "task_max_waiting_in_queue_millis" : 0,
      "active_shards_percent_as_number" : 100.0
    }
    

    6-2.(참조) 데이터 획득 0건 조사

  • 클론 객체 URL의 기록 방법이 잘못될 수 있음 → URL의 마지막/(사선) 이 빠질 수 있음...
  • 6-3.(참조) 문자 코드 문제

  • 자유형 대상의 excel이 부호화되었다
    시스템-페이지 디자인-페이지 파일 뷰-searchResults.jsp

  • 이 파일에 문자 코드 변환 스크립트를 삽입합니다.
    (참고 사이트를 잊어버려서 알면 추기합니다.)
    마찬가지로 파일 이름만 표시하고 링크를 줄이려는 외관만
    이 파일을 수정하면 변경할 수 있습니다.
    Fess 컨테이너의 다음 경로에서 이미지 파일 구성하기
    searchResult.jsp를 변경하면FESS 로고를 대체할 수 있습니다
    자신의 로고를 설정할 수도 있습니다.
    root@f054fc200d28:/usr/share/fess/app/images# pwd
    /usr/share/fess/app/images
    root@f054fc200d28:/usr/share/fess/app/images# ls -l
    total 56
    drwxr-xr-x. 2 fess fess    26 Dec 21 03:38 admin
    -rwxr-xr-x. 1 fess fess   506 Dec 21 02:53 blank.png
    -rwxr-xr-x. 1 fess fess 12799 Dec 21 02:53 glyphicons-halflings.png
    -rwxr-xr-x. 1 fess fess  8777 Dec 21 02:53 glyphicons-halflings-white.png
    -rwxr-xr-x. 1 fess fess  5167 Dec 21 02:53 loading.gif
    -rwxr-xr-x. 1 fess fess   907 Dec 21 02:53 logo-head.png
    -rwxr-xr-x. 1 fess fess  2360 Dec 21 02:53 logo.png
    -rwxr-xr-x. 1 fess fess  1529 Dec 21 02:53 logo-top.png
    -rwxr-xr-x. 1 fess fess  1469 Dec 21 02:53 noimage.png
    

    6-4.(참조)default crawler 정보


    일주일에 한 번씩 WEB 자유형을 했지만 상상을 초월한 디스크 자원 소모가 발생했고 자유형이 중도에 끝나지 않기 때문에 다시 얻은 후default crawler는 무효화됐다.
    다음 그림과 같이 대시보드에서 DELETE INDEX를 선택합니다.
    데이터가 사라지기 때문에 다시 얻을 수도 있다.

    과거 자료의 검색 목적일 뿐 단면으로 남아 있기 때문이다.
    default crawler를 정기적으로 실행할 때 부하를 주의하십시오.

    좋은 웹페이지 즐겨찾기