ikanalyzer for solr4.3(ik4solr4.3)

ik4solr4.3
solr 4.3 의 ik 분사 기([https://github.com/lgnlgn/ik4solr4.3] 주요 변경 은 내 가 완성 한 것 이 아니 라 단지 지적 할 뿐이다.마 븐 사용)

solr 자신의 환경 에서 사용자 정의 사전 을 가 져 오 는 것 을 지원 합 니 다(solr 의 Resource Loader 를 사용 하면 사전 파일 을 conf 디 렉 터 리 에 넣 기만 하면 됩 니 다)

4.567917.정기 적 으로 갱신 하 는 사용 정지 어,동의어 공장 류 를 추가 합 니 다==============나 는 분할 선====다음은 상세 설명====================================

6.1      
①、           ，         。 
     org.wltea.analyzer.core  LexemePath.java：compareTo(LexemePath)  

②、         ，       (  stopFilter  )
 org.wltea.analyzer.dic  Dictionary.java：
 /*         */
private DictCharNode _CharFreqDict;

 DictCharNode.java ：
 HashMap           。

③、  solr   
 org.wltea.analyzer.lucene  。
 、IKHandler.java：    HTTP  ，              。
        ：http://xxx/ikupdate?dicpath=dic.txt
        ：1、           。
              2、 Zookeeper    ，            ，   。
        ：  solrconfig.xml   
<requestHandler name="/ikupdate" class="org.wltea.analyzer.lucene.IKHandler">
    <lst name="defaults">
    </lst> 
</requestHandler>
        
<str name=”dicpath”>dic.txt</str>

 、IKTokenizerFactory.java
IKTokenizer.java：    IK       。
        ：IK        ，            _MainDict 。
        ： schema.xml ，  dicpath   ，       ，    。
                      Dictionary  ，addDic2MainDic()  

 、IKStopFilter.java
IKStopFilterFactory.java：     
IKSynonymFilterFactory.java：     
        ：1、       solr      
              2、2     schema.xml    autoupdate   ， true，                                。
        ： schema.xml ，         ，     。

 、TimelyThread.java：
            ，     autoupdate=true，         ，             。

 、schema.xml  



  < fieldType name="text_cn" class="solr.TextField" positionIncrementGap="100" >        

  <analyzer type="index" >       
    < tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" />
    < filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
   < filter class="solr.LowerCaseFilterFactory"/>
  < /analyzer>

  < analyzer type="query">
    <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" dicPath="extDic.txt,extDic1.txt"/>
    <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" autoupdate="true"/>
    <filter class="org.wltea.analyzer.lucene.IKSynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" autoupdate="true"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
  </fieldType>

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

NLP: 중국어 단어 알고리즘 - 정방 향 최대 일치 Forward Maximum Matching

어떤 경우, 우 리 는 서버 에서 중국어 텍스트 단 어 를 진행 할 때 mmseg 알고리즘 을 기반 으로 한 완전한 단어 모듈 을 사용 할 수 있 습 니 다. FMM (정방 향 최대 일치) 을 할 때 단어의 결 과 ...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

ikanalyzer for solr4.3(ik4solr4.3)

좋은 웹페이지 즐겨찾기