ikanalyzer for solr4.3(ik4solr4.3)
solr 4.3 의 ik 분사 기([https://github.com/lgnlgn/ik4solr4.3] 주요 변경 은 내 가 완성 한 것 이 아니 라 단지 지적 할 뿐이다.마 븐 사용)
6.1
①、 , 。
org.wltea.analyzer.core LexemePath.java:compareTo(LexemePath)
②、 , ( stopFilter )
org.wltea.analyzer.dic Dictionary.java:
/* */
private DictCharNode _CharFreqDict;
DictCharNode.java :
HashMap 。
③、 solr
org.wltea.analyzer.lucene 。
、IKHandler.java: HTTP , 。
:http://xxx/ikupdate?dicpath=dic.txt
:1、 。
2、 Zookeeper , , 。
: solrconfig.xml
<requestHandler name="/ikupdate" class="org.wltea.analyzer.lucene.IKHandler">
<lst name="defaults">
</lst>
</requestHandler>
<str name=”dicpath”>dic.txt</str>
、IKTokenizerFactory.java
IKTokenizer.java: IK 。
:IK , _MainDict 。
: schema.xml , dicpath , , 。
Dictionary ,addDic2MainDic()
、IKStopFilter.java
IKStopFilterFactory.java:
IKSynonymFilterFactory.java:
:1、 solr
2、2 schema.xml autoupdate , true, 。
: schema.xml , , 。
、TimelyThread.java:
, autoupdate=true, , 。
、schema.xml
< fieldType name="text_cn" class="solr.TextField" positionIncrementGap="100" >
<analyzer type="index" >
< tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" />
< filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
< filter class="solr.LowerCaseFilterFactory"/>
< /analyzer>
< analyzer type="query">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" dicPath="extDic.txt,extDic1.txt"/>
<filter class="org.wltea.analyzer.lucene.IKStopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" autoupdate="true"/>
<filter class="org.wltea.analyzer.lucene.IKSynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" autoupdate="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
NLP: 중국어 단어 알고리즘 - 정방 향 최대 일치 Forward Maximum Matching어떤 경우, 우 리 는 서버 에서 중국어 텍스트 단 어 를 진행 할 때 mmseg 알고리즘 을 기반 으로 한 완전한 단어 모듈 을 사용 할 수 있 습 니 다. FMM (정방 향 최대 일치) 을 할 때 단어의 결 과 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.