Solr----3、solr7.2.0配置IKAnalyzer和自带的中文分词器

论坛 期权论坛 脚本     
匿名网站用户   2020-12-21 11:19   3083   0

上篇文章中讲解如何安装单机版的solr,作为国内的网站,分析肯定是配置中文分析器!

在solr4.4中我们使用的是IKAnalyzer中文分词器V2012版,现在都是2017年了啊!solr7本身提供了更好的方式!在solr7.2.0本身提供中文的分词jar包,只需要我们进行简单的配置即可!但是在这里我还是会介绍IKAnalyzer中文分词器配置。

1. solr7.2.0自带的中文分词器

环境:win7 jdk1.8 tomcat8 solr7.2.0 lucene-analyzers-smartcn-7.2.0.jar

将解压后的solr-7.2.0\contrib\analysis-extras\lucene-libs下的lucene-analyzers-smartcn-7.2.0.jar放到Tomcat8\webapps\solr\WEB-INF\lib下。

在Tomcat8\solr_h\solrhome\solr_core\conf找到managed-schema 添加已下代码

<fieldType name="text_ik_zd" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
</analyzer>
</fieldType>

重新启动Tomcat8,就可以使用solr自带的分词器了

2. solr7.2.0配置ik中文分词器

环境:win7 jdk1.8 tomcat8 solr7.2.0 ik5.5


IK分词器:

  • ext.dic为扩展字典
  • stopword.dic为停止词字典
  • IKAnalyzer.cfg.xml为配置文件
  • solr-analyzer-ik-5.1.0.jar ik-analyzer-solr5-5.x.jar为分词jar包。

  • 1:将IK分词器 JAR 包拷贝到Tomcat8\webapps\solr\WEB-INF\lib下

  • 2:将词典 配置文件拷贝到Tomcat8\webapps\solr\WEB-INF\classes下

  • 3: 更改在Tomcat8\solr_h\solrhome\solr_core\conf找到managed-schema配置文件,添加以下:

  • <fieldType name="text_ik" class="solr.TextField">
    <analyzer type="index">
    <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/>
    </analyzer>
    <analyzer type="query">
    <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/>
    </analyzer>
    </fieldType>

重新启动Tomcat8,就可以使用ik的分词器了




分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:1136255
帖子:227251
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP