Solr配置IK Analyzer分词器

论坛 期权论坛 脚本     
匿名网站用户   2020-12-21 11:19   3642   0

solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。


一、版本信息

solr版本:4.7.0

需要ik-analyzer版本:IK Analyzer 2012FF_hf1

ik-analyzer下载地址:http://code.google.com/p/ik-analyzer/downloads/list


二、配置步骤

下载压缩解压后得到如下目录结构的文件夹:

我们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。

我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf下面,和core的schema.xml文件一个目录。

修改core的schema.xml,在<types></types>配置项间加一段如下配置:

  1. <fieldTypename="text_ik"class="solr.TextField">
  2. <analyzerclass="org.wltea.analyzer.lucene.IKAnalyzer"/>
  3. </fieldType>
我们就多了一种text_ik的field类型了,该类型使用的分词器就是ik-analyzer

我们在这个core的schema.xml里面配置field类型的时候就可以使用text_ik了。

  1. <fieldname="name"type="text_ik"indexed="true"stored="true"multiValued="false"/>

三、中文分词测试

  1. IKT
  2. text
  3. raw_bytes
  4. start
  5. end
  6. type
  7. position
  8. 中华人民共和国
  9. [e4b8ade58d8ee4babae6b091e585b1e5928ce59bbd]
  10. 0
  11. 7
  12. CN_WORD
  13. 1
  14. 中华人民
  15. [e4b8ade58d8ee4babae6b091]
  16. 0
  17. 4
  18. CN_WORD
  19. 2
  20. 中华
  21. [e4b8ade58d8e]
  22. 0
  23. 2
  24. CN_WORD
  25. 3
  26. 华人
  27. [e58d8ee4baba]
  28. 1
  29. 3
  30. CN_WORD
  31. 4
  32. 人民共和国
  33. [e4babae6b091e585b1e5928ce59bbd]
  34. 2
  35. 7
  36. CN_WORD
  37. 5
  38. 人民
  39. [e4babae6b091]
  40. 2
  41. 4
  42. CN_WORD
  43. 6
  44. 共和国
  45. [e585b1e5928ce59bbd]
  46. 4
  47. 7
  48. CN_WORD
  49. 7
  50. 共和
  51. [e585b1e5928c]
  52. 4
  53. 6
  54. CN_WORD
  55. 8
  56. [e59bbd]
  57. 6
  58. 7
  59. CN_CHAR
  60. 9

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:1136255
帖子:227251
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP