博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Solr5.5.1 IK中文分词配置与使用
阅读量:5348 次
发布时间:2019-06-15

本文共 960 字,大约阅读时间需要 3 分钟。

前言

      用过Lucene.net的都知道,我们自己搭建索引服务器时和解决搜索匹配度的问题都用到过盘古分词。其中包含一个词典。 那么既然用到了这种国际化的框架,那么就避免不了中文分词。尤其是国内特殊行业比较多。比如油田系统从勘探、打井、投产等若干环节都涉及一些专业词汇。 再像电商,手机、手机配件、笔记本、笔记本配件之类。汽车,品牌、车系、车型等等,这一系列数据背后都涉及各自领域的专业名次,所以中文分词就最终的目的还是为了解决搜索结果的精确度和匹配度的问题。

 

IK搜索预览

     我的univeral Core里包含两条数据,第二条数据的title和author都是中文的。 然后我用关键字q=title:平凡来搜索,搜索出来第二条数据。 如果你在你的索引库里没搜索出来也不要奇怪,配置下IK中文分词就可以了。

 

中文语义分析

    在索引库Core左侧菜单Analysis中,你可以输入复杂的查询【关键字】,选择对应字段,点击【Analysis Values】会帮你分析出当前这个复杂的词组都会分解出那几个搜索关键字或关键词来。如果这里满足不了你的专业词汇,那就该从词典下手了。我这里输入了:平凡的世界。分析后得出两个词:平凡、世界。 也就是我在上一张图中用平凡搜索的结果。

 

中文分词的配置和使用

     1、下载对应IK版本。我本地部署的Solr5.5.1。 所以就下载最新版本。

     2、把ik目录下的文件复制到tomcat/webapps/solr/WEB-INF/lib目录下。 ik目录里有一个ext.dic、stopword.dic。 可以打开看一看里面内容。

     3、修改schema.xml。我本地是univeral/conf/managed-schema。 增加中文分词配置节点,内容如下

     

      4、修改对应field的类型。我修改了两个字段

 

     参考教程:

 

备注

    如果之前你已经创建了索引,那么配置IK中文分词后先修改schema.xml中的field对应类型。 清空索引后重新创建索引。 OK。大功搞成。

转载于:https://www.cnblogs.com/sword-successful/p/5604541.html

你可能感兴趣的文章
WPF之Binding
查看>>
【BZOJ】【2132】圈地计划
查看>>
HTML图片映射实用
查看>>
DP题目 sicily 1687 Permutation
查看>>
转载:无线测试
查看>>
Hadoop框架之HDFS的shell操作
查看>>
mybatis 学习四 (上)resutlMap
查看>>
ES6学习之数组的扩展
查看>>
Lua 语言基本语法
查看>>
ARM 的Thumb状态测试
查看>>
windows下读取utf-8文件
查看>>
apache 启动不了的排查方法
查看>>
Java有没有goto?
查看>>
(转)makefile 的用法
查看>>
Linux云自动化运维第十六课
查看>>
1.秋招复习简单整理之红黑树性质
查看>>
hive基础2
查看>>
CocoaPods Mac App的安装和使用
查看>>
python 正则表达式匹配ip
查看>>
Flask实战-留言板-使用Faker生成虚拟数据 --
查看>>