博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Elasticsearch安装中文分词插件ik
阅读量:5111 次
发布时间:2019-06-13

本文共 2108 字,大约阅读时间需要 7 分钟。

Elasticsearch默认提供的分词器,会把每一个汉字分开,而不是我们想要的依据关键词来分词。比如:

curl -XPOST  "http://localhost:9200/userinfo/_analyze?analyzer=standard&pretty=true&text=我是中国人"
我们会得到这种结果:

{tokens: [{token: textstart_offset: 2end_offset: 6type: 
position: 1}{token: 我start_offset: 9end_offset: 10type:
position: 2}{token: 是start_offset: 10end_offset: 11type:
position: 3}{token: 中start_offset: 11end_offset: 12type:
position: 4}{token: 国start_offset: 12end_offset: 13type:
position: 5}{token: 人start_offset: 13end_offset: 14type:
position: 6}]}
正常情况下。这不是我们想要的结果,比方我们更希望 “中国人”,“中国”,“我”这种分词。这样我们就须要安装中文分词插件,ik就是实现这个功能的。

elasticsearch-analysis-ik 是一款中文的分词插件,支持自己定义词库。

安装步骤:

1、到github站点下载源码。站点地址为:

右側下方有一个button“Download ZIP"。点击下载源码elasticsearch-analysis-ik-master.zip。

2、解压文件elasticsearch-analysis-ik-master.zip,进入下载文件夹,运行命令:

unzip elasticsearch-analysis-ik-master.zip

3、将解压文件夹文件里config/ik文件夹拷贝到ES安装文件夹config文件夹下。

4、由于是源码。此处须要使用maven打包,进入解压文件夹中,运行命令:
mvn clean package
5、将打包得到的jar文件elasticsearch-analysis-ik-1.2.8-sources.jar拷贝到ES安装文件夹的lib文件夹下。

6、在ES的配置文件config/elasticsearch.yml中添加ik的配置。在最后添加:

index:  analysis:                       analyzer:            ik:          alias: [ik_analyzer]          type: org.elasticsearch.index.analysis.IkAnalyzerProvider      ik_max_word:          type: ik          use_smart: false      ik_smart:          type: ik          use_smart: true
index.analysis.analyzer.ik.type : “ik”
7、又一次启动elasticsearch服务,这样就完毕配置了,收入命令:
curl -XPOST  "http://localhost:9200/userinfo/_analyze?analyzer=ik&pretty=true&text=我是中国人"
測试结果例如以下:
{tokens: [{token: textstart_offset: 2end_offset: 6type: ENGLISHposition: 1}{token: 我start_offset: 9end_offset: 10type: CN_CHARposition: 2}{token: 中国人start_offset: 11end_offset: 14type: CN_WORDposition: 3}{token: 中国start_offset: 11end_offset: 13type: CN_WORDposition: 4}{token: 国人start_offset: 12end_offset: 14type: CN_WORDposition: 5}]}
说明:

1、ES安装插件本来使用使用命令plugin来完毕。可是我本机安装ik时一直不成功,所以就使用源码打包安装了。

2、自己定义词库的方式,请參考 

转载于:https://www.cnblogs.com/jzssuanfa/p/6855654.html

你可能感兴趣的文章
Blender Python UV 学习
查看>>
window添加右键菜单
查看>>
入手腾龙SP AF90mm MACRO
查看>>
Window7上搭建symfony开发环境(PEAR)
查看>>
Linux内核态、用户态简介与IntelCPU特权级别--Ring0-3
查看>>
第23月第24天 git命令 .git-credentials git rm --cached git stash clear
查看>>
java SE :标准输入/输出
查看>>
一些方便系统诊断的bash函数
查看>>
jquery中ajax返回值无法传递到上层函数
查看>>
css3之transform-origin
查看>>
[转]JavaScript快速检测浏览器对CSS3特性的支持
查看>>
Master选举原理
查看>>
[ JAVA编程 ] double类型计算精度丢失问题及解决方法
查看>>
小别离
查看>>
微信小程序-发起 HTTPS 请求
查看>>
WPF动画设置1(转)
查看>>
基于node/mongo的App Docker化测试环境搭建
查看>>
秒杀9种排序算法(JavaScript版)
查看>>
struts.convention.classes.reload配置为true,tomcat启动报错
查看>>
MySQL的并行复制多线程复制MTS(Multi-Threaded Slaves)
查看>>