ES 中文分词器ik及自定义远程词库

发布时间 2023-07-02 16:42:49作者: 爵士灬

ik分词器安装部署 

下载地址:https://github.com/medcl/elasticsearch-analysis-ik

注意es和ik分词器的版本匹配.这里下载7.9.3的ik分词器

下载完毕之后去es的工作目录的plugins文件夹下新建ik文件夹,将下载下来的ik压缩包解压缩至ik文件夹下,重启e

 

 

 

词库介绍

ik分词器主要有以下词库,位于config目录下

(1)、main.dic 主词库,包含日常生活中常用的词

(2)、stopword.dic 英文停用词,当出现该词库中的文本内容时,将不会建立倒排索引

(3)、quantifier.dic 计量单位等

(4)、suffix.dic 后缀名、行政单位等

(5)、surname.dic 百家姓等

(6)、preposition.dic 语气词等

 

配置介绍

IKAnalyzer.cfg.xml ik配置文件位于config目录下,可在此文件配置自定义热词、停词

 

手动配置

一般情况下,词库是够用的,但是如果碰到一些特殊词汇如网络用词,这个时候就需要手动添加相关的词汇进入到词库中.ik添加自定义词库的步骤如下

(1)、在config目录下,新增自定义词库文件

 

 

 (2)、将新增的文件配置的到IKAnalyzer.cfg.xml

 (3)、效果测试