Elasticsearch搜索中文分词优化

2022-01-07 00:00:00 索引 匹配 分词 同义词 单字

Elasticsearch 中文搜索时遇到几个问题:

    1. 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”,搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度?
    1. 搜索“RMB”时只会匹配到包含“RMB”关键词的内容,实际上,“RMB”和“人民币”是同义词,我们希望用户搜索“RMB”和“人民币”可以相互匹配,ES同义词怎么配置?
    1. 用户搜索拼音: 如"baidu",或者拼音首字母"bd",怎么匹配到"百度"这个关键词,又如用户输入"摆渡"这个词也能匹配到"百度"关键词,中文拼音匹配怎么做到?
    1. 怎么保证搜索关键词被正确分词,通常我们会采用自定义词典来做,那么怎么获取自定义词典?

接下来从以下几点讲一下怎么ES中文分词

  1. 中文分词器
  2. ES 分词流程之 analysis,analyzer,filter,tokenizer
  3. ES内置分词器
  4. 自定义analyzer
  5. ES同义词功能实现
  6. ES拼写纠错
  7. ES自定义词典获取
  8. 停用词

1.IK 分词器

  • 1,Elasticsearch中文分词我们采用Ik分词,ik有两种分词模式,ik_max_word,和ik_smart模式;
    • ik_max_word 和 ik_smart 什么区别?

ik_max_word: 会将文本做细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合;
ik_smart: 会做粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

索引时,为了提供索引的覆盖范围,通常会采用ik_max_word分析器,会以细粒度分词索引,搜索时为了提高搜索准确度,会采用ik_smart分析器,会以粗粒度分词
字段mapping设置如下:

    "author": {
            "type": "string",
            "analyzer": "ik",
            "search_analyzer": "ik_smart"
        }

相关文章