Lucene基础篇-基本概念

2022-01-19 00:00:00 索引 的是 单词 包含 分词

基本概念

Token

Token在Lucene与在自然语言处理(NLP,Natural-language processing)中的概念相同,表示“词元”。词元即自然语言中的基本单位:在中文表现为一个独立的字或词,在英文中表现为一个单词。

将句子处理成Token的过程,称为分词,而完成分词工作的组件称为分词器(Analyzer)。分词器的选择根据语言、场景而不同:用户可以选择Lucene中内置的分词器,也可以自定义实现分词器。

总的来说,中文分词要比英文分词复杂。本篇介绍英文分词,有关中文分词的内容,后续单独介绍。

在Lucene中,分词通常包含以下步骤:

相关文章