Xapian索引-文档检索过程分析

2022-04-27 00:00:00 文档计算检索打分公式

本文是Xapian检索过程的分析，本文内容中源码比较多。检索过程，总的来说就是拉取倒排链，取得合法doc，然后做打分排序的过程。

1 理论分析

1.1 检索语法

面对不同的检索业务，我们会有多种检索需求，譬如：要求A term和B term都在Doc中出现；要求A term或者B term任意在Doc中出现；要求A term或者B term任意在Doc出现，并且C term不出现…...，用符号表示：

A & B

A || B

(A || B) & ~C

( A & ( B || C ) ) || D

…

以上的种种检索需求，复杂繁多，每一个检索需求都单独实现一份代码，是不现实的，需要有一种简单、高效、可扩展的检索语法来支持他们。

1.2 检索过程

首先是根据业务需求，组装检索语句，然后调用检索内核提供的API获取检索结果。

检索内核的实现，以xapian为例：首先根据用户组装的检索语句形成query-tree（query检索树），然后将query-tree转换为postlist-tree（倒排链树），后获取postlist-tree运算后的结果。在获取postlist-tree和后的计算过程中，穿插着相关性公式（如：BM25）的运算。

1.3 相关性

计算query跟doc相关性方式有好几种，

（1）布尔模型（Boolean Model）
判断用户的term在不在文档中出现，如果出现了则认为文档跟用户需求相关，否则认为不相关。
优点：简单；
缺点：结果是二元的，只有YES 或者 NO，多条结果之间没有先后顺序；

（2）向量空间模型（Vector Space Model）
将query和doc都向量化，计算query跟doc的余弦值，这个值就是query跟doc的相似性打分。这里将查询跟文档的内容相似性替换相关性。
这个模型对长文本比较抑制。
consine公式：向量点积 / 向量长度相乘。
那么，怎么向量化？每一纬的值，给多少合适？
词频因子（TF）：某个单词在文档中出现的次数；一般取log做平滑，避免直接使用词频导致出现1次和出现10次的term权重差异过大。常见公式: Wtf = 1 + log(TF). 常量1是为了避免TF=1时，log(TF) = 0，导致W变成0。
变体公式： Wtf = a + (1 - a) * TF/Max(TF)，其中a是调节因子，取值0.4或者0.5，TF表示词频，Max(TF)表示文档中出现次数多的单词对应的词频数目。这个变种有利于抑制长文本，使得不同长度文档的词频因子具有可比性。
逆文档频率因子（IDF）：包含有某个词的文档数量的倒数。如果一个词在所有文档中都出现，那么这个词对文档的区分度贡献不高，不是那么重要，反之，则说明这个词很重要。
公式： IDFk = log(N/nk)， N代表文档集合总共有多少个文档；nk代表词在多少个文档中出现过。

TF*IDF框架：
Weight = TF * IDF

（3）概率检索模型
BIM模型的公式，由四个部分组成，这四个部分可以理解为：

1、含有某term的doc在相关集合中出现的次数，正面因素；
2、不含有某term的doc在相关集合中出现的次数，负面因素；
3、含有某term的doc在不相关集合中出现的次数，负面因素；
4、不含有某term的doc在不相关集合中不出现的次数，正面因素。

BM25公式，三部分：1、BIM模型，等价于IDF；2、term在文档中的权重（doc-tf）；3、term在query中的权重（query-tf）；

N，表示索引中总的文档数，
Ni，表示索引中包含有term的文档数，也就是df，
fi，表示term在文档中出现的次数，
qfi，表示term在query中出现的次数，
dl，表示文档长度，
avdl，表示平均文档长度

BM25F
考虑到不同的域，对第二部分的平均长度、调节因子，需要根据不同的域设置不同的值，并且需要一个跟域相关联的权重值。

相关性部分资料参考：《这就是搜索引擎》

2 源码分析

2.1 主要类

下面以xapian为例，介绍一般检索过程，因涉及源码众多，部分枝节策略不一一细说。首先，这里列出，涉及到的主要类，从这里也可以一窥xapian在检索上的设计思路。

绿色背景的块是用户看到的，蓝色背景是其底层涉及到的。

Enquire::Internal，Enquire的内部实现，Xapian的设计风格都是包一层壳，功能实际的实现放在Internal中；

BM25Weight，Xapian默认使用的相关性打分类；

Weight::Internal，打分需要用到的基础信息，譬如：索引库文档量、索引库总的term长度、query里的 term的tf、df数据…；

MultiMatch，检索的实现类；

LocalSubMatch，本地子索引库操作的封装。 xapian支持远程索引库，也支持一个索引库拆分成多个子索引库；

QueryOptimiser ，从Query-Tree构建PostList-Tree时的帮助类，主要记录了一些子索引库相关的信息，譬如：LocalSubMatch的引用、索引库DataBase的引用…；

QueryOr、QueryBranch、QueryTerm ，这系列是Query Tree上的一个个类；

PostList、LeafPostList，PostList-Tree上的一个个类；

InMemoryPostList，内存索引库的PostList封装；

OrContext，记录在Query-Tree转PostList-Tree过程中的PostList上下文信息，包括：QueryOptimiser对象指针、临时存放的PostList指针；

2.2 检索过程

2.2.1 用户demo代码

Xapian::Query term_one = Xapian::Query("T世界");
Xapian::Query term_two = Xapian::Query("T比赛");
Xapian::Query query = Xapian::Query(Xapian::Query::OP_OR, term_one, term_two); // query组装

std::cout << "query=" << query.get_description() << std::endl;

Xapian::Enquire enquire(db);
enquire.set_query(query);
Xapian::MSet result = enquire.get_mset(, 10); // 执行检索，获取结果
std::cout << "find results count=" << result.get_matches_estimated() << std::endl;

for (auto it = result.begin(); it != result.end(); ++it) {
    Xapian::Document doc = it.get_document();
    std::string data = doc.get_data();
    double doc_score_weight = it.get_weight();
    int doc_score_percent = it.get_percent();
    std::cout << "doc=" << data << ",weight=" << doc_score_weight << ",percent=" << doc_score_percent << std::endl;
}

相关文章