C++搜索引擎—Xapian中文简介
个人翻译,如有漏缺、错误,欢迎批评指正,仅供参考。
官方主页对Xapian的介绍
Xapian 是在GPL下发布的开源搜索引擎库。它是用C++语言编写的,除了提供原生的C++编程接口之外,允许使用Perl、 Python、 PHP、 Java、 Tcl、 C#、Ruby, Lua, Erlang和Node.js绑定(到目前为止)。
Xapian是一个高度灵活的工具,使开发人员能够在到自己的应用程序中轻松地添加的索引和搜索功能。它支持概率信息检索模型,还支持一组丰富的布尔查询操作符。
新的稳定版本是 1.2.21,发布日期是2015-05-20。
新的开发版本是 1.3.3,发布日期是2015-06-01。
Xapian功能(官方)
Xapian 的特色包括:
●自由软件/开源–GPL许可。
●支持Unicode(包括超越BMP的码点),并以UTF-8编码存储索引数据。
●高度可移植性—可运行在 Linux、 Mac OS X、 FreeBSD、 NetBSD、 OpenBSD、 Solaris、 惠普 UX、 Tru64、IRIX 和其他 Unix 平台上;并且也支持微软 Windows 和 OS/2。
●用C++语言编写,支持其他许多语言的动态绑定。
●概率搜索排序–重要的词语比不重要的词汇有更高的权重,所以相关的文档更容易靠近结果列表的顶部。
●相关性反馈——给定一个或多个文档,Xapian可以展示相关的索引词扩展查询,展示相关文档,对文档进行分类,等等。
●短语和近似搜索——无论在指定的顺序中或其他任何顺序,用户都可以搜索一个确切的短语或者特定数量的词语。
●全方位结构化的布尔搜索操作符。布尔搜索结果以概率权重排序。也可以用布尔筛选器来限制概率搜索。
●支持搜索词的词干(例如搜索“足球”将匹配文件当中提到的“足球”、“足球先生”)。这有助于找到可能丢失的相关文档。雪球词干分析器目前包括丹麦、荷兰语、英语、芬兰、法国、德国、匈牙利、意大利、挪威、葡萄牙、罗马尼亚、俄罗斯、西班牙、瑞典、土耳其。
●支持通配符搜索 (如”xap *”)。
●支持同义词搜索,同义词自动作为一种扩展。
●Xapian可以为用户的查询提供显示拼写纠正。这是基于词语出现在索引的数据中,即使字典中也不存在这个单词。(如。“xapian”将建议改为“xapain”)。
●支持面搜索。
●支持的数据库文件大于2GB——这是扩展到大型文档集合的必要条件。
●平台无关的数据格式,你可以在一台机器上建立一个数据库而在另一台机器上搜索。
●允许同时更新和搜索。新的文档可以立即被搜索。
————————————————
版权声明:本文为CSDN博主「lesliefish」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/y396397735/article/details/49624551
相关文章