sphinx的安装与使用测试

2022-05-11 00:00:00 索引数据代码复制新华网

Sphinx支持高速建立索引（可达10MB/秒，而Lucene建立索引的速度是1.8MB/秒）高性能搜索（在2-4 GB的文本上搜索，平均0.1秒内获得结果）高扩展性（实测高可对100GB的文本建立索引，单一索引可包含1亿条记录）支持分布式检索支持基于短语和基于统计的复合结果排序机制支持任意数量的文件字段（数值属性或全文检索属性）支持不同的搜索模式（“完全匹配”，“短语匹配”和“任一匹配”）支持作为Mysql的存储引擎

安装

从官网http://sphinxsearch.com下载新版本。windows版本是一个压缩包，本地解压可以直接使用。目录结构如下:

\
|-api\  各种语言api文件
|-bin\  
|   |-indexer.exe   索引创建程序
|   |-searchd.exe   搜索服务程序
|-doc\  文档
|-etc\  配置文件夹
|   |-sphinx-min.conf.dist
|   |-sphinx.conf.dist
|-misc\ 
|-src\复制代码

配置

sphinx的示例配置文件在etc文件夹中。复制sphinx-min.conf.dict 到sphinx.conf

主索引配置。对于中文，source中需要指定sql连接字符集，避免拿到的数据是乱码。在生成主索引的同时，我们还需要更新所以后创建时间，因此需要一些额外操作。可以使用sql_query_post执行指定的sql语句，将数据保存到数据库中。

source 一些配置说明:

说明
sql_query_pre：前置sql操作，用户设置连接字符集，定义一些sql变量
sql_query：数据获取sql语句
sql_query_post：数据获取之后的sql操作，用于保存一些状态数据等
sql_query_killlist：屏蔽索引id数据源，用来告诉sphinx，哪些索引id要屏蔽,配合kbatch使用

index 配置说明:

说明
source：使用数据配置名，对应source配置名称
path：索引数据保存路径
mlock：索引缓存设置，0不使用
min_word_len：索引的词的小长度设为1 既可以搜索单个字节搜索,越小索引越,但建立索引花费的时间越长
ngram_len：对于非字母型数据的长度切割(默认已字符和数字切割,设置1为按没个字母切割)
ngram_chars：ngram 字符集，中文需要配置
kbatch：屏蔽索引的列表

使用

先来看如何把sphinx集成到业务当中。sphinx可以设置多个索引。虽然sphinx生成索引很快，但是对于大量数据，每次数据变更多重新建索引，还是会有很大的额外开销。目前主要的解决方案是通过更新增量索引实现sphinx数据实时更新。索引sphinx中其实有两个索引数据，一个全量索引，一个增量索引。如果数据是后面新增的，会在增量索引中找到。如果数据修改，或删除，则配合sql_query_killlist可以屏蔽旧的索引数据，从而保证对修改的数据以增量索引为主。以下是sphinx使用的一个说明图:

实验

普通搜索

mysql中建立三个表，config用于保存sphinx状态数据，changes保存变更记录数据，posts是源数据。post中插入一条数据:

INSERT INTO `test`.`posts` (`id`, `title`, `sub_title`, `summary`, `status`, `create_at`, `update_at`) VALUES ('1', '百度新华网', '百度新华网', '百度新华网', '1', '0', '1545982266');复制代码

在命令行中生成全量索引

 ./indexer.exe --config /d/soft/sphinx-3.1.1/etc/sphinx.conf --all复制代码

然后启动搜索服务:

./searchd.exe --config /d/soft/sphinx-3.1.1/etc/sphinx.conf复制代码

执行php脚本，搜索"新华"两个字，可以发现数据可以被找出来。

新增数据后搜索

执行下面sql语句模拟数据新增操作:

set @currenttime=(select UNIX_TIMESTAMP(current_timestamp()));INSERT INTO `test`.`posts` (`title`, `sub_title`, `summary`, `status`, `create_at`, `update_at`) VALUES ('百度新浪网', '百度新浪网', '百度新浪网', '1', @currenttime, @currenttime);set @lastid=(SELECT max(id) from posts);INSERT into changes (`post_id`,`update_at`) values(@lastid,@currenttime);复制代码

在命令行中更新增量索引

./indexer.exe --config /d/soft/sphinx-3.1.1/etc/sphinx.conf detal --rotate复制代码

执行php脚本，输出内容:id:3,summary:百度新浪网,title:百度新浪网,可以找到新增内容

修改旧数据

执行下面sql语句模拟数据更新操作

set @currenttime=(select UNIX_TIMESTAMP(current_timestamp()));update posts set summary="百度腾讯网",update_at=@currenttime where id=1;update changes set update_at=@currenttime where post_id=1;复制代码

这个时候我们把原先 summary "百度新华网"的数据修改成"百度腾讯网",这个时候在搜索"新华"应该无法搜索到该内容

执行php脚本，搜索"新华"，输出not found,搜索"腾讯"内容可以搜索到内容 id:1,summary:百度腾讯网,title:百度新华网

删除旧数据

重新创建一次全量索引，使得全量索引有两条数据，然后模拟删除一条数据之后搜索。这个时候id=1的数据summary内容为"百度腾讯网"。

执行下面sql语句模拟数据删除操作

set @currenttime=(select UNIX_TIMESTAMP(current_timestamp()));DELETE from posts where id=1;update changes set update_at=@currenttime where post_id=1;复制代码

执行php脚本，搜索"腾讯"，输出not found

其他

必须设置sql_query_killlist,和kbatch,sql_query_killlist配置在detal source中，kbatch配置在detal index中。

搜索顺序，必须是'main','detal'，这样才会保证索引以detal为主。

如果没有配置sql_query_killlist的时候，对于已经修改的数据，sphinx返回的查询还是旧的数据。例如前面，初始数据为"百度新华网",修改为"百度腾讯网"之后，搜索新华还是能搜索出来，搜索腾讯确搜索不出来。

sql_query_killlist 只是生成了一个屏蔽表，保证在这个屏蔽表的数据，只会从后面(这里是detal索引)索引查找，并没有删除索引数据，因此查询的顺序也很重要。

测试代码以及sphinx的配置地址:http://blog.static.aiaiaini.com/sphinx-demo-config.rar

相关文章