搜索
首页数据库mysql教程coreeek 和 sphinx 的配置与使用

前言 关于 sphinx 的安装请参考 Sphinx 安装记录. 关于 coreeek 的安装请参考 coreseek 安装记录. sphinx 和 coreeek 安装好后,是可以搜索出满意的结果了,凡是有一个问题:对于新增的数据,我们需要在 sphinx 中重建索引。 又由于旧的数据量是很大的,所以

cover

前言

关于 sphinx 的安装请参考 Sphinx 安装记录.
关于 coreeek 的安装请参考 coreseek 安装记录.

sphinx 和 coreeek 安装好后,是可以搜索出满意的结果了,凡是有一个问题:对于新增的数据,我们需要在 sphinx 中重建索引。
又由于旧的数据量是很大的,所以重建索引是很费时间的,所有如果数据不需要实时同步,那么每天晚上定时重建一下就行了。
如果需要实时同步,比如几分钟内就要搜索生效,那么就需要使用增量索引了。
然后再在晚上闲时合并增量索引和主索引。

关于配置

在 sphinx 中,需要配置两个数据源和两个索引, 一个是主索引,另一个是增量索引,而且增量索引需要继承于主索引。

由于我们的索引会在指定时间合并,所以在下次合并索引之前,我们增量索引需要做的就是重建上次合并索引之后改变或新增的数据。

所有我们需要一个辅助表来记录上次修改的时间,用于增量索引使用。

辅助表 结构很简单,只有一个字段上次合并的时间,而且永远只有一条记录。

CREATE TABLE t_blog_time_sphinx
(
    c_id INTEGER PRIMARY KEY NOT NULL,
    c_time DATETIME NOT NULL
);

关于 sphinx 的配置如下

# 主数据源
source main_source
{
    type            = mysql
    sql_host        = 127.0.0.1  
    sql_user        = test 
    sql_pass        = test
    sql_db          = test 
    sql_port        = 3306
    sql_query_pre= SET NAMES utf8
    sql_query = select c_id,c_title,c_content,c_year,c_month,c_day,c_modifytime,c_createtime FROM t_blog_sphinx;
    sql_attr_uint = c_year
    sql_attr_uint = c_month 
    sql_attr_uint = c_day 
    sql_attr_timestamp  = c_modifytime
    sql_attr_timestamp  = c_createtime
    sql_field_string = c_title
    sql_field_string = c_content
}
# 增量数据源
source main_inc_source : main_source
{
    sql_query_pre = SET NAMES utf8
    sql_query = select c_id,c_title,c_content,c_year,c_month,c_day,c_modifytime,c_createtime FROM t_blog_sphinx where c_modifytime > ( SELECT c_time FROM t_blog_time_sphinx limit 1 );
}
# 主索引
index  main_index 
{
    source          = main_source 
    path            = /usr/local/coreseek4/var/data/main_index
    docinfo         = extern
    charset_type        = zh_cn.utf-8 
    charset_dictpath = /usr/local/mmseg3/etc/  
    ngram_len = 0 
}
# 增量索引
index main_inc_index : main_index
{
    source = main_inc_source
    path = /usr/local/coreseek4/var/data/main_inc_index
}
# 索引程序
indexer
{  
    mem_limit       = 32M
}
# 守护程序
searchd
{  
    listen          = 9312
    listen          = 9306:mysql41
    log         = /usr/local/coreseek4/var/log/searchd.log
    query_log       = /usr/local/coreseek4/var/log/query.lo
    client_timeout= 300
    read_timeout        = 5
    max_children        = 30
    pid_file        = /usr/local/coreseek4/var/log/searchd.pid
    max_matches     = 1000
    seamless_rotate     = 1
    preopen_indexes     = 1
    unlink_old      = 1
    mva_updates_pool= 1M
    max_packet_size= 8M
    max_filters= 256
    max_filter_values= 4096
    max_batch_queries= 32
    workers         = threads # for RT to work
}

启动 sphinx

第一步是辅助表中插入一个时间

INSERT INTO t_blog_time_sphinx (c_time)VALUES(now());

第二步是创建主索引和增量索引

/usr/local/coreseek4/bin/indexer main_index
/usr/local/coreseek4/bin/indexer main_inc_index

第三部是启动守护程序

/usr/local/coreseek4/bin/searchd

定时任务

定时任务需要做的有这么几件事。

  1. 实时重建当天的索引(增量索引)
  2. 晚上合并增量索引到主索引
  3. 更新辅助表的时间为当前时间(一般减去若干分钟,来使数据有几分钟的冗余,避免遗漏数据)
# 增量索引
/usr/local/coreseek4/bin/indexer t_cover_sphinx_inc_index --rotate
# 合并
/usr/local/coreseek4/bin/indexer --merge t_cover_sphinx_index t_cover_sphinx_inc_index --rotate
# 修改辅助表上次的合并时间
update t_blog_time_sphinx set c_time = now() - 10*60;

php 测试程序

在 coreseek 的测试目录下可以找到 sphinxapi.php 文件,复制到你的 php 源代码对应的位置。

关于全文索引字段的组装格式,可以参考 官方文档

//加入 sphinx api
include('api/coreseek_sphinxapi.php');
//初始化 sphinx
$sphinx = new SphinxClient(); 
$sphinx->setServer($ip, $port);
//设置属性字段
if(isset($_GET["year"]) && strlen($_GET["year"]) > 0){
    $sphinx->SetFilter("c_year", array($_GET["year"]));
}
//设置全文检索字段
$query = "";
if(isset($_GET["title"]) && strlen($_GET["title"]) > 0){
    $query .= "|" . trim($_GET["title"]);
}
if(isset($_GET["content"]) && strlen($_GET["content"]) > 0){
   $query .= "|" . trim($_GET["content"]);
}
$query = trim($query);
//开始搜索,索引必须是主索引和增量索引
$res = $sphinx->query($query, 'main_inc_index,main_index');
echo "<p>query = $query </p>";
//输出结果,其中 GetLastError 和 GetLastWarning 用于调试。
echo "<pre class="brush:php;toolbar:false">";  
print_r($sphinx->GetLastError());
print_r($sphinx->GetLastWarning ());
print_r($res); 
echo "
";
声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
MySQL中的存储过程是什么?MySQL中的存储过程是什么?May 01, 2025 am 12:27 AM

存储过程是MySQL中的预编译SQL语句集合,用于提高性能和简化复杂操作。1.提高性能:首次编译后,后续调用无需重新编译。2.提高安全性:通过权限控制限制数据表访问。3.简化复杂操作:将多条SQL语句组合,简化应用层逻辑。

查询缓存如何在MySQL中工作?查询缓存如何在MySQL中工作?May 01, 2025 am 12:26 AM

MySQL查询缓存的工作原理是通过存储SELECT查询的结果,当相同查询再次执行时,直接返回缓存结果。1)查询缓存提高数据库读取性能,通过哈希值查找缓存结果。2)配置简单,在MySQL配置文件中设置query_cache_type和query_cache_size。3)使用SQL_NO_CACHE关键字可以禁用特定查询的缓存。4)在高频更新环境中,查询缓存可能导致性能瓶颈,需通过监控和调整参数优化使用。

与其他关系数据库相比,使用MySQL的优点是什么?与其他关系数据库相比,使用MySQL的优点是什么?May 01, 2025 am 12:18 AM

MySQL被广泛应用于各种项目中的原因包括:1.高性能与可扩展性,支持多种存储引擎;2.易于使用和维护,配置简单且工具丰富;3.丰富的生态系统,吸引大量社区和第三方工具支持;4.跨平台支持,适用于多种操作系统。

您如何处理MySQL中的数据库升级?您如何处理MySQL中的数据库升级?Apr 30, 2025 am 12:28 AM

MySQL数据库升级的步骤包括:1.备份数据库,2.停止当前MySQL服务,3.安装新版本MySQL,4.启动新版本MySQL服务,5.恢复数据库。升级过程需注意兼容性问题,并可使用高级工具如PerconaToolkit进行测试和优化。

您可以使用MySQL的不同备份策略是什么?您可以使用MySQL的不同备份策略是什么?Apr 30, 2025 am 12:28 AM

MySQL备份策略包括逻辑备份、物理备份、增量备份、基于复制的备份和云备份。1.逻辑备份使用mysqldump导出数据库结构和数据,适合小型数据库和版本迁移。2.物理备份通过复制数据文件,速度快且全面,但需数据库一致性。3.增量备份利用二进制日志记录变化,适用于大型数据库。4.基于复制的备份通过从服务器备份,减少对生产系统的影响。5.云备份如AmazonRDS提供自动化解决方案,但成本和控制需考虑。选择策略时应考虑数据库大小、停机容忍度、恢复时间和恢复点目标。

什么是mySQL聚类?什么是mySQL聚类?Apr 30, 2025 am 12:28 AM

MySQLclusteringenhancesdatabaserobustnessandscalabilitybydistributingdataacrossmultiplenodes.ItusestheNDBenginefordatareplicationandfaulttolerance,ensuringhighavailability.Setupinvolvesconfiguringmanagement,data,andSQLnodes,withcarefulmonitoringandpe

如何优化数据库架构设计以在MySQL中的性能?如何优化数据库架构设计以在MySQL中的性能?Apr 30, 2025 am 12:27 AM

在MySQL中优化数据库模式设计可通过以下步骤提升性能:1.索引优化:在常用查询列上创建索引,平衡查询和插入更新的开销。2.表结构优化:通过规范化或反规范化减少数据冗余,提高访问效率。3.数据类型选择:使用合适的数据类型,如INT替代VARCHAR,减少存储空间。4.分区和分表:对于大数据量,使用分区和分表分散数据,提升查询和维护效率。

您如何优化MySQL性能?您如何优化MySQL性能?Apr 30, 2025 am 12:26 AM

tooptimizemysqlperformance,lofterTheSeSteps:1)inasemproperIndexingTospeedUpqueries,2)使用ExplaintplaintoAnalyzeandoptimizequeryPerformance,3)ActiveServerConfigurationStersLikeTlikeTlikeTlikeIkeLikeIkeIkeLikeIkeLikeIkeLikeIkeLikeNodb_buffer_pool_sizizeandmax_connections,4)

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器