coreeek 和 sphinx 的配置与使用-tutorial mysql-php.cn

Rumah

pangkalan data

tutorial mysql

coreeek 和 sphinx 的配置与使用

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:41 PM

sphinxgunakira-kiraMukadimahKonfigurasi

前言关于 sphinx 的安装请参考 Sphinx 安装记录. 关于 coreeek 的安装请参考 coreseek 安装记录. sphinx 和 coreeek 安装好后，是可以搜索出满意的结果了，凡是有一个问题：对于新增的数据，我们需要在 sphinx 中重建索引。又由于旧的数据量是很大的，所以

cover

前言

关于 sphinx 的安装请参考 Sphinx 安装记录.
关于 coreeek 的安装请参考 coreseek 安装记录.

sphinx 和 coreeek 安装好后，是可以搜索出满意的结果了，凡是有一个问题：对于新增的数据，我们需要在 sphinx 中重建索引。
又由于旧的数据量是很大的，所以重建索引是很费时间的，所有如果数据不需要实时同步，那么每天晚上定时重建一下就行了。
如果需要实时同步，比如几分钟内就要搜索生效，那么就需要使用增量索引了。
然后再在晚上闲时合并增量索引和主索引。

关于配置

在 sphinx 中，需要配置两个数据源和两个索引，一个是主索引，另一个是增量索引，而且增量索引需要继承于主索引。

由于我们的索引会在指定时间合并，所以在下次合并索引之前，我们增量索引需要做的就是重建上次合并索引之后改变或新增的数据。

所有我们需要一个辅助表来记录上次修改的时间，用于增量索引使用。

辅助表结构很简单，只有一个字段上次合并的时间，而且永远只有一条记录。

CREATE TABLE t_blog_time_sphinx
(
    c_id INTEGER PRIMARY KEY NOT NULL,
    c_time DATETIME NOT NULL
);

关于 sphinx 的配置如下

# 主数据源
source main_source
{
    type            = mysql
    sql_host        = 127.0.0.1  
    sql_user        = test 
    sql_pass        = test
    sql_db          = test 
    sql_port        = 3306
    sql_query_pre= SET NAMES utf8
    sql_query = select c_id,c_title,c_content,c_year,c_month,c_day,c_modifytime,c_createtime FROM t_blog_sphinx;
    sql_attr_uint = c_year
    sql_attr_uint = c_month 
    sql_attr_uint = c_day 
    sql_attr_timestamp  = c_modifytime
    sql_attr_timestamp  = c_createtime
    sql_field_string = c_title
    sql_field_string = c_content
}
# 增量数据源
source main_inc_source : main_source
{
    sql_query_pre = SET NAMES utf8
    sql_query = select c_id,c_title,c_content,c_year,c_month,c_day,c_modifytime,c_createtime FROM t_blog_sphinx where c_modifytime > ( SELECT c_time FROM t_blog_time_sphinx limit 1 );
}
# 主索引
index  main_index 
{
    source          = main_source 
    path            = /usr/local/coreseek4/var/data/main_index
    docinfo         = extern
    charset_type        = zh_cn.utf-8 
    charset_dictpath = /usr/local/mmseg3/etc/  
    ngram_len = 0 
}
# 增量索引
index main_inc_index : main_index
{
    source = main_inc_source
    path = /usr/local/coreseek4/var/data/main_inc_index
}
# 索引程序
indexer
{  
    mem_limit       = 32M
}
# 守护程序
searchd
{  
    listen          = 9312
    listen          = 9306:mysql41
    log         = /usr/local/coreseek4/var/log/searchd.log
    query_log       = /usr/local/coreseek4/var/log/query.lo
    client_timeout= 300
    read_timeout        = 5
    max_children        = 30
    pid_file        = /usr/local/coreseek4/var/log/searchd.pid
    max_matches     = 1000
    seamless_rotate     = 1
    preopen_indexes     = 1
    unlink_old      = 1
    mva_updates_pool= 1M
    max_packet_size= 8M
    max_filters= 256
    max_filter_values= 4096
    max_batch_queries= 32
    workers         = threads # for RT to work
}

启动 sphinx

第一步是辅助表中插入一个时间

INSERT INTO t_blog_time_sphinx (c_time)VALUES(now());

第二步是创建主索引和增量索引

/usr/local/coreseek4/bin/indexer main_index
/usr/local/coreseek4/bin/indexer main_inc_index

第三部是启动守护程序

/usr/local/coreseek4/bin/searchd

定时任务

定时任务需要做的有这么几件事。

实时重建当天的索引(增量索引)
晚上合并增量索引到主索引
更新辅助表的时间为当前时间(一般减去若干分钟，来使数据有几分钟的冗余，避免遗漏数据)

# 增量索引
/usr/local/coreseek4/bin/indexer t_cover_sphinx_inc_index --rotate
# 合并
/usr/local/coreseek4/bin/indexer --merge t_cover_sphinx_index t_cover_sphinx_inc_index --rotate
# 修改辅助表上次的合并时间
update t_blog_time_sphinx set c_time = now() - 10*60;

php 测试程序

在 coreseek 的测试目录下可以找到 sphinxapi.php 文件，复制到你的 php 源代码对应的位置。

关于全文索引字段的组装格式，可以参考官方文档

//加入 sphinx api
include('api/coreseek_sphinxapi.php');
//初始化 sphinx
$sphinx = new SphinxClient(); 
$sphinx->setServer($ip, $port);
//设置属性字段
if(isset($_GET["year"]) && strlen($_GET["year"]) > 0){
    $sphinx->SetFilter("c_year", array($_GET["year"]));
}
//设置全文检索字段
$query = "";
if(isset($_GET["title"]) && strlen($_GET["title"]) > 0){
    $query .= "|" . trim($_GET["title"]);
}
if(isset($_GET["content"]) && strlen($_GET["content"]) > 0){
   $query .= "|" . trim($_GET["content"]);
}
$query = trim($query);
//开始搜索，索引必须是主索引和增量索引
$res = $sphinx->query($query, 'main_inc_index,main_index');
echo "<p>query = $query </p>";
//输出结果，其中 GetLastError 和 GetLastWarning 用于调试。
echo "<pre class="brush:php;toolbar:false">";  
print_r($sphinx->GetLastError());
print_r($sphinx->GetLastWarning ());
print_r($res); 
echo "

本文出自：http://tiankonguse.github.io, 原文地址：http://tiankonguse.github.io/blog/2014/11/06/sphinx-config-and-use/, 感谢原作者分享。

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

Apakah prosedur yang disimpan di MySQL?May 01, 2025 am 12:27 AM

Prosedur yang disimpan adalah penyataan SQL yang dipraktikkan dalam MySQL untuk meningkatkan prestasi dan memudahkan operasi kompleks. 1. Meningkatkan prestasi: Selepas penyusunan pertama, panggilan seterusnya tidak perlu dikompilasi. 2. Meningkatkan Keselamatan: Mengatasi akses jadual data melalui kawalan kebenaran. 3. Memudahkan operasi kompleks: Campurkan beberapa pernyataan SQL untuk memudahkan logik lapisan aplikasi.

Bagaimanakah pertanyaan caching berfungsi di mysql?May 01, 2025 am 12:26 AM

Prinsip kerja cache pertanyaan MySQL adalah untuk menyimpan hasil pertanyaan pilih, dan apabila pertanyaan yang sama dilaksanakan sekali lagi, hasil cache dikembalikan secara langsung. 1) Cache pertanyaan meningkatkan prestasi bacaan pangkalan data dan mendapati hasil cache melalui nilai hash. 2) Konfigurasi mudah, set query_cache_type dan query_cache_size dalam fail konfigurasi MySQL. 3) Gunakan kata kunci sql_no_cache untuk melumpuhkan cache pertanyaan khusus. 4) Dalam persekitaran kemas kini frekuensi tinggi, cache pertanyaan boleh menyebabkan kesesakan prestasi dan perlu dioptimumkan untuk digunakan melalui pemantauan dan pelarasan parameter.

Apakah kelebihan menggunakan MySQL ke atas pangkalan data hubungan lain?May 01, 2025 am 12:18 AM

Sebab mengapa MySQL digunakan secara meluas dalam pelbagai projek termasuk: 1. Prestasi tinggi dan skalabilitas, menyokong pelbagai enjin penyimpanan; 2. Mudah untuk digunakan dan mengekalkan, konfigurasi mudah dan alat yang kaya; 3. Ekosistem yang kaya, menarik sejumlah besar sokongan alat komuniti dan pihak ketiga; 4. Sokongan silang platform, sesuai untuk pelbagai sistem operasi.

Bagaimana anda mengendalikan peningkatan pangkalan data di MySQL?Apr 30, 2025 am 12:28 AM

Langkah -langkah untuk menaik taraf pangkalan data MySQL termasuk: 1. Sandarkan pangkalan data, 2. Hentikan perkhidmatan MySQL semasa, 3. Pasang versi baru MySQL, 4. Mulakan versi baru MySQL Service, 5 pulih pangkalan data. Isu keserasian diperlukan semasa proses peningkatan, dan alat lanjutan seperti Perconatoolkit boleh digunakan untuk ujian dan pengoptimuman.

Apakah strategi sandaran yang berbeza yang boleh anda gunakan untuk MySQL?Apr 30, 2025 am 12:28 AM

Dasar sandaran MySQL termasuk sandaran logik, sandaran fizikal, sandaran tambahan, sandaran berasaskan replikasi, dan sandaran awan. 1. Backup Logical menggunakan MySqldump untuk mengeksport struktur dan data pangkalan data, yang sesuai untuk pangkalan data kecil dan migrasi versi. 2. Sandaran fizikal adalah cepat dan komprehensif dengan menyalin fail data, tetapi memerlukan konsistensi pangkalan data. 3. Backup tambahan menggunakan pembalakan binari untuk merekodkan perubahan, yang sesuai untuk pangkalan data yang besar. 4. Sandaran berasaskan replikasi mengurangkan kesan ke atas sistem pengeluaran dengan menyokong dari pelayan. 5. Backup awan seperti Amazonrds menyediakan penyelesaian automasi, tetapi kos dan kawalan perlu dipertimbangkan. Apabila memilih dasar, saiz pangkalan data, toleransi downtime, masa pemulihan, dan matlamat titik pemulihan perlu dipertimbangkan.

Apakah clustering mysql?Apr 30, 2025 am 12:28 AM

Mysqlclusteringenhancesdatabaserobustnessandsandscalabilitybydistributingdataacrossmultiplenodes.itusesthendbenginefordatareplicationandfaulttolerance, ugeinghighavailability.setupinvolvesconfiguringmanagement, Data, dansqlnodes

Bagaimana anda mengoptimumkan reka bentuk skema pangkalan data untuk prestasi di MySQL?Apr 30, 2025 am 12:27 AM

Mengoptimumkan reka bentuk skema pangkalan data di MySQL dapat meningkatkan prestasi melalui langkah -langkah berikut: 1. Pengoptimuman indeks: Buat indeks pada lajur pertanyaan biasa, mengimbangi overhead pertanyaan dan memasukkan kemas kini. 2. Pengoptimuman Struktur Jadual: Mengurangkan kelebihan data melalui normalisasi atau anti-normalisasi dan meningkatkan kecekapan akses. 3. Pemilihan Jenis Data: Gunakan jenis data yang sesuai, seperti INT dan bukannya VARCHAR, untuk mengurangkan ruang penyimpanan. 4. Pembahagian dan Sub-meja: Untuk jumlah data yang besar, gunakan pembahagian dan sub-meja untuk menyebarkan data untuk meningkatkan kecekapan pertanyaan dan penyelenggaraan.

Bagaimana anda boleh mengoptimumkan prestasi MySQL?Apr 30, 2025 am 12:26 AM

TooptimizeMySQLperformance,followthesesteps:1)Implementproperindexingtospeedupqueries,2)UseEXPLAINtoanalyzeandoptimizequeryperformance,3)Adjustserverconfigurationsettingslikeinnodb_buffer_pool_sizeandmax_connections,4)Usepartitioningforlargetablestoi

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

4 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

3 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

1 bulan yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

3 minggu yang laluByDDD

Di mana untuk mencari kunci pejabat tapak di atomfall

4 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.