>  기사  >  백엔드 개발  >  PHP 애플리케이션에서 Redis 전체 텍스트 검색

PHP 애플리케이션에서 Redis 전체 텍스트 검색

PHPz
PHPz원래의
2023-05-19 08:01:351525검색

인터넷 기술의 지속적인 발전으로 검색 엔진의 사용이 점점 더 광범위해지고 있습니다. 인터넷 환경에서 검색 엔진은 사용자가 정보를 얻는 주요 방법 중 하나가 되었습니다. 이 과정에서 전문 검색 기술이 중요한 역할을 합니다. 전체 텍스트 검색은 사용자가 쿼리할 때 일치하는 텍스트를 빠르게 찾을 수 있도록 텍스트 콘텐츠를 인덱싱합니다. PHP 애플리케이션에서 전체 텍스트 검색을 구현하는 솔루션은 다양하며, 이 기사에서는 PHP 애플리케이션에서 Redis의 전체 텍스트 검색에 중점을 둘 것입니다.

Redis는 문자열, 해시, 목록, 집합 및 순서 집합을 포함한 다양한 데이터 구조를 지원하는 고성능 비관계형 인메모리 데이터베이스입니다. Redis는 게시/구독, 트랜잭션, Lua 스크립트 등과 같은 많은 강력한 기능도 제공합니다. 따라서 Redis는 캐싱, 대기열, 실시간 계산, 분산 잠금 등과 같은 다양한 시나리오에 적합합니다. 동시에 Redis의 고성능 및 고가용성 덕분에 Redis는 PHP 애플리케이션에서 가장 일반적으로 사용되는 데이터 저장 방법 중 하나가 되었습니다.

전체 텍스트 검색을 구현하는 Redis의 기본 원칙은 인덱스를 설정하여 쿼리 중에 텍스트 내용을 빠르게 찾는 것입니다. 인덱싱 과정에서 텍스트 내용을 여러 단어로 분해한 다음 이러한 단어와 텍스트 내용의 식별자 사이에 매핑 관계를 설정해야 합니다. 인덱스를 저장하는 데이터 구조에서 각 단어는 순서 집합에 해당하며, 이 순서 집합에는 해당 단어가 나타나는 텍스트 내용의 식별자와 발생 횟수가 저장됩니다. 쿼리할 때 먼저 쿼리 문자열을 여러 단어로 분해한 다음 해당 단어에 해당하는 정렬된 집합에서 텍스트 내용의 식별자를 가져오고 발생 횟수에 따라 정렬한 후 마지막으로 결과를 반환합니다.

PHP 애플리케이션에서 Redis에는 전체 텍스트 검색을 구현하는 다양한 방법이 있습니다. 가장 일반적으로 사용되는 방법은 Redis에서 제공하는 Sorted Set 및 Lua 스크립트를 이용하는 것입니다. 구체적인 구현 내용은 다음과 같습니다.

  1. 인덱스 생성

인덱스를 설정하는 과정은 일반적으로 서버가 시작될 때 수행됩니다. 인덱싱해야 하는 텍스트 콘텐츠를 데이터베이스에서 읽어온 후 여러 개로 분해합니다. 단어와 텍스트는 컨텐츠의 식별자로 매핑 관계를 형성하고 최종적으로 그 결과가 Redis에 저장됩니다. 구체적인 코드는 다음과 같습니다.

<?php
// 建立索引
function buildIndex($redis, $db)
{
    $sql = "SELECT id, title, content FROM article";
    $sth = $db->query($sql);

    while ($row = $sth->fetch(PDO::FETCH_ASSOC)) {
        $id = $row['id'];
        $title = $row['title'];
        $content = $row['content'];

        // 分解单词
        $words = preg_split('/s+/', $title . ' ' . $content);
        $words = array_unique($words);

        foreach ($words as $word) {
            if (!$word) {
                continue;
            }

            $redis->zIncrBy('index:' . $word, 1, $id);
        }
    }
}
?>
  1. Query

쿼리 프로세스는 두 단계로 나누어집니다. 먼저 쿼리 문자열을 여러 단어로 분해한 다음 해당 정렬된 컬렉션에서 텍스트 콘텐츠의 식별자를 얻습니다. 그리고 발생 횟수에 따라 정렬하고 마지막으로 결과를 반환합니다. 구체적인 코드는 다음과 같습니다.

<?php
// 全文搜索
function search($redis, $query, $offset, $count)
{
    $words = preg_split('/s+/', $query);
    $words = array_unique($words);

    $tmpKeys = array();
    foreach ($words as $word) {
        if (!$word) {
            continue;
        }

        $tmpKey = 'idx:' . $word;
        $redis->zInter($tmpKey, array('index:' . $word), array(1));
        $tmpKeys[] = $tmpKey;
    }

    $redis->zUnion('idx:result', $tmpKeys, array(1));
    $redis->zRevRange('idx:result', $offset, $offset + $count - 1);
}
?>
  1. Lua 스크립트

네트워크 전송을 줄이고 쿼리 효율성을 높이기 위해 Lua 스크립트를 사용하여 쿼리 프로세스를 명령으로 캡슐화할 수 있습니다. 구체적인 코드는 다음과 같습니다.

<?php
// 全文搜索,使用 Lua 脚本实现
function search($redis, $query, $offset, $count)
{
    $script = "
        local words = redis.call('SPLIT', ARGV[1], '[^%w]+')
        local tmpKeys = {}
        for i, word in ipairs(words) do
            if word ~= '' then
                local tmpKey = 'idx:' .. word
                redis.call('ZINTERSTORE', tmpKey, 1, 'index:' .. word)
                table.insert(tmpKeys, tmpKey)
            end
        end
        redis.call('ZUNIONSTORE', 'idx:result', #tmpKeys, unpack(tmpKeys))
        return redis.call('ZREVRANGE', 'idx:result', ARGV[2], ARGV[3])
    ";

    return $redis->eval($script, 3, $query, $offset, $offset + $count - 1);
}
?>

요약:

Redis는 인덱스를 설정하여 쿼리 중에 텍스트 콘텐츠를 빠르게 찾을 수 있으므로 Redis의 고성능 및 고가용성의 장점을 최대한 활용할 수 있습니다. . Redis에서 제공하는 Sorted Set 및 Lua 스크립트를 사용하면 전체 텍스트 검색 작업을 더 잘 완료할 수 있어 PHP 개발자에게 효율적인 솔루션을 제공할 수 있습니다. 그러나 데이터 양이 많을 경우 Redis는 메모리 부족 문제에 직면할 수 있다는 점에 유의해야 합니다. 이때 Redis 메모리 오버플로를 방지하려면 합리적인 데이터 저장 및 인덱싱 전략을 설계해야 합니다.

위 내용은 PHP 애플리케이션에서 Redis 전체 텍스트 검색의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.