>  기사  >  데이터 베이스  >  MySQL 전체 텍스트 인덱스 애플리케이션에 대한 간략한 튜토리얼

MySQL 전체 텍스트 인덱스 애플리케이션에 대한 간략한 튜토리얼

大家讲道理
大家讲道理원래의
2016-11-07 16:19:14982검색

이 기사에서는 다음 측면에서 MySQL 전체 텍스트 인덱스에 대한 기본 지식을 소개합니다.

MySQL 전체 텍스트 인덱스에 대한 몇 가지 고려 사항

  • full 구문 -텍스트 색인

  • 여러 검색 유형 소개

  • 여러 검색 유형의 예

  • 여러 전체 텍스트 인덱싱 예 참고

검색은 전체 텍스트 유형의 인덱스 열에서 이루어져야 하며 match에 지정된 열은 전체 텍스트로 지정되어야 합니다

할 수 있습니다. MyIsam 유형 테이블에만 적용됩니다(MySQL 5.6 이상은 Innodb 테이블 엔진에서도 사용 가능)

char, varchar 및 텍스트 유형 열에 대해서만 전체 텍스트 인덱스를 생성할 수 있습니다. 🎜>

일반 인덱스와 마찬가지로 테이블 정의 시 지정하거나, 테이블 생성 후 추가, 수정이 가능하다.

대규모 레코드 삽입의 경우 테이블에 데이터를 삽입한 후 인덱스 생성 인덱스가 없는 것이 인덱스가 있는 데이터 테이블에 삽입하는 것보다 훨씬 빠릅니다.

검색 문자열은 테이블의 열 이름이 아닌 상수 문자열이어야 합니다

검색 기록의 선택도가 50%를 초과하면 일치 항목이 없는 것으로 간주됩니다(자연 검색에서만 제한됨)

전체 텍스트 인덱스 검색 구문

MATCH(열명 1, 열명 2) ,…) AGAINST (검색 문자열 [검색 한정자])


match에 지정된 열 이름 1, 2 등은 전체 텍스트 인덱스 설정 시 지정된 열 이름입니다.

search_modifier:



{
IN NATURAL LANGUAGE MODE
| IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION
| IN BOOLEAN MODE
| WITH QUERY EXPANSION
}
여러 검색 유형 소개

위의 검색 수정자는 실제로 3가지 전체 텍스트 검색을 보여줍니다. 유형

자연어 모드

소개: 기본 검색 형식(검색 수정자가 없거나 수정자가 자연어 모드임)

특징:

검색 문자열의 문자는 특별한 의미가 없는 일반 문자로 구문 분석됩니다

마스킹된 문자 목록에서 문자열을 필터링

기록의 선택도가 50%를 초과하면 일반적으로 간주됩니다. 불일치합니다.

반환된 레코드는 관련성에 따라 정렬되어 표시됩니다.

IN BOOLEAN MODE
소개: 부울 모드 검색(검색 수정자가 IN BOOLEAN MODE인 경우)

특징:

에서는 특정 규칙에 따라 검색 문자열에 포함된 특수 문자의 의미를 분석하고 몇 가지 논리적인 규칙을 만듭니다. 예: 특정 단어가 나타나야 하거나 나타날 수 없습니다.

이 유형의 검색으로 반환된 레코드는 관련성에 따라 정렬되지 않습니다.

WITH QUERY EXPANSION
소개: 실제로 2개의 자연 검색을 수행하는 약간 더 복잡한 검색 형식으로 직접 소개를 기록하는 레코드를 반환할 수 있습니다. 관계, 쿼리 확장이 있는 자연어 모드의 수정자 또는 쿼리 확장이 있는 수정자

특징: 이 검색 유형은 실제로 간접 검색 기능을 제공합니다. 예를 들어 특정 단어를 검색하면 반환된 첫 번째 행이 검색어에 문자열이 포함되어 있지 않습니다. 1차 검색결과의 기록어를 기반으로 2차 매칭을 수행할 수 있으므로, 일부 간접적인 관계를 가지고 일치하는 기록을 찾는 것이 가능하다.

여러 검색 유형의 예

자연어 모드 모드의 적용:

는 여전히 제품 테이블에 적용되며 이름에 전체 텍스트 인덱스가 설정되어 있습니다. 필드. 키워드를 기준으로 이름 열에 해당 레코드를 일치시켜야 하기 때문에

SQL 문은 다음과 같습니다.

SELECT * FROM product WHERE match(name) against(‘auto')
시간이 10,000개 이상으로 나쁘지 않습니다. 거의 870,000개 중 1.15초가 소요되지만 효과는 여전히 좋습니다

참고: 기본적으로 레코드는 관련성을 기준으로 높은 수준에서 낮은 수준으로 반환됩니다

일치를 선택할 수 있습니다. (이름) 반대('자동') FROM product 레코드의 상관값을 확인하세요. 값은 0에서 1 사이입니다. 0은 레코드가 일치하지 않음을 의미합니다.

몇 가지 중요한 기능:

1. 무시할 단어

기본 전체 텍스트 인덱스는 4자 이상의 단어를 유효한 단어로 간주하여 구성합니다. 🎜>어휘의 단어를 보호합니다. 기본 전체 텍스트 인덱스는 일부 일반적인 단어를 차단합니다. 이러한 단어는 너무 일반적이고 의미론적 역할이 없으므로 검색 프로세스에서 무시됩니다. 물론 이 목록도 구성 가능합니다.

2. 단어 분할 수행 방법

전체 텍스트 인덱스는 연속된 유효한 문자(정규식에서 w와 일치하는 문자 집합)를 단어로 간주하며 "'"도 포함할 수 있습니다. , 그러나 연속된 두 개의 '는 구분 기호로 간주됩니다. 공백, 쉼표, 마침표 등과 같은 기타 구분 기호.

부울 모드 적용:

부울 일치 모드에서는 일부 특수 기호를 추가하고 일부 검색 프로세스 논리 기능을 추가할 수 있습니다. 예를 들어, 공식 웹사이트에 제공된 예(mysql 문자열을 포함하고 Yousql을 포함하지 않는 명령문 검색):

우리가 검색에 대해 더 많은 제어권을 갖고 있음을 알 수 있으며, 더 많이 보입니다." 고급형" .
SELECT * FROM articles WHERE MATCH (title,body)
-> AGAINST (‘+MySQL -YourSQL' IN BOOLEAN MODE);

사실 위 연산은 여러 가지 의미를 내포하고 있습니다.

더하기 기호: 동등 및

빼기 기호: not과 동등

아니요: 또는 동등

부울 유형 검색의 몇 가지 중요한 기능을 살펴보겠습니다.

1. 레코드 선택도 50% 제한은 없습니다. 검색 결과 레코드가 전체 개수의 50%를 초과하더라도 결과는 반환됩니다.
2. 레코드의 관련성
3. 예 전체 텍스트를 생성하지 않고 바로 전체 텍스트 인덱스에 적용하지만, 이렇게 하면 쿼리 속도가 매우 느려지므로 사용하지 않는 것이 좋습니다.
4. 최소 및 최대 단어 길이 지원
5. 마스킹된 단어 목록 적용

부울 검색에서 지원되는 연산자:

n 더하기 기호 +: 수정된 단어가 나타나야 함을 나타냅니다. 레코드에서
n 빼기 기호 -: 수정된 단어가 레코드에 나타나지 않아야 함을 나타냅니다.
n 연산자 없음: 단어는 선택 사항이지만 해당 단어가 포함된 레코드는 관련성이 높습니다.
n 큰따옴표 ": 구문을 일치 항목으로 사용합니다. 예: "one word"는 한 단어가 함께 있는 단어와 일치합니다

다음은 몇 가지 공식적인 예입니다.

최소 한 단어가 포함된 레코드
' apple 바나나'

두 단어를 포함해야 합니다
'+apple +juice'

apple을 포함해야 합니다. macintosh를 포함하는 레코드는 관련성이 높거나
'+apple을 포함할 수 없습니다. macintosh'

apple을 포함해야 하며 macintosh라고 말할 수 없습니다.
'+apple -macintosh'

apple로 시작하는 단어에 대한 레코드 찾기
'apple*'

일부 단어와 완전히 일치
'"어떤 단어"'

기본적인 mysql 전체 텍스트 색인 지식을 이해하고 있으며 전체 텍스트 색인이 like보다 훨씬 낫다고 생각합니다. 아직은 고급 검색이 좀 엉성하고, 성능 문제가 걱정됩니다.

그냥 소개로만 이해하고 싶고, 공식 홈페이지에 있는 몇 가지 기본 지식을 번역한 것이기도 합니다.

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.