SQL Serverの全文検索機能を詳しく解説-mysql チュートリアル-php.cn

ホームページ

データベース

mysql チュートリアル

SQL Serverの全文検索機能を詳しく解説

小云云

Dec 18, 2017 am 09:03 AM

server関数検索

SQL Server の全文検索は、単語の分割に基づくテキスト検索機能であり、全文インデックスに依存しています。フルテキストインデックスは、従来のバランスツリー (B ツリー) インデックスや列ストレージインデックスとは異なり、転置インデックス (Invert Index) と呼ばれるデータテーブルで構成され、単語セグメントと単語間のマッピング関係を保存します。行の一意のキー。転置インデックスは、フルテキストインデックスの作成時またはフルテキストインデックスの更新時に、SQL Server によって自動的に作成および維持されます。フルテキストインデックスには主に、ワードブレーカー、ステマー、同義語アナライザーの 3 つのアナライザーが含まれています。フルテキストインデックスに格納されるデータは、単語の分割とその位置などの情報です。単語の分割は、特定の言語の文法規則に基づいて、特定の記号に従って単語の境界を探し、テキストを「単語」に分解します。それぞれの単語は単語セグメンテーション (用語) と呼ばれます。フルテキストインデックスは、単語セグメンテーションの語幹を抽出し、その語幹の複数の派生形式を 1 つの語幹として保存することがあります。このプロセスはステミングと呼ばれ、関連する単語を同義語に変換します。ユーザーが提供したカスタム同義語リストに基づいて、このプロセスを同義語の抽出と呼びます。

全文インデックスを生成するには、ユーザーテーブル内のテキストデータをセグメント化し (ワードブレーカー)、語幹を抽出し (ステマー)、同義語を変換し (シソーラス)、単語のセグメント化でストップワードをフィルターで除外します (ストップワード)。後続のデータはフルテキストインデックスに格納されます。データをフルテキストデータに保存するプロセスは、ポピュレートプロセスまたはクロールプロセスと呼ばれます。フルテキストインデックスの更新方法には、手動入力、自動入力、または増分入力があります。

1. フルテキストカタログと一意のインデックスを作成する

フルテキストインデックスを作成する前に、フルテキストカタログ (フルテキストカタログ) を作成する必要があります。テキストインデックスであり、フルテキストインデックスのコンテナです。すべてのフルテキストインデックスはフルテキストカタログに属している必要があります。フルテキストカタログは論理構造であり、フルテキストインデックスの保存場所に関係なく、データベーススキーマと同じです。

create fulltext catalog catalog_test
as default;

フルテキストインデックスを作成するには、一意の単一列の null 非許容インデックスがベーステーブルに存在する必要があります。フルテキストエンジンは、このインデックスを使用してベーステーブルの行データを結合します。は一意のインデックスキーにマッピングされ、転置インデックスにはインデックスキーと単語セグメント間のマッピング関係が保存されます。

create unique index uidx_dbLogID 
on [dbo].[DatabaseLog]
([DatabaseLogID]);

2 番目に、フルテキストインデックスを作成します

各テーブルで作成できるフルテキストインデックスは 1 つだけです。フルテキストインデックスを作成するときは、フルテキストインデックスに格納されているファイルグループ、ストップワードリストを考慮する必要があります。フルテキストインデックスに関連付けられた、フルテキストインデックスの更新方法、およびテキストに関連付けられた言語。フルテキストインデックス列はテキストフィールドである必要があります。例:

create fulltext index 
on [dbo].[DatabaseLog]
(
[tsql] language 1033
)
key index ui_dbLogID
on (catalog_test,filegroup [primary]) 
with(change_tracking=off ,no population ,stoplist=system);

1, language (言語)

オプション言語はオプションであり、列レベルで言語を指定するために使用されます。言語オプションが指定されていない場合は、SQL Server インスタンスのデフォルト言語が使用されます。システムビュー sys.fulltext_langages (Transact-SQL) から、システムでサポートされている言語と、それらに対応する LCID および名前を表示します。

2、フルテキストカタログ (fulltext_catalog)

オプション fulltext_catalog_name はフルテキストインデックスのグループを指定するために使用されます、

3、ファイルグループ (filegroup)

オプション filegroup filegroup_name はファイルグループを指定するために使用されますフルテキストインデックスの保存。ファイルグループが指定されていない場合、フルテキストインデックスと基になるテーブルは同じファイルグループに保存されます。フルテキストインデックスの更新は IO 集中型の操作であるため、フルテキストインデックスをより速く更新するには、ベーステーブルとは異なる物理ハードディスクまたはファイルグループにフルテキストインデックスを保存するのが最善です。最大 IO 同時実行性。

4. フルテキストインデックスを埋める方法は、基になるテーブルデータが更新されると、自動的に更新される必要があります。これはシステムのデフォルトの動作です。また、フルテキストインデックスを手動で更新するか、または特定の時間間隔でフルテキストインデックスを自動的に更新するように設定します。

オプション CHANGE_TRACKING は、フルテキストインデックス列に関連するデータ更新 (更新、削除、または挿入) をフルテキストインデックスと同期する必要があるかどうかを指定するために使用されます。

•CHANGE_TRACKING = MANUAL: 手動更新

•CHANGE_TRACKING =AUTO : 自動更新、デフォルト設定、基になるテーブルのデータが変更されると、フルテキストインデックスが自動的に更新されます。
•CHANGE_TRACKING =OFF、NO POPULATION: 更新しません。オプション NO POPULATION を指定します。これは、フルテキストインデックスの作成後に更新しないことを示します。インデックスの場合、SQL Server はフルテキストインデックスを更新 (設定) しません。オプション NO POPULATION が指定されていない場合、SQL Server はフルテキストインデックスの作成後にフルテキストインデックスを更新します。

5. ストップワード (STOPLIST)

ストップワードはノイズワードとも呼ばれます。デフォルトでは、フルテキストインデックスはシステムストップワードリストに関連付けられます。）。フルテキストエンジンは、フルテキストインデックスにストップワードが含まれないように、単語の分割からストップワードを削除します。

そうです

3、全文インデックスを作成します

填充全文索引也叫做爬虫（crawl）进程，或填充（Population）进程。由于创建或填充全文索引会消耗大量的系统（IO、内存）资源，因此尽量选择在系统空闲时对全文索引进行填充。在创建全文索引时，通过指定选项 CHANGE_TRACKING= MANUAL，或 CHANGE_TRACKING= OFF, NO POPULATION，新建的全文索引不会立即填充，用户可以选择在系统空闲时，使用 alter fulltext index 语句执行填充操作。只有填充全文索引之后，全文索引才包含基础表的分词数据。

alter fulltext index 
on table_name
start { full | incremental | update } population;

更新全文索引有三种方式：

•FULL POPULATION：全部填充，从基础表中获取每一行，重新编入全文索引；
•INCREMENTAL POPULATION：增量填充，前提是基础表中包含timestamp字段，从上一次填充之后，只把更新之后的数据编入全文索引；
•UPDATE POPULATION：更新填充，从上一次填充之后执行更新（insert、update、或delete）操作的数据行重新编入索引；

在创建全文索引时，如果指定CHANGE_TRACKING=AUTO 或 CHANGE_TRACKING= OFF ，那么新建的全文索引会立即开始填充进程。

四，使用 contains 谓词查询全文索引

如果想要在查询中使用全文索引，通常使用CONTAINS谓词来调用全文索引，实现比LIKE关键字更复杂的文本匹配查询，而LIKE关键字是模糊匹配，不会调用全文索引。

例如，利用contains谓词执行单个分词的完全匹配查询：

select [tsql] 
from [dbo].[DatabaseLog] 
where contains([tsql], 'searchword', language 1033);

全文查询跟Like相比，速度更快，支持的搜索功能更复杂，使用contains谓词，不仅能够执行分词的完全匹配或分词的前缀匹配查询，还能够执行基于词根的查询，基于自定义同义词的查询，基于距离和顺序的相邻分词查询。但是，和Like 相比，contains谓词不能进行后缀匹配查询。

contains谓词返回的结果是布尔值，如果全文索引列中包含指定的关键字或查找模式（pattern），返回TRUE；否则，返回FALSE。

contains谓词支持word查询和短语查询，word是指单个分词，短语（phrase）是由多个word和间隔的空格组成的，对于短语，必须使用双引号，将多个word组成一个短语。

1，逻辑组合查询

使用and ，and not，或 or 逻辑运算符匹配多个word 或多个phrase

CONTAINS(Name, '"Mountain" OR "Road" ')
CONTAINS(Name, ' Mountain OR Road ')

2，前缀查询

使用contains谓词进行前缀匹配，和like 'prefix%'功能相同，只不过contains谓词使用“*”作为通配符，“*”匹配0，1或多个字符，前缀匹配的写法是：'"prefix*"'，全文索引只能执行前缀匹配。

CONTAINS(Name, ' "Chain*" ')
CONTAINS(Name, '"chain*" OR "full*"')

3，查询同义词（thesaurus）或词干（stemmer）

Stemmer（词干），例如，根据语法规程，英语的动词根据数（单数，复数），人称，时态的不同而存在不同的变化形式，这些单词都是同源的。

CONTAINS(Description, ' FORMSOF (INFLECTIONAL, ride) ')

THESAURUS （同义词），需要导入XML进行配置，SQL Server 提供一个默认的Thesaurus file，是Empty的。如果在Thesaurus file 配置“Author”，“Writer”，“journalist” 是同义词，在使用fulltext index查询时，只要满足任意一个同义词，都匹配成功。

CONTAINS(Description, ' FORMSOF (THESAURUS, author) ')

4，距离查询

使用 near 函数，查询匹配相邻分词的数据行，near函数的定义如下，用于需要在查询模式中指定距离查询的查询模式：

NEAR ( ( { <simple_term> | <prefix_term> } [ ,…n ] ) [, <maximum_distance> ] [, <match_order> ] )</match_order></maximum_distance></prefix_term></simple_term>

例如：使用Near 函数指定相邻分词的距离和匹配顺序，near((term1,term2，term3),5)表示任意两个term之间的距离不能超过5, near((term1,term2，term3),5,true)，表示任意两个term的距离不能超过5，并且按照 term1，term2，term3的顺序存在于字符串中。

--regardless of the intervening distance and regardless of order
CONTAINS(column_name, 'NEAR(term1,"term3 term4")')
--searches for "AA" and "BB", in either order, within a maximum distance of five
CONTAINS(column_name, 'NEAR((AA,BB),5)')
--in the specified order with regardless of the distance
CONTAINS(column_name, 'NEAR ((Monday, Tuesday, Wednesday), MAX, TRUE)')

对于 near((term1,term2,term3),5,true)，term1 和 term5之间最多存在5个term，不包括内部的搜索分词，“term2”，例如：

CONTAINS(column_name, 'NEAR((AA,BB,CC),5)')

这个查询会匹配下面的文本，注意，内部的搜索分词CC没有计算距离：

BB one two CC three four five AA

例如，在原文本中，分词bike和control的最大距离不能超过10，分词bike必须出现在分词control的前面：

CONTAINS(Comments , 'NEAR((bike,control), 10, TRUE)')

SQL Server提供的全文搜索功能，比LIKE关键字丰富，具备初级的全文搜索功能，速度快，维护简单，缺点是，全文搜索功能非常有限，在实际的开发中，可以配合开源的全文搜索引擎，例如，Solr，Elasticsearch等来开发功能更强大的全文搜索功能。

相关推荐：

PlateSpin备份时SQL Server的信息介绍

Python操作SQL Server数据库的方法

SQL server 数据库的数据完整性

以上がSQL Serverの全文検索機能を詳しく解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

酸性の特性（原子性、一貫性、分離、耐久性）を説明します。Apr 16, 2025 am 12:20 AM

酸性属性には、原子性、一貫性、分離、耐久性が含まれ、データベース設計の基礎です。 1.原子性は、トランザクションが完全に成功するか、完全に失敗することを保証します。 2.一貫性により、データベースがトランザクションの前後に一貫性を保証します。 3.分離により、トランザクションが互いに干渉しないようにします。 4.永続性により、トランザクションの提出後にデータが永久に保存されることが保証されます。

MySQL：データベース管理システムとプログラミング言語Apr 16, 2025 am 12:19 AM

MySQLは、データベース管理システム（DBMS）であるだけでなく、プログラミング言語にも密接に関連しています。 1）DBMSとして、MySQLはデータを保存、整理、取得するために使用され、インデックスを最適化するとクエリのパフォーマンスが向上する可能性があります。 2）SQLとPythonに埋め込まれたプログラミング言語とSQLalchemyなどのORMツールを使用すると、操作を簡素化できます。 3）パフォーマンスの最適化には、インデックス、クエリ、キャッシュ、ライブラリ、テーブル分割、およびトランザクション管理が含まれます。

MySQL：SQLコマンドでデータの管理Apr 16, 2025 am 12:19 AM

MySQLはSQLコマンドを使用してデータを管理します。 1.基本コマンドには、select、挿入、更新、削除が含まれます。 2。高度な使用には、参加、サブクエリ、および集計関数が含まれます。 3.一般的なエラーには、構文、ロジック、パフォーマンスの問題が含まれます。 4。最適化のヒントには、インデックスの使用、Select*の回避、制限の使用が含まれます。

MySQLの目的：データを効果的に保存および管理しますApr 16, 2025 am 12:16 AM

MySQLは、データの保存と管理に適した効率的なリレーショナルデータベース管理システムです。その利点には、高性能クエリ、柔軟なトランザクション処理、豊富なデータ型が含まれます。実際のアプリケーションでは、MySQLはeコマースプラットフォーム、ソーシャルネットワーク、コンテンツ管理システムでよく使用されますが、パフォーマンスの最適化、データセキュリティ、スケーラビリティに注意を払う必要があります。

SQLとMySQL：関係を理解するApr 16, 2025 am 12:14 AM

SQLとMySQLの関係は、標準言語と特定の実装との関係です。 1.SQLは、リレーショナルデータベースの管理と操作に使用される標準言語であり、データの追加、削除、変更、クエリを可能にします。 2.MYSQLは、SQLを運用言語として使用し、効率的なデータストレージと管理を提供する特定のデータベース管理システムです。

Innodb Redoログの役割を説明し、ログを元に戻します。Apr 15, 2025 am 12:16 AM

INNODBは、レドログと非論的なものを使用して、データの一貫性と信頼性を確保しています。 1.レドログは、クラッシュの回復とトランザクションの持続性を確保するために、データページの変更を記録します。 2.Undologsは、元のデータ値を記録し、トランザクションロールバックとMVCCをサポートします。

説明出力（タイプ、キー、行、追加）で探す重要なメトリックは何ですか？Apr 15, 2025 am 12:15 AM

説明コマンドのキーメトリックには、タイプ、キー、行、および追加が含まれます。 1）タイプは、クエリのアクセスタイプを反映しています。値が高いほど、constなどの効率が高くなります。 2）キーは使用されているインデックスを表示し、nullはインデックスがないことを示します。 3）行はスキャンされた行の数を推定し、クエリのパフォーマンスに影響します。 4）追加の情報を最適化する必要があるというFilesortプロンプトを使用するなど、追加情報を提供します。

説明の一時的なステータスを使用し、それを回避する方法は何ですか？Apr 15, 2025 am 12:14 AM

Temporaryを使用すると、MySQLクエリに一時テーブルを作成する必要があることが示されています。これは、異なる列、またはインデックスされていない列を使用して順番に一般的に見られます。インデックスの発生を回避し、クエリを書き直し、クエリのパフォーマンスを改善できます。具体的には、expliect出力に使用を使用する場合、MySQLがクエリを処理するために一時テーブルを作成する必要があることを意味します。これは通常、次の場合に発生します。1）個別またはグループビーを使用する場合の重複排除またはグループ化。 2）Orderbyに非インデックス列が含まれているときに並べ替えます。 3）複雑なサブクエリを使用するか、操作に参加します。最適化方法には以下が含まれます。1）OrderbyとGroupB

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、