PostgreSQL 全文検索の位置別ランク-jsチュートリアル-php.cn

ホームページ

ウェブフロントエンド

jsチュートリアル

PostgreSQL 全文検索の位置別ランク

Patricia Arquette

Dec 13, 2024 pm 01:08 PM

PostgreSQL Full Text Search Rank by Position

最近、全文検索で問題が発生しました。私は検索入力でこの機能を使用しており、入力時にバックエンドが一致する可能性のあるヒントを送信します。バックエンドデータベースはPostgreSQLです。テキスト内の検索語の位置によってヒントをランク付けする必要がありました。

そのため、「スターウォーズ」のタイトルを検索すると、「スターウォーズ 7 ～ 9 がスターウォーズの世界をどう変えたか (スターウォーズに関する楽しいドキュメンタリー)」ではなく、「スターウォーズ」の投稿が最初に表示されます。期間が3回あるほど上位にランクされます。

PostgreSQL での全文検索

PostgreSQL での全文検索は非常に簡単に実現できます。使用する主なツールは 2 つあります:

tsvector - 検索可能なドキュメントを表します。
tsquery - ドキュメントに対して実行する検索クエリを表します。

ブログ投稿のタイトルを検索したいとします。それらを検索可能にするには、次のクエリを使用できます:

SELECT 
id, 
title 
FROM blogposts
WHERE to_tsquery('JavaScript') @@ to_tsvector(posts.title);

この場合、検索ごとに投稿タイトルを動的に tsvector に変換しています。ただし、この変換には時間がかかります。より良いアプローチは、この変換をデータベース内で事前に実行し、それをタイトルのインデックスとして保存して、検索を高速化することです。

タイトルのベクトルの新しい列を作成し、この新しい列にインデックスを付けましょう:

ALTER TABLE blogposts ADD COLUMN search_vector tsvector;
UPDATE blogposts SET search_vector = (to_tsvector(posts.title));
CREATE INDEX titles_fts_idx ON blogposts USING gin(search_vector);

次に、「JavaScript」という用語を検索してみてください

SELECT 
id, 
title
FROM blogposts
WHERE to_tsquery('JavaScript') @@ search_vector;

次のように、ts ベクトルから直接タイトル列にインデックスを作成することもできます。

CREATE INDEX titles_fts_idx ON blogposts USING GIN (to_tsvector(posts.title));

次のように検索を使用します:

SELECT 
id, 
title
FROM blogposts
WHERE to_tsquery('JavaScript') @@ posts.title;

全文検索が非常に高速になり、数ミリ秒で完了します。

結果のランキング

PostgreSQL には ts_rank 機能があり、検索結果にスコアを付け、ランキングに基づいて並べ替えることができます。 PostgreSQL は次のランキングオプションをサポートしています:

0 (デフォルト) はドキュメントの長さを無視します
1 はランクをドキュメントの長さの対数の 1 で割ります
2 はランクをドキュメントの長さで割ります
4 はランクをエクステント間の平均調和距離で割ります (これは ts_rank_cd によってのみ実装されます)
8 は、文書内の固有の単語の数でランクを割ります
16 は、ランクを文書内の固有の単語数の対数 1 で割ります
32 はランクを 1 で割ります

ts_rank は次のように使用できます:

SELECT
    ...
ts_rank(search_vector, to_tsquery('JavaScript'), 0) as rank_title
    ...
ORDER BY rank_title DESC NULLS LAST

ただし、文字列 (タイトル列など) 内の検索語の位置に基づく組み込みのランキングオプションはありません。

救助の位置

幸いなことに、PostgreSQL には POSITION 関数があります。 PostgreSQL POSITION 関数は、指定された文字列内の部分文字列の位置を見つけるために使用されます。私たちの場合、次のように使用できます

SELECT 
id, 
title 
FROM blogposts
WHERE to_tsquery('JavaScript') @@ to_tsvector(posts.title);

ts_rank は正規化整数 2 を使用します。2 はランクをドキュメントの長さで割るためです。
マジックナンバー 0.0001 は、POSTION 関数が 0 ではなく 1 からカウントし、文字列が見つからない場合は 0 を返すため、0 による除算を避けるためのものです。

最終的なコードは次のようになります:

ALTER TABLE blogposts ADD COLUMN search_vector tsvector;
UPDATE blogposts SET search_vector = (to_tsvector(posts.title));
CREATE INDEX titles_fts_idx ON blogposts USING gin(search_vector);

さらに用語を検索する

一度に複数の用語を検索する場合は、1 つの注意点があります (JavaScript や TypeScript など)。

to_tsquery 関数の引数は、論理演算子などを含め、非常に柔軟に使用できます。一方、POSITION 関数は文字列内の「単なる」部分文字列です。

現実世界の例

これは、postgres (SQL) npm ライブラリを使用する SvelteKit Web アプリケーションの実際のエンドポイントからの私の例です:

SELECT 
id, 
title
FROM blogposts
WHERE to_tsquery('JavaScript') @@ search_vector;

問題のドキュメントへのリンクは次のとおりです:

https://www.postgresql.org/docs/current/textsearch-controls.html#TEXTSEARCH-PARSING-QUERIES https://www.postgresql.org/docs/current/textsearch-controls.html#TEXTSEARCH-PARSING-DOCUMENTS
https://www.postgresql.org/docs/current/textsearch-controls.html#TEXTSEARCH-RANKING
https://www.postgresql.org/docs/9.1/functions-string.html

以上がPostgreSQL 全文検索の位置別ランクの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

JavaScriptコメント：//および / * *を使用するためのガイドMay 13, 2025 pm 03:49 PM

javascriptusestwotypesofcomments：シングルライン（//）およびマルチライン（//）

Python vs. JavaScript：開発者の比較分析May 09, 2025 am 12:22 AM

PythonとJavaScriptの主な違いは、タイプシステムとアプリケーションシナリオです。 1。Pythonは、科学的コンピューティングとデータ分析に適した動的タイプを使用します。 2。JavaScriptは弱いタイプを採用し、フロントエンドとフルスタックの開発で広く使用されています。この2つは、非同期プログラミングとパフォーマンスの最適化に独自の利点があり、選択する際にプロジェクトの要件に従って決定する必要があります。

Python vs. JavaScript：ジョブに適したツールを選択するMay 08, 2025 am 12:10 AM

PythonまたはJavaScriptを選択するかどうかは、プロジェクトの種類によって異なります。1）データサイエンスおよび自動化タスクのPythonを選択します。 2）フロントエンドとフルスタック開発のためにJavaScriptを選択します。 Pythonは、データ処理と自動化における強力なライブラリに好まれていますが、JavaScriptはWebインタラクションとフルスタック開発の利点に不可欠です。

PythonとJavaScript：それぞれの強みを理解するMay 06, 2025 am 12:15 AM

PythonとJavaScriptにはそれぞれ独自の利点があり、選択はプロジェクトのニーズと個人的な好みに依存します。 1. Pythonは、データサイエンスやバックエンド開発に適した簡潔な構文を備えた学習が簡単ですが、実行速度が遅くなっています。 2。JavaScriptはフロントエンド開発のいたるところにあり、強力な非同期プログラミング機能を備えています。 node.jsはフルスタックの開発に適していますが、構文は複雑でエラーが発生しやすい場合があります。

JavaScriptのコア：CまたはCの上に構築されていますか？May 05, 2025 am 12:07 AM

javascriptisnotbuiltoncorc;それは、解釈されていることを解釈しました。

JavaScriptアプリケーション：フロントエンドからバックエンドまでMay 04, 2025 am 12:12 AM

JavaScriptは、フロントエンドおよびバックエンド開発に使用できます。フロントエンドは、DOM操作を介してユーザーエクスペリエンスを強化し、バックエンドはnode.jsを介してサーバータスクを処理することを処理します。 1.フロントエンドの例：Webページテキストのコンテンツを変更します。 2。バックエンドの例：node.jsサーバーを作成します。

Python vs. Javascript：どの言語を学ぶべきですか？May 03, 2025 am 12:10 AM

PythonまたはJavaScriptの選択は、キャリア開発、学習曲線、エコシステムに基づいている必要があります。1）キャリア開発：Pythonはデータサイエンスとバックエンド開発に適していますが、JavaScriptはフロントエンドおよびフルスタック開発に適しています。 2）学習曲線：Python構文は簡潔で初心者に適しています。 JavaScriptの構文は柔軟です。 3）エコシステム：Pythonには豊富な科学コンピューティングライブラリがあり、JavaScriptには強力なフロントエンドフレームワークがあります。

JavaScriptフレームワークのパワーは、開発を簡素化し、ユーザーエクスペリエンスとアプリケーションのパフォーマンスを向上させることにあります。フレームワークを選択するときは、次のことを検討してください。1。プロジェクトのサイズと複雑さ、2。チームエクスペリエンス、3。エコシステムとコミュニティサポート。

See all articles