分散システムでのシャードデータの処理: 結合、ブロードキャスト、クエリ最適化の詳細-jsチュートリアル-php.cn

ホームページ

ウェブフロントエンド

jsチュートリアル

分散システムでのシャードデータの処理: 結合、ブロードキャスト、クエリ最適化の詳細

Patricia Arquette

Dec 23, 2024 pm 01:50 PM

Handling Sharded Data in Distributed Systems: A Deep Dive into Joins, Broadcasts, and Query Optimization

最新の分散データベースでは、データを水平にスケーリングする必要があるため、シャーディングが広く採用されています。シャーディングは複数のノードにわたる大規模なデータセットの管理に役立ちますが、特に結合を実行して効率的なデータ取得を確保する場合に課題が生じます。この記事では、特にブロードキャスト結合、シャードキーアライメント、および分散クエリエンジンに焦点を当てて、これらの課題に対処するさまざまな概念と手法を検討します。 >Presto と BigQuery。さらに、Node.js と Express を使用して、実際のアプリケーションでこれらの問題を処理する方法を示します。

Express.js を使用した Node.js のシャーディングの例

ここでは、Node.js と Express.js を使用して

PostgreSQL にシャーディングを実装する方法を示します。

PostgreSQL シャーディングの例

Citus または Node.js による手動論理シャーディングの使用:

論理シャーディングの例

シャード用のテーブルのセットアップ: シャードのテーブルを使用します (shard1 の user_data と shard2 の user_data)。
Express.js API を作成します: シャードキー (user_id など) に基づいてクエリを分散します。

   const express = require('express');
   const { Pool } = require('pg');

   const poolShard1 = new Pool({ connectionString: 'postgresql://localhost/shard1' });
   const poolShard2 = new Pool({ connectionString: 'postgresql://localhost/shard2' });

   const app = express();
   app.use(express.json());

   const getShardPool = (userId) => (userId % 2 === 0 ? poolShard1 : poolShard2);

   app.post('/user', async (req, res) => {
       const { userId, data } = req.body;
       const pool = getShardPool(userId);
       try {
           await pool.query('INSERT INTO user_data (user_id, data) VALUES (, )', [userId, data]);
           res.status(200).send('User added successfully');
       } catch (err) {
           console.error(err);
           res.status(500).send('Error inserting user');
       }
   });

   app.get('/user/:userId', async (req, res) => {
       const userId = parseInt(req.params.userId, 10);
       const pool = getShardPool(userId);
       try {
           const result = await pool.query('SELECT * FROM user_data WHERE user_id = ', [userId]);
           res.status(200).json(result.rows);
       } catch (err) {
           console.error(err);
           res.status(500).send('Error retrieving user');
       }
   });

   app.listen(3000, () => console.log('Server running on port 3000'));

分散データベースでのシャーディング

シャーディングは、パフォーマンス、スケーラビリティ、可用性を向上させるために、複数のデータベースインスタンス (シャード) にデータを水平に分割するプロセスです。単一のデータベースインスタンスでは大量のデータやトラフィックを処理できない場合、シャーディングが必要になることがよくあります。

シャーディング戦略:

範囲ベースのシャーディング: データは、キーの範囲に基づいてシャード全体に分散されます (例: order_date による順序のパーティション化)。
ハッシュベースのシャーディング: データはシャードキー (例: user_id) によってハッシュされ、シャード間でデータを均等に分散します。
ディレクトリベースのシャーディング: 中央のディレクトリは、システム内のデータの存在場所を追跡します。

ただし、関連するテーブルが異なるキーでシャードされている場合、またはテーブルが複数のシャードにわたる別のテーブルとの結合を必要とする場合、

スキャッターギャザー 操作が必要になるため、パフォーマンスが低下する可能性があります。ここでは、ブロードキャスト結合とシャードキーの調整を理解することが重要になります。

2. シャードシステムでの結合に関する課題

データが異なるシャードに存在する場合、それらのシャード間の結合の実行は複雑になる可能性があります。一般的な課題の内訳は次のとおりです:

1. シャードキーの位置がずれている:

多くのシステムでは、テーブルは異なるキーでシャード化されています。例:

users テーブルは user_id によってシャーディングされる可能性があります。
orders テーブルは地域ごとにシャーディングされる可能性があります。

結合 (orders.user_id = users.user_id など) を実行する場合、関連するレコードが同じシャードに存在しない可能性があるため、システムは複数のシャードからデータをフェッチする必要があります。

2. スキャッター/ギャザー結合:

スキャッター/ギャザー結合では、システムは次のことを行う必要があります。

関連データを保持するすべてのシャードにリクエストを送信します。
シャード全体で結果を集計します。これにより、特にデータが多くのシャードに分散している場合、パフォーマンスが大幅に低下する可能性があります。

3. ブロードキャスト参加:

ブロードキャスト結合は、結合されるテーブルの 1 つがすべてのシャードにブロードキャストできるほど小さい場合に発生します。この場合:

小さなテーブル (例: ユーザー) は、より大きなシャード化テーブル (例: 注文) が存在するすべてのノードにわたって複製されます。
各ノードはローカルデータをブロードキャストデータと結合できるため、シャード間通信の必要がなくなります。

3. シャードデータに分散クエリエンジンを使用する

Presto や BigQuery などの分散クエリエンジンは、シャードデータを処理し、分散システム間で効率的にクエリを結合するように設計されています。

プレスト/トリノ:

Presto は、異種データソース (リレーショナルデータベース、NoSQL データベース、データレイクなど) にわたる大規模なデータセットをクエリするために設計された分散 SQL クエリエンジンです。 Presto は分散データソース間で結合を実行し、ノード間のデータ移動を最小限に抑えることでクエリを最適化できます。

使用例: Presto を使用してシャードデータを結合

orders がリージョンごとにシャード化され、users が user_id によってシャード化されるシナリオでは、Presto は分散実行モデルを使用して、異なるシャード間で結合を実行できます。

クエリ:

   const express = require('express');
   const { Pool } = require('pg');

   const poolShard1 = new Pool({ connectionString: 'postgresql://localhost/shard1' });
   const poolShard2 = new Pool({ connectionString: 'postgresql://localhost/shard2' });

   const app = express();
   app.use(express.json());

   const getShardPool = (userId) => (userId % 2 === 0 ? poolShard1 : poolShard2);

   app.post('/user', async (req, res) => {
       const { userId, data } = req.body;
       const pool = getShardPool(userId);
       try {
           await pool.query('INSERT INTO user_data (user_id, data) VALUES (, )', [userId, data]);
           res.status(200).send('User added successfully');
       } catch (err) {
           console.error(err);
           res.status(500).send('Error inserting user');
       }
   });

   app.get('/user/:userId', async (req, res) => {
       const userId = parseInt(req.params.userId, 10);
       const pool = getShardPool(userId);
       try {
           const result = await pool.query('SELECT * FROM user_data WHERE user_id = ', [userId]);
           res.status(200).json(result.rows);
       } catch (err) {
           console.error(err);
           res.status(500).send('Error retrieving user');
       }
   });

   app.listen(3000, () => console.log('Server running on port 3000'));

プレストは次のことを行います:

スキャッターギャザーを使用して、関連するユーザーレコードを取得します。
ノード間でデータを結合します。

Google BigQuery:

BigQuery は、大規模な分析クエリの実行に優れた、フルマネージドのサーバーレスデータウェアハウスです。 BigQuery はシャーディングの詳細を抽象化しますが、クエリを最適化するためにデータを多くのノードに自動的に分割して分散します。大規模なデータセットを簡単に処理でき、データが時間または他のディメンションで分割されている分析クエリに特に効果的です。

ユースケース例: BigQuery でのシャードテーブルの結合

   const express = require('express');
   const { Pool } = require('pg');

   const poolShard1 = new Pool({ connectionString: 'postgresql://localhost/shard1' });
   const poolShard2 = new Pool({ connectionString: 'postgresql://localhost/shard2' });

   const app = express();
   app.use(express.json());

   const getShardPool = (userId) => (userId % 2 === 0 ? poolShard1 : poolShard2);

   app.post('/user', async (req, res) => {
       const { userId, data } = req.body;
       const pool = getShardPool(userId);
       try {
           await pool.query('INSERT INTO user_data (user_id, data) VALUES (, )', [userId, data]);
           res.status(200).send('User added successfully');
       } catch (err) {
           console.error(err);
           res.status(500).send('Error inserting user');
       }
   });

   app.get('/user/:userId', async (req, res) => {
       const userId = parseInt(req.params.userId, 10);
       const pool = getShardPool(userId);
       try {
           const result = await pool.query('SELECT * FROM user_data WHERE user_id = ', [userId]);
           res.status(200).json(result.rows);
       } catch (err) {
           console.error(err);
           res.status(500).send('Error retrieving user');
       }
   });

   app.listen(3000, () => console.log('Server running on port 3000'));

BigQuery はパーティショニングと分散を自動的に処理し、手動シャーディングの必要性を最小限に抑えます。

4. Node.js アプリケーションでのシャードキーの不整合の処理

Node.js アプリケーションでシャードデータを扱う場合、シャードキーの位置がずれている や スキャッターギャザー 結合の必要性などの問題がよく発生します。 Node.js と Express を使用してこれらの課題に取り組む方法を次に示します。

Node.js でのブロードキャスト結合の処理

結合で小さなテーブル (ユーザーなど) をすべてのシャードにブロードキャストする必要がある場合は、小さなテーブルを 1 回フェッチし、それを使用してシャードテーブルのデータと結合することで、アプリケーション層に結合を実装できます。

SELECT o.order_id, u.user_name
FROM orders o
JOIN users u
ON o.user_id = u.user_id;

Node.js での Scatter-Gather クエリの処理

スキャッター/ギャザー結合を伴うクエリの場合 (シャードキーの位置がずれている場合など)、すべてのシャードをクエリし、結果をアプリケーション層で集計する必要があります。

SELECT o.order_id, u.user_name
FROM `project.dataset.orders` o
JOIN `project.dataset.users` u
ON o.user_id = u.user_id
WHERE o.order_date BETWEEN '2024-01-01' AND '2024-12-31';

5. シャードデータを使用したクエリ最適化のベストプラクティス

シャーディングされたデータを処理し、結合を実行する場合は、次のベストプラクティスを考慮してください。

シャードキーの調整: 可能な場合は、関連するテーブルが同じシャードキーを使用するようにします。これにより、クロスシャード結合の必要性が最小限に抑えられ、パフォーマンスが向上します。
非正規化: 結合が頻繁に行われるシナリオでは、データの非正規化を検討してください。たとえば、ユーザー情報を Posts テーブルに直接保存できるため、結合の必要性が減ります。
小さなテーブルにはブロードキャスト結合を使用する: テーブルの 1 つが十分に小さい場合は、スキャッター/ギャザークエリを回避するためにすべてのノードにブロードキャストします。
データの事前結合: 頻繁にアクセスされるデータの場合は、事前結合して結果をマテリアライズドビューまたはキャッシュに保存することを検討してください。
分散クエリエンジンの活用: 複雑な分析クエリの場合は、分散結合と最適化を自動的に処理する Presto や BigQuery などのシステムを使用します。

6. シャードデータを使用したカーソルベースのページネーションのベストプラクティス

このようなシャーディングを備えた分散システムでは、特にデータが複数のシャードに分散しているため、カーソルベースのページネーションを慎重に処理する必要があります。重要なのは次のとおりです:

クエリを分割する: 関連するデータについて各シャードを個別にクエリします。
チャンクでページネーションを処理する: シャードデータ (投稿またはユーザーのいずれか) 全体でページネーションを行う方法を決定し、関連する結果を収集します。
アプリケーションレベルで結合: 各シャードから結果を取得し、メモリ内のデータを結合して、次のページにカーソルロジックを適用します。

データが異なるシャードに存在し、アプリケーションレベルでポストフェッチ結合が必要であることを考慮して、Node.js と Express を使用してこれを実装する方法を見てみましょう。

シャード化されたテーブルでページネーションと結合を処理する方法

以下があると仮定しましょう:

posts テーブルは user_id によってシャード化されました。
users テーブルは user_id によってシャード化されました。

特定のユーザーのページ分割された投稿を取得したいのですが、ユーザーと投稿は異なるシャードにあるため、クエリを分割し、ページ分割を処理してから、アプリケーションレベルで結合を実行する必要があります。

アプローチ：

関連するシャードをクエリします:
- まず、シャード全体で Posts テーブルにクエリを実行して、投稿を取得する必要があります。
- 関連する投稿を取得した後、投稿の user_id を使用して、users テーブルをクエリします (ここでもシャード全体で)。
ページネーション戦略:
- 投稿のページネーション: created_at、post_id、または別の一意のフィールドを使用して、posts テーブルのページネーションを行うことができます。
- ユーザーのページ分割: ユーザーデータを個別に取得するか、user_id をカーソルとして使用してユーザーをページ分割する必要がある場合があります。
アプリケーションレベルの結合:
- 関連するシャード (投稿とユーザーの両方) からデータを取得した後、それらをアプリケーションレベルで結合します。
カーソルの処理:
- 最初のページを取得した後、(投稿からの) 最後の created_at または post_id を次のクエリのカーソルとして使用します。

実装例

1. シャード間で投稿をクエリする

ここでは、カーソル (created_at または post_id など) でフィルタリングして、さまざまな投稿シャードにわたってクエリを実行します。

2. 投稿データを使用してシャード全体でユーザーをクエリする

最初のクエリから関連する post_id と user_id を取得したら、関連するシャードからユーザーデータを取得します。

   const express = require('express');
   const { Pool } = require('pg');

   const poolShard1 = new Pool({ connectionString: 'postgresql://localhost/shard1' });
   const poolShard2 = new Pool({ connectionString: 'postgresql://localhost/shard2' });

   const app = express();
   app.use(express.json());

   const getShardPool = (userId) => (userId % 2 === 0 ? poolShard1 : poolShard2);

   app.post('/user', async (req, res) => {
       const { userId, data } = req.body;
       const pool = getShardPool(userId);
       try {
           await pool.query('INSERT INTO user_data (user_id, data) VALUES (, )', [userId, data]);
           res.status(200).send('User added successfully');
       } catch (err) {
           console.error(err);
           res.status(500).send('Error inserting user');
       }
   });

   app.get('/user/:userId', async (req, res) => {
       const userId = parseInt(req.params.userId, 10);
       const pool = getShardPool(userId);
       try {
           const result = await pool.query('SELECT * FROM user_data WHERE user_id = ', [userId]);
           res.status(200).json(result.rows);
       } catch (err) {
           console.error(err);
           res.status(500).send('Error retrieving user');
       }
   });

   app.listen(3000, () => console.log('Server running on port 3000'));

主な詳細:

投稿のページネーション: カーソルは、created_at フィールドまたは投稿内の別の一意のフィールドに基づいており、結果のページネーションに使用されます。
シャードを個別にクエリする: 投稿とユーザーは異なるキーでシャード化されているため、各シャードを個別にクエリし、アプリケーションレベルで結合を実行する前にすべてのシャードからデータを収集します。
カーソル処理: 結果を取得した後、投稿の last created_at (または post_id) を使用して、次のページのカーソルを生成します。
アプリケーションレベルで結合: 関連するシャードからデータを取得した後、メモリ内の user_id に基づいて投稿をユーザーデータと結合します。

結論

分散システムでのシャードデータの管理には、特に効率的な結合の実行に関して、特有の課題が伴います。 ブロードキャスト結合、スキャッター/ギャザー結合などの手法を理解し、分散クエリエンジンを活用すると、クエリのパフォーマンスを大幅に向上させることができます。さらに、アプリケーションレベルのクエリでは、シャードキーの配置、非正規化、および最適化されたクエリ戦略を考慮することが不可欠です。これらのベストプラクティスに従い、適切なツールを利用することで、開発者はアプリケーションがシャードデータを効果的に処理し、大規模なパフォーマンスを維持できるようになります。

以上が分散システムでのシャードデータの処理: 結合、ブロードキャスト、クエリ最適化の詳細の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

JavaScriptの文字列文字を交換しますMar 11, 2025 am 12:07 AM

JavaScript文字列置換法とFAQの詳細な説明この記事では、javaScriptの文字列文字を置き換える2つの方法について説明します：内部JavaScriptコードとWebページの内部HTML。 JavaScriptコード内の文字列を交換します最も直接的な方法は、置換（）メソッドを使用することです。 str = str.replace（ "find"、 "置換"）; この方法は、最初の一致のみを置き換えます。すべての一致を置き換えるには、正規表現を使用して、グローバルフラグGを追加します。 str = str.replace（/fi

カスタムGoogle検索APIセットアップチュートリアルMar 04, 2025 am 01:06 AM

このチュートリアルでは、カスタムGoogle検索APIをブログまたはWebサイトに統合する方法を示し、標準のWordPressテーマ検索関数よりも洗練された検索エクスペリエンスを提供します。驚くほど簡単です！検索をyに制限することができます

例JSONファイルの例Mar 03, 2025 am 12:35 AM

この記事シリーズは、2017年半ばに最新の情報と新鮮な例で書き直されました。このJSONの例では、JSON形式を使用してファイルに単純な値を保存する方法について説明します。キー価値ペア表記を使用して、あらゆる種類を保存できます

10 jQuery構文蛍光物Mar 02, 2025 am 12:32 AM

コードプレゼンテーションを強化する：開発者向けの10個の構文蛍光物ウェブサイトやブログでコードスニペットを共有することは、開発者にとって一般的な慣行です。適切な構文ハイライターを選択すると、読みやすさと視覚的な魅力を大幅に改善できます。 t

独自のAjax Webアプリケーションを構築しますMar 09, 2025 am 12:11 AM

それで、あなたはここで、Ajaxと呼ばれるこのことについてすべてを学ぶ準備ができています。しかし、それは正確には何ですか？ Ajaxという用語は、動的でインタラクティブなWebコンテンツを作成するために使用されるテクノロジーのゆるいグループ化を指します。 Ajaxという用語は、もともとJesse Jによって造られました

8見事なjQueryページレイアウトプラグインMar 06, 2025 am 12:48 AM

楽なWebページレイアウトのためにjQueryを活用する：8本質的なプラグイン jQueryは、Webページのレイアウトを大幅に簡素化します。この記事では、プロセスを合理化する8つの強力なjQueryプラグイン、特に手動のウェブサイトの作成に役立ちます

10 JavaScript＆JQuery MVCチュートリアルMar 02, 2025 am 01:16 AM

この記事では、JavaScriptとJQuery Model-View-Controller（MVC）フレームワークに関する10を超えるチュートリアルの厳選された選択を紹介します。これは、新年にWeb開発スキルを向上させるのに最適です。これらのチュートリアルは、Foundatioのさまざまなトピックをカバーしています

＆＃x27; this＆＃x27; JavaScriptで？Mar 04, 2025 am 01:15 AM

コアポイントこれは通常、メソッドを「所有」するオブジェクトを指しますが、関数がどのように呼び出されるかに依存します。現在のオブジェクトがない場合、これはグローバルオブジェクトを指します。 Webブラウザでは、ウィンドウで表されます。関数を呼び出すと、これはグローバルオブジェクトを維持しますが、オブジェクトコンストラクターまたはそのメソッドを呼び出すとき、これはオブジェクトのインスタンスを指します。 call（）、apply（）、bind（）などのメソッドを使用して、このコンテキストを変更できます。これらのメソッドは、与えられたこの値とパラメーターを使用して関数を呼び出します。 JavaScriptは優れたプログラミング言語です。数年前、この文はそうでした

See all articles