ホームページ >バックエンド開発 >Python チュートリアル >YouTube はどうやって巨大なビデオファイルを保存しますか?

YouTube はどうやって巨大なビデオファイルを保存しますか?

PHPz転載: 2023-04-10 11:21:061196ブラウズ

皆さんこんにちは、私はブツァイ・チェンです~

YouTube は Google に次いで 2 番目に人気のある Web サイトです。 2019 年 5 月には、毎分 500 時間以上のビデオコンテンツがプラットフォームにアップロードされました。

このビデオ共有プラットフォームには 20 億人を超えるユーザーがおり、毎日 10 億時間以上のビデオが再生され、数十億回の視聴回数を生み出しています。これらは信じられないほどの数字です。

この記事では、YouTube が使用するデータベースとバックエンドデータインフラストラクチャについて詳しく説明します。これにより、ビデオプラットフォームは膨大な量のデータを保存し、数十億のユーザーに拡張することができます。

それでは始めましょう。

1. はじめに

YouTube への取り組みは 2005 年に始まりました。ベンチャーキャピタルから資金提供を受けたこの技術新興企業は成功を収め続け、2006 年 11 月に Google に 16 億 5,000 万ドルで買収されました。

Google に買収される前、同社のチームは次のメンバーで構成されていました。

2 人のシステム管理者
2 人のスケーラビリティソフトウェアアーキテクト
2 つの機能開発者
2 人のネットワークエンジニア
1 人の DBA

2. バックエンドインフラストラクチャ

YouTube バックエンドマイクロサービスは、Python、データベース、ハードウェア、 Java (Guice フレームワークを使用) と Go。ユーザーインターフェイスは JavaScript を使用して記述されています。

メインデータベースは Vitess がサポートする MySQL です Vitess は MySQL の水平拡張に使用されるデータベースクラスタシステムです。さらに、キャッシュには Memcache を、ノードの調整には Zookeeper を使用します。

YouTube はどうやって巨大なビデオファイルを保存しますか?

人気のある動画は CDN を通じて提供されますが、一般的な再生回数の少ない動画はデータベースから取得されます。

各ビデオがアップロードされると、一意の識別子が与えられ、バッチジョブによって処理されます。このジョブは、サムネイル、メタデータ、ビデオの生成など、複数の自動プロセスを実行します。スクリプト、コーディング、収益化ステータスの設定など。

VP9 および H.264/MPEG-4 AVC Advanced Videocoding コーデックはビデオ圧縮に使用され、他のコーデックの半分の帯域幅を使用して HD および 4K 品質のビデオをエンコードできます。

ビデオストリーミングは、従来の HTTP Web サーバーから高品質のビデオストリーミングを実現できるアダプティブビットレートストリーミングテクノロジである HTTP プロトコルに基づくダイナミックアダプティブストリーミングを使用します。このテクノロジーを使用すると、コンテンツをさまざまなビットレートで視聴者に提供できます。 YouTube クライアントは、バッファリング時間を最小限に抑えるために、ビデオのレンダリングを視聴者のインターネット接続速度に自動的に適応させます。

私はかつて専用の記事で YouTube のビデオコード変換プロセスについて説明しました。「YouTube が低遅延で高品質のビデオを提供する方法」を参照してください。

それでは、プラットフォームのバックエンドテクノロジーについて簡単に紹介します。 YouTube で使用される主なデータベースは MySQL です。では、YouTube のエンジニアリングチームが Vitess を作成する必要性を感じた理由を見てみましょう。元の MySQL 環境でどのような問題に直面し、その上に追加のフレームワークを実装することになったのでしょうか?

3. Vitess が必要な理由

Web サイトには、最初はデータベースインスタンスが 1 つだけあります。 Web サイトが成長するにつれて、開発者は増大する QPS (1 秒あたりのクエリ数) 要件を満たすためにデータベースを水平方向に拡張する必要があります。

3.1 マスター/スレーブレプリカ

レプリカはマスターデータベースインスタンスに追加されます。読み取りリクエストはプライマリデータベースとレプリカにルーティングされ、プライマリデータベースの負荷が軽減されます。レプリカを追加すると、ボトルネックが緩和され、読み取りスループットが向上し、システムの耐久性が向上します。

マスターノードは書き込みトラフィックを処理し、マスターノードとレプリカノードは読み取りトラフィックを同時に処理します。

YouTube はどうやって巨大なビデオファイルを保存しますか?

ただし、このシナリオでは、レプリカから古いデータを読み取る可能性があります。マスターがレプリカの情報を更新する前にリクエストがレプリカのデータを読み取る場合、ビューアは古いデータを取得します。

現時点では、プライマリノードとレプリカノードのデータが不整合です。この場合、矛盾するデータは、プライマリノードとレプリカノードでの特定のビデオのビュー数です。

実際には、これはまったく問題ありません。視聴者は再生回数に多少のばらつきがあっても気にしませんよね?さらに、ビデオはブラウザでレンダリングできます。

マスターノードとレプリカノード間のデータは、最終的には一貫性のあるものになります。

ということで、エンジニアも大満足でしたし、観客も大満足でした。レプリカの導入もあり、順調に進んでいます。

Web サイトは引き続き人気があり、QPS は上昇し続けています。マスター/スレーブレプリカ戦略は現在、Web サイトのトラフィックの増加に対応することが困難になっています。＃＃＃＃＃＃何をするべきだろう？

3.2 シャーディング

次の戦略は、データベースをシャーディングすることです。シャーディングは、マスター/スレーブレプリカ、マスター/マスターレプリカ、フェデレーション、非正規化に加えて、リレーショナルデータベースを拡張する方法の 1 つです。

データベースのシャーディングは単純なプロセスではありません。これにより、システムの複雑さが大幅に増大し、管理がより困難になります。

ただし、QPS の成長に合わせてデータベースをシャード化する必要があります。開発者がデータベースをシャーディングすると、データは複数のマシンに分散されます。これにより、システムの書き込みスループットが向上します。書き込みを処理する 1 つのマスターインスタンスだけでなく、複数のシャードマシン間で書き込み操作を実行できるようになりました。

同時に、冗長性とスループットを確保するために、マシンごとに個別のコピーが作成されます。

プラットフォームの人気は高まり続けており、コンテンツ作成者によって大量のデータがデータベースに追加されています。

マシンの故障や未知の外部イベントによるデータ損失やサービスの利用不能を防ぐために、システムに災害管理機能を追加する必要があります。

3.3 災害管理

災害管理とは、停電や自然災害 (地震や火災など) に直面した場合の緊急措置を指します。冗長性があり、ユーザーデータを世界のさまざまな地理的領域にあるデータセンターにバックアップする必要があります。ユーザーデータの損失やサービスの利用不能は許可されません。

世界中に複数のデータセンターがあることは、ユーザーリクエストが異なる大陸にあるオリジンサーバーにルーティングされるのではなく、最も近いデータセンターにルーティングされるため、YouTube のシステムレイテンシの削減にも役立ちます。

さあ、インフラストラクチャがどれほど複雑になるか想像できるでしょう。

最適化されていないフルテーブルスキャンにより、データベース全体がクラッシュすることがよくあります。データベースは不正なクエリから保護する必要があります。効率的なサービスを確保するには、すべてのサーバーを追跡する必要があります。

開発者は、システムの複雑さを抽象化し、スケーラビリティの課題を解決し、最小限のコストでシステムを管理できるシステムを必要としています。これらすべてが、YouTube が Vitess を開発するきっかけとなりました。

4.Vitess: MySQL データベースクラスタの水平拡張システム

Vitess は、MySQL 上で動作し、MySQL の水平拡張を可能にするデータベースクラスタシステムです。シャーディング機能が組み込まれているため、開発者はアプリケーションにシャーディングロジックを追加することなくデータベースを拡張できます。これは NoSQL の動作と似ています。

YouTube はどうやって巨大なビデオファイルを保存しますか?

#Vites は、フェイルオーバーとバックアップも自動的に処理します。リソースを大量に消費するクエリをインテリジェントに書き換えてキャッシュを実装することで、サーバーを管理し、データベースのパフォーマンスを向上させます。このフレームワークは、YouTube に加えて、GitHub、Slack、Square、New Relic などの業界の他の有名プレーヤーでも使用されています。

Vitess は、ACID トランザクションと強整合性のサポートが必要であり、同時に NoSQL データベースのようなリレーショナルデータベースを迅速に拡張したい場合に役立ちます。

YouTube では、各 MySQL 接続に 2MB のオーバーヘッドがあります。各接続には計算されたコストがあり、接続数が増えると、追加の RAM を追加する必要があります。

Vitess は、Go プログラミング言語の同時実行サポートに基づいて構築された接続プールを通じて、これらの接続を非常に低コストで管理できます。 Zookeeper を使用してクラスターを管理し、最新の状態に保ちます。

5. クラウドへの展開

Vitess はクラウドネイティブであり、クラウドモデルと同様に容量が徐々にデータベースに追加されるため、クラウド展開に適しています。 Kubernetes 対応のクラウドネイティブ分散データベースとして実行できます。

YouTube では、Vites はコンテナ化された環境で実行され、コンテナオーケストレーションツールとして Kubernetes を使用します。

今日のコンピューティング時代では、あらゆる大規模なサービスが分散環境のクラウドで実行されます。クラウドでサービスを実行することには多くの利点があります。

Google Cloud Platform は、Google 検索や YouTube などの Google 社内のエンドユーザー製品で使用されているものと同じインフラストラクチャに基づく一連のクラウドコンピューティングサービスです。

すべての大規模オンラインサービスには、多言語永続アーキテクチャが採用されています。これは、リレーショナルであろうと NoSQL であろうと、単一のデータモデルではサービスのすべての使用シナリオを処理できないためです。

この記事の調査では、YouTube で使用されている特定の Google Cloud データベースのリストは見つかりませんでしたが、Google Cloud Spanner、Cloud SQL、Cloud Datastore などの GCP 固有の製品が使用されていることは間違いありません。、Memorystore などを使用して、サービスのさまざまな機能を実行します。

この記事では、Google Adwords、Google Finance、Google Trends など、他の Google サービスで使用されるデータベースについて詳しく説明します。

6.CDN

YouTube は、低遅延、低コストのコンテンツ配信のために Google のグローバルネットワークを使用しています。グローバルに分散された POP エッジポイントを使用すると、顧客はオリジンサーバーからデータを取得することなく、より迅速にデータを取得できるようになります。

ここまで、YouTube で使用されているデータベース、フレームワーク、テクノロジーについて説明してきました。さて、今回はストレージの話です。

YouTube では、これほど大量のデータ (毎分 500 時間のビデオコンテンツがアップロードされる) をどのようにして保存しているのでしょうか?

7. データストレージ: YouTube はこのような膨大な量のデータをどのように保存しているのでしょうか?

ビデオは Google データセンターのハードドライブに保存されます。このデータは Google File System と BigTable によって管理されます。

GFS Google ファイルシステムは、分散環境で大規模なデータを管理するために Google によって開発された分散ファイルシステムです。

BigTable は、Google ファイルシステム上に構築された低遅延の分散データストレージシステムで、数千台のマシンに分散されたペタバイト単位のデータを処理するために使用されます。 60 以上の Google 製品で使用されています。

したがって、ビデオはハードドライブに保存されます。関係、メタデータ、ユーザー設定、プロフィール情報、アカウント設定、ストレージからビデオを取得するために必要な関連データなどはすべて MySQL に保存されます。

YouTube はどうやって巨大なビデオファイルを保存しますか?

7.1 プラグアンドプレイの商用サーバー

Google データセンターには同種のハードウェアがあり、ソフトウェアは社内で構築され、管理されています。数千の独立したサーバークラスター。

Google によって導入されたサーバーは、データセンターのストレージ機能を強化できます。これらはすべて商用サーバー (コモディティサーバー) であり、商用既製サーバー (商用既製サーバー) とも呼ばれます。。これらのサーバーは低価格で広く入手可能であり、大量に購入できるため、最小限のコストと出費でデータセンター内の同じハードウェアを交換または構成できます。

追加のストレージの必要性が高まると、新しい汎用サーバーがシステムに接続されることになります。

商用サーバーは問題が発生すると、修理ではなく交換されることがよくあります。これらはカスタムメイドではないため、企業はこれを使用することで、カスタムメイドのサーバーを実行する場合に比べてインフラストラクチャコストを大幅に削減できます。

7.2 データセンター向けに設計されたストレージディスク

YouTube では、毎日ペタバイトを超える新しいストレージが必要です。回転ハードドライブは、低コストで信頼性が高いため、主要な記憶媒体です。

SSD ソリッドステートドライブは半導体をベースとしているため、回転ディスクよりも高性能ですが、大規模に使用するとコスト効率が悪くなります。

これらは非常に高価であり、時間の経過とともにデータが失われる傾向があります。このため、アーカイブデータの保存には適していません。

さらに、Google は大規模データセンターに適した新しいディスクシリーズを開発しています。

データストレージ用に構築されたハードウェアの品質を判断するために使用できる 5 つの重要な指標があります。

ハードウェアは、高速入出力操作をサポートできる必要があります。秒のオーダー。
組織が指定するセキュリティ標準に準拠する必要があります。
通常のストレージハードウェアと比較して、より大きなストレージ容量が必要です。
ハードウェアの購入コスト、電力コスト、メンテナンスコストはすべて許容できるはずです。
ディスクは信頼性が高く、遅延が安定している必要があります。

以上がYouTube はどうやって巨大なビデオファイルを保存しますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python Java JavaScript sql mysql 架构分布式标识符并发事件 github zookeeper memcache nosql 数据库 kubernetes http 自动化数据中心

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：開発とコーディングの進化次の記事：開発とコーディングの進化

続きを見る

YouTube はどうやって巨大なビデオ ファイルを保存しますか?

1. はじめに

2. バックエンド インフラストラクチャ

3. Vitess が必要な理由

3.1 マスター/スレーブ レプリカ

3.2 シャーディング

3.3 災害管理

4.Vitess: MySQL データベース クラスタの水平拡張システム

5. クラウドへの展開

6.CDN

7. データ ストレージ: YouTube はこのような膨大な量のデータをどのように保存しているのでしょうか?

7.1 プラグアンドプレイの商用サーバー

7.2 データセンター向けに設計されたストレージ ディスク

関連記事

YouTube はどうやって巨大なビデオファイルを保存しますか?

2. バックエンドインフラストラクチャ

3.1 マスター/スレーブレプリカ

4.Vitess: MySQL データベースクラスタの水平拡張システム

7. データストレージ: YouTube はこのような膨大な量のデータをどのように保存しているのでしょうか?

7.2 データセンター向けに設計されたストレージディスク