Facebook本社で開催された開発者会議で、ソーシャルネットワーキング大手のエンジニアらは、自社開発した新しいクエリエンジンPrestoを使用して、既存の大規模な250PBデータウェアハウスの対話型分析を行っていることを明らかにした。
エンジニアの Martin Traverso 氏によると、850 人以上の Facebook エンジニアがこれを使用して、毎日 320TB 以上のデータをスキャンしています。これまで、当社の科学者やアナリストはデータ分析に Hive を利用していました。ただし、Hive はバッチ処理用に設計されています。しかし、データが増えるにつれて、Hive は私たちのニーズを満たすことができなくなりました。 Hive よりも高速なツールは他にもありますが、機能が制限されているか、大規模なデータ ウェアハウスを操作するには単純すぎるかのいずれかです。そして過去数か月間、私たちはこのギャップを埋めるために Presto を使用してきました。
Hive は、Facebook が数年前に Hadoop 専用に作成したデータ ウェアハウス ツールです。主に MapReduce に動作を依存しているため、古くなるとその速度が増大するデータ要件に対応できなくなります。完全なデータ セットを参照するには数分から数時間かかる可能性があり、これはまったく現実的ではありません。
Traverso 氏はまた、Presto を使用した単純なクエリには数百ミリ秒しかかからず、非常に複雑なクエリでも完了するまでに数分しかかかりません。メモリ内で実行され、ディスクには書き込まれません。
Presto は Facebook 版の Cloudera Impala SQL クエリ エンジン、または Hortonworks が Project Stinger で行っているものと同様に見えるかもしれませんが、これは Facebook の規模でより高速な操作を行うためにカスタマイズされたバージョンです。 Presto は他の商用製品と競合することはありませんが、すぐにビッグデータ業界を揺るがすでしょう。そしてFacebookは今秋、Prestoをオープンソースとしてリリースする予定だ。
Facebook のエンジニアリング マネージャーである Ravi Murthy 氏は、ユーザー数が増加し続けるにつれて、データ ウェアハウスも 4 年前の 4,000 倍に急速に成長していると述べました。マーシー氏はまた、今後数年でデータはエクサバイトに達すると述べた。したがって、このデータ規模に対応するには、多くのことを再考する必要がありました。
Presto はその 1 つであり、クエリ速度の向上に加えて、CPU 使用効率の点でも Hive よりも 7 倍効率的です。進行中のもう 1 つのプロジェクトは、Facebook のデータ センターの分析データ スペースを削減することです。
Weibo の専門家は、Facebook が発表した最新のクエリ エンジンである Presto についてどう思いますか?
ビッグ データ ピ ドン氏、EMC 中国研究所ビッグ データ ラボラトリーの元所長: Facebook の最新のインタラクティブ ビッグ データ クエリ システム Presto は、Cloudera の Impala や Hortonworks の Stinger と同様、Facebook の急速に拡大する大規模データ ウェアハウスの高速クエリ ニーズを解決します。 Facebook は、エクサバイト規模のデータを対象とした新世代のビッグ データ システムを開発しています。Presto は、データ ウェアハウスの対話型クエリ システムの 1 つであり、大容量ストレージ システムも備えている必要があります。このレベルでは、考慮すべきデザインがたくさんあります。
Sina CTO 兼共同社長 Jack Xu Liangjie : ソーシャル ネットワークとソーシャル メディアは、真のビッグデータ (ビッグデータ) プラットフォームを生み出しました。新浪微博も例外ではありません...
英国リーズ大学のコンピューターおよび言語学の研究者、および検索プロジェクトの博士研究員である vinW 氏: 1. Presto は秋にオープンソース化される予定です。 2. Hive よりも 7 倍高速です。 3. メモリに基づいています。
Launch_Bruce: FaceBook は検索エンジンではないため、リアルタイム パフォーマンスに対する要求が高くなります。Hive が最初に起動されたとしても、それは一時的な手段にすぎません。これは Hadoop の遺伝子です。深く考えずにやみくもに開始された多くのプロジェクトは、最終的には Hadoop によって確実に困難になります。しかし明らかに、Hadoop の成功したエコシステムは多くの人々に害を及ぼすことになります。
テスライーロン: さあ!ビッグデータは多くのビジネスチャンスを生み出します。特に、電子商取引プラットフォーム最大手のアリババや動画プラットフォーム最大手のYOKUとの連携に期待がかかる。さらに、Sina は Weibo 上の多くの人気アプリケーションに投資しており、Sina が研究開発、管理、販売でどのようにうまくいくかは後ほど見ていきます。
ビッグデータを運ぶヘンリー: 私たちが約 5 年前にビッグデータ分析を行っていたとき、私たちの MPP 製品にはすでにこれらの戦略が組み込まれていました。当時、最大の問題はインターネット上のビッグデータでしたが、これらのスター企業はお金をかけて購入することを好まず、車輪を作ることだけを好みました。これは、車輪を再発明するのではなく、購入に喜んでお金を費やす通信顧客にとっては良いことです。 英語から: gigaom.com
http://www.bkjia.com/PHPjc/735062.html