VLDB 2023 賞が発表、清華大学、4Paradigm、NUS の共同論文が最優秀産業論文賞を受賞-AI-php.cn

ホームページ

テクノロジー周辺機器

VLDB 2023 賞が発表、清華大学、4Paradigm、NUS の共同論文が最優秀産業論文賞を受賞

王林

Sep 14, 2023 am 10:01 AM

プロジェクト

VLDB 2023 国際会議がカナダのバンクーバーで無事開催されました。 VLDB 会議は、データベース分野で長い歴史を持つ 3 つのトップ会議の 1 つであり、正式名称は International Large-Scale Database Conference です。各カンファレンスは、データベース研究の現在の最先端の方向性、業界の最新技術、さまざまな国の研究開発レベルを展示することに重点を置いており、世界トップの研究機関からの応募が集まります。

カンファレンスシステムの革新性、完全性、実験計画などに関して非常に高い要件が求められます。 VLDB の論文採択率は一般に約 18% と低く、貢献度の高い論文のみが採択される可能性があります。今年も競争はさらに激化している。公式データによると、今年はスタンフォード大学、カーネギーメロン大学、Microsoft Research、VMware Research、Meta、その他の世界的に有名な大学、研究機関、テクノロジー大手からの論文を含む、合計 9 件の VLDB 論文が最優秀論文賞を受賞しました。

VLDB 2023奖项公布，清华、第四范式、NUS联合论文获最佳工业界论文奖その中で、4Paradigm、清華大学、シンガポール国立大学が共同で完成させた論文「FEBench: A Benchmark for Real-Time Relational Data Feature Extraction」が、最優秀産業論文の次点賞を受賞しました。

この論文は、4Paradigm、清華大学、シンガポール国立大学の共同研究です。この論文では、機械学習に基づくリアルタイムの意思決定システムを評価するために使用される、業界における実際のシナリオの蓄積に基づくリアルタイム特徴計算テストベンチマークを提案しています。

VLDB 2023奖项公布，清华、第四范式、NUS联合论文获最佳工业界论文奖

次のリンクで「論文を表示」をクリックしてください: https://github.com/decis-bench/febench/blob/main/report/febench.pdf

##プロジェクトアドレス: https://github.com/decis-bench/febench 書き換える必要がある内容は次のとおりです。プロジェクトのアドレスは https://github.com/decis-bench/febench VLDB 2023奖项公布，清华、第四范式、NUS联合论文获最佳工业界论文奖

プロジェクトの背景
人工知能に基づく意思決定システムは、多くの業界シナリオで広く使用されています。その中には、金融業界の不正行為防止や小売業界のリアルタイムのオンラインレコメンデーションなど、リアルタイムデータに基づく計算が含まれるシナリオが数多くあります。機械学習によって駆動されるリアルタイム意思決定システムには、通常、機能とモデルという 2 つの主要なコンピューティングリンクが含まれます。ビジネスロジックの多様性と、オンラインでの低遅延および高同時実行性の要件により、特徴量の計算が意思決定システム全体のボトルネックになることがよくあります。したがって、利用可能で安定した効率的なリアルタイム特徴計算プラットフォームを構築するには、多くのエンジニアリング実践が必要です。以下の図 1 は、不正行為対策アプリケーションの一般的なリアルタイム特徴計算シナリオを示しています。オリジナルのカードスワイプ記録テーブルに基づいて特徴量計算を実行することで、新しい特徴量（過去 10 秒間のカードスワイプ量の最大/最小/平均など）が生成され、リアルタイムで下流モデルに入力されます。推論

書き直された内容: 図 1. 不正行為対策アプリケーションにおけるリアルタイム特徴計算の応用

一般的に言えば、リアルタイム特徴計算プラットフォームは、次の 2 つの基本要件を満たす必要があります:

VLDB 2023奖项公布，清华、第四范式、NUS联合论文获最佳工业界论文奖

オンラインとオフラインの一貫性: 機械学習アプリケーションは通常、オンラインとオンラインの 2 つのプロセスに分けられます。履歴データと、データからのリアルタイム推論に基づくトレーニング。したがって、オンラインとオフラインの最終的なビジネス結果の一貫性を確保するには、オンラインとオフラインの特徴計算ロジックの一貫性を確保することが重要です。

オンラインサービスの効率: オンラインサービスは、リアルタイムのデータと計算を目的としており、低遅延、高同時実行性、高可用性のニーズを満たします。

図 2 に示すように上には、一般的なリアルタイム機能コンピューティングプラットフォームのアーキテクチャが 1 つリストされています。簡単に言うと、主にオフラインの計算エンジンとオンラインの計算エンジンが含まれており、オフラインとオンラインの計算ロジックの一貫性を確保することが重要なポイントとなります。現在、市場には、Flink などの汎用システムや、OpenMLDB、Tecton、Feast などの特殊システムなど、上記の要件を満たし、完全なリアルタイム特徴コンピューティングプラットフォームを形成できる機能プラットフォームが数多く存在します。しかし、業界には現在、そのようなシステムのパフォーマンスを厳密かつ科学的に評価するためのリアルタイム特性を重視した専用のベンチマークがありません。この要求に応えて、この文書の著者は、リアルタイム機能コンピューティングベンチマークテストである FEBench を構築しました。これは、機能コンピューティングプラットフォームのパフォーマンスを評価し、全体的な遅延、ロングテール遅延、および同時実行パフォーマンスを分析するために使用されます。システム。

技術原則 VLDB 2023奖项公布，清华、第四范式、NUS联合论文获最佳工业界论文奖

FEBench のベンチマーク構築には、主に 3 つの作業側面が含まれます。データセットの収集、クエリで生成されたコンテンツの書き換えが必要な場合、およびコンテンツの書き換えが必要な場合です。書き換えられる場合は、適切なテンプレートを選択してください

データセットコレクション

研究チームは、リアルタイム特徴計算シナリオで使用できる合計 118 のデータセットを収集しました。これらのデータセットは、Kaggle、Tianchi、UCI から提供されています。 ML、KiltHub およびその他の公開ソース: データ Web サイトと 4Paradigm 内部公開データは、金融、小売、医療、製造、運輸、その他の業界シナリオなど、業界の一般的な使用シナリオをカバーしています。研究チームは、以下の図 3 に示すように、収集したデータセットをテーブルの数とデータセットのサイズに応じてさらに分類しました。

書き換えた内容: FEBench のテーブル数とデータセットのサイズのグラフは次のとおりです:

クエリ生成されたコンテンツは書き換える必要があります

データセットの数が多いため、データセットごとに特徴抽出を手動で生成する計算ロジックのワークロードは非常に膨大であるため、研究者はAutoCross (参考資料: AutoCross: 実世界アプリケーションにおける表形式データの自動特徴交差) や、収集されたデータセットのクエリを自動的に生成するその他の自動機械学習テクノロジなどのツール。 FEBench の機能選択とクエリ生成コンテンツを書き直す必要があります。これには、次の 4 つのステップが含まれます (下の図 4 を参照):

データセット内のメインテーブルを識別する (ストリーミングデータ ) と初期化用の補助テーブル (静的/追加可能/スナップショットテーブルなど) を格納します。続いて、主テーブルと副テーブルの類似した名前またはキー関係を持つ列が分析され、異なる機能操作モードに対応する列間の 1 対 1/1 対多の関係が列挙されます。

列の関係を特徴演算子にマップします。

すべての候補特徴を抽出した後、ビーム検索アルゴリズムを使用して効果的な特徴セットを繰り返し生成します。

選択された機能は、意味的に同等の SQL クエリに変換されます。

#図 4. FEBench でのクエリ生成プロセス

内容を書き換える場合は、適切なテンプレートを選択する必要があります
各データセットのクエリを生成した後、研究者らはさらにクラスタリングアルゴリズムを使用して、代表的なクエリをクエリテンプレートとして選択し、同様のタスクの繰り返しテストを削減しました。 118 個の収集されたデータセットと特徴クエリについて、DBSCAN アルゴリズムを使用してこれらのクエリをクラスタ化します。具体的な手順は次のとおりです。

各クエリの特徴を 5 つの部分に分割します。列の数、クエリ演算子の合計数、複雑な演算子の頻度、ネストされたサブクエリのレベル数、および時間ウィンドウ内の最大のタプルの数。特徴エンジニアリングクエリには通常、時間枠が含まれ、クエリの複雑さはバッチデータサイズの影響を受けないため、データセットサイズはクラスタリング機能の 1 つとして含まれません。

ロジスティック回帰モデルを使用して、モデルの入力として特徴を使用し、モデルの出力として特徴クエリの実行時間を使用して、クエリ特徴とクエリ実行特性の間の関係を評価します。モデル。クラスタリング結果に対するさまざまな特徴の重要性は、各特徴の回帰重みをクラスタリング重みとして使用することによって考慮されます。

重み付けされたクエリ特徴に基づいて、DBSCAN アルゴリズムを使用して、複数のクラスターへの機能クエリ。

#次のグラフは、さまざまな考慮指標の下での 118 個のデータセットの分布を示しています。図 (a) は、出力列の数、クエリ演算子の総数、ネストされたサブクエリレベルの数などの統計的性質の指標を示し、図 (b) は、クエリ実行時間との相関が最も高い指標を示しています。集計操作の数、ネストされたサブクエリレベルの数、および時間ウィンドウの数

図 5. クラスター分析を通じて 6 つのクラスターを取得した 118 個の特徴クエリと生成されたクエリテンプレート ( Q0 -5)
最後に、クラスタリングの結果に基づいて、118 個の特徴クエリが 6 つのクラスターに分割されました。各クラスターについて、重心に近いクエリが候補テンプレートとして選択されます。さらに、さまざまなアプリケーションシナリオの人工知能アプリケーションにはさまざまな特徴エンジニアリング要件がある可能性があることを考慮して、さまざまな特徴エンジニアリングシナリオをより適切にカバーできるように、各クラスターの重心付近のさまざまなシナリオからクエリを選択するようにしてください。最後に、交通、ヘルスケア、エネルギー、販売、金融取引など、さまざまなシナリオに適した 6 つのクエリテンプレートが 118 の機能クエリから選択されました。これら 6 つのクエリテンプレートは、最終的に FEBench のコアデータセットとクエリを構成し、リアルタイム特徴計算プラットフォームのパフォーマンステストに使用されます。

書き直す必要がある内容は次のとおりです: ベンチマーク評価 (OpenMLDB および Flink)
この研究では、研究者らは FEBench を使用して、Flink と OpenMLDB という 2 つの典型的な産業システムをテストしました。 Flink は一般的なバッチおよびストリーム処理の一貫したコンピューティングプラットフォームであるのに対し、OpenMLDB は専用のリアルタイム機能コンピューティングプラットフォームです。研究者たちは、テストと分析を通じて、各システムの長所と短所、およびその背後にある理由を発見しました。実験結果は、アーキテクチャ設計の違いにより、Flink と OpenMLDB の間にパフォーマンスの違いがあることを示しています。同時に、これはターゲットシステムの機能を分析する際の FEBench の重要性も示しています。要約すると、研究の主な結論は次のとおりです。

Flink は、待ち時間が OpenMLDB より 2 桁遅いです (図 6)。研究者らは、このギャップの主な理由は、2 つのシステムアーキテクチャの実装方法の違いにあると分析しており、OpenMLDB は、リアルタイム特徴計算専用システムとして、メモリベースの 2 層ジャンプテーブルや時間的に最適化されたその他のデータ構造を備えています。最終的に、Flink と比較すると、特徴量計算シナリオにおいて明らかにパフォーマンス上の利点があります。もちろん、汎用システムである Flink は、OpenMLDB よりも適用可能なシナリオの範囲が広いです。

#図 6. OpenMLDB と Flink 間の TP-50 レイテンシーの比較

#OpenMLDB には明らかなロングテールレイテンシの問題が見られますが、Flink のテールレイテンシはより安定しています (図 7)。次の数値は、OpenMLDB および Flink のそれぞれの TP-50 に対して正規化されたレイテンシーパフォーマンスを示しており、絶対的なパフォーマンスの比較を表すものではないことに注意してください。次のように書き直されました: OpenMLDB にはテールレイテンシーに関する明らかな問題がありますが、Flink のテールレイテンシーはより安定しています (図 7 を参照)。次の数値は、絶対的なパフォーマンスの比較ではなく、レイテンシパフォーマンスを TP-50 での OpenMLDB と Flink のパフォーマンスにそれぞれ正規化したものであることに注意してください。
#図 7. OpenMLDB と Flink のテールレイテンシの比較 (それぞれの TP-50 レイテンシに正規化)

研究者らは、上記のパフォーマンス結果をさらに詳しく調べました。

実行時間に基づいて逆アセンブルおよび分析します。マイクロアーキテクチャの指標には、命令の完了、誤った分岐の予測、バックエンドの依存関係、フロントエンドの依存関係などが含まれます。クエリテンプレートが異なれば、微細構造レベルでパフォーマンスのボトルネックも異なります。図 8 に示すように、Q0 ～ Q2 のパフォーマンスのボトルネックは主にフロントエンドに依存しており、全体の実行時間の 45% 以上を占めています。この場合、実行される操作は比較的単純で、ほとんどの時間はユーザー要求の処理と特徴抽出命令の切り替えに費やされます。第 3 四半期から第 5 四半期にかけて、バックエンドの依存関係 (キャッシュの無効化など) と命令の実行 (より複雑な命令を含む) がより重要な要素になります。 OpenMLDB は、ターゲットを絞った最適化によってパフォーマンスをさらに向上させます

図 8 は、OpenMLDB と Flink のマイクロアーキテクチャインジケーター分析を示しています

実行プランの分析: Q0 を例として、以下の図 9 は Flink と OpenMLDB の実行プランの違いを比較しています。 Flink の計算演算子は最も時間がかかりますが、OpenMLDB はウィンドウ処理を最適化し、カスタム集計関数などの最適化手法を使用することで実行レイテンシを短縮します。

9 番目の図は、実行計画に関する OpenMLDB と Flink の比較を示しています (Q0)
#ユーザーが上記の実験結果を再現したい場合、またはローカルシステムでベンチマークテストを実施したい場合 (論文の著者はコミュニティでテスト結果を提出して共有することも推奨しています)、詳細については FEBench プロジェクトのホームページにアクセスしてください。

FEBench プロジェクト: https://github.com/decis-bench/febench
Flink プロジェクト: https://github.com /apache/flink

OpenMLDB プロジェクト: https://github.com/4paradigm/OpenMLDB

以上がVLDB 2023 賞が発表、清華大学、4Paradigm、NUS の共同論文が最優秀産業論文賞を受賞の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced：Horizonの新しいサブスクリプションティア現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。ただし、Android Authorityのレポートは、今後の変更を示唆しています。最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます：データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません