検索
ホームページテクノロジー周辺機器AIVLDB 2023 賞が発表、清華大学、4Paradigm、NUS の共同論文が最優秀産業論文賞を受賞

VLDB 2023 国際会議がカナダのバンクーバーで無事開催されました。 VLDB 会議は、データベース分野で長い歴史を持つ 3 つのトップ会議の 1 つであり、正式名称は International Large-Scale Database Conference です。各カンファレンスは、データベース研究の現在の最先端の方向性、業界の最新技術、さまざまな国の研究開発レベルを展示することに重点を置いており、世界トップの研究機関からの応募が集まります。

カンファレンス システムの革新性、完全性、実験計画などに関して非常に高い要件が求められます。 VLDB の論文採択率は一般に約 18% と低く、貢献度の高い論文のみが採択される可能性があります。今年も競争はさらに激化している。公式データによると、今年はスタンフォード大学、カーネギーメロン大学、Microsoft Research、VMware Research、Meta、その他の世界的に有名な大学、研究機関、テクノロジー大手からの論文を含む、合計 9 件の VLDB 論文が最優秀論文賞を受賞しました。

VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖 その中で、4Paradigm、清華大学、シンガポール国立大学が共同で完成させた論文「FEBench: A Benchmark for Real-Time Relational Data Feature Extraction」が、最優秀産業論文の次点賞を受賞しました。

この論文は、4Paradigm、清華大学、シンガポール国立大学の共同研究です。この論文では、機械学習に基づくリアルタイムの意思決定システムを評価するために使用される、業界における実際のシナリオの蓄積に基づくリアルタイム特徴計算テスト ベンチマークを提案しています。

VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

次のリンクで「論文を表示」をクリックしてください: https://github.com/decis-bench/febench/blob/main/report/febench.pdf

##プロジェクトアドレス: https://github.com/decis-bench/febench 書き換える必要がある内容は次のとおりです。プロジェクトのアドレスは https://github.com/decis-bench/febenchVLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

  • プロジェクトの背景

  • 人工知能に基づく意思決定システムは、多くの業界シナリオで広く使用されています。その中には、金融業界の不正行為防止や小売業界のリアルタイムのオンライン レコメンデーションなど、リアルタイム データに基づく計算が含まれるシナリオが数多くあります。機械学習によって駆動されるリアルタイム意思決定システムには、通常、機能とモデルという 2 つの主要なコンピューティング リンクが含まれます。ビジネス ロジックの多様性と、オンラインでの低遅延および高同時実行性の要件により、特徴量の計算が意思決定システム全体のボトルネックになることがよくあります。したがって、利用可能で安定した効率的なリアルタイム特徴計算プラットフォームを構築するには、多くのエンジニアリング実践が必要です。以下の図 1 は、不正行為対策アプリケーションの一般的なリアルタイム特徴計算シナリオを示しています。オリジナルのカードスワイプ記録テーブルに基づいて特徴量計算を実行することで、新しい特徴量(過去 10 秒間のカードスワイプ量の最大/最小/平均など)が生成され、リアルタイムで下流モデルに入力されます。推論

書き直された内容: 図 1. 不正行為対策アプリケーションにおけるリアルタイム特徴計算の応用

一般的に言えば、リアルタイム特徴計算プラットフォームは、次の 2 つの基本要件を満たす必要があります:

VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

オンラインとオフラインの一貫性: 機械学習アプリケーションは通常、オンラインとオンラインの 2 つのプロセスに分けられます。履歴データと、データからのリアルタイム推論に基づくトレーニング。したがって、オンラインとオフラインの最終的なビジネス結果の一貫性を確保するには、オンラインとオフラインの特徴計算ロジックの一貫性を確保することが重要です。

オンライン サービスの効率: オンライン サービスは、リアルタイムのデータと計算を目的としており、低遅延、高同時実行性、高可用性のニーズを満たします。

  • #図 2. リアルタイム特徴量計算プラットフォームのアーキテクチャとワークフロー
  • 図 2 に示すように上には、一般的なリアルタイム機能コンピューティング プラットフォームのアーキテクチャが 1 つリストされています。簡単に言うと、主にオフラインの計算エンジンとオンラインの計算エンジンが含まれており、オフラインとオンラインの計算ロジックの一貫性を確保することが重要なポイントとなります。現在、市場には、Flink などの汎用システムや、OpenMLDB、Tecton、Feast などの特殊システムなど、上記の要件を満たし、完全なリアルタイム特徴コンピューティング プラットフォームを形成できる機能プラットフォームが数多く存在します。しかし、業界には現在、そのようなシステムのパフォーマンスを厳密かつ科学的に評価するためのリアルタイム特性を重視した専用のベンチマークがありません。この要求に応えて、この文書の著者は、リアルタイム機能コンピューティング ベンチマーク テストである FEBench を構築しました。これは、機能コンピューティング プラットフォームのパフォーマンスを評価し、全体的な遅延、ロングテール 遅延、および同時実行パフォーマンスを分析するために使用されます。システム。

技術原則VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

FEBench のベンチマーク構築には、主に 3 つの作業側面が含まれます。データ セットの収集、クエリで生成されたコンテンツの書き換えが必要な場合、およびコンテンツの書き換えが必要な場合です。書き換えられる場合は、適切なテンプレートを選択してください

データセット コレクション

研究チームは、リアルタイム特徴計算シナリオで使用できる合計 118 のデータ セットを収集しました。これらのデータ セットは、Kaggle、Tianchi、UCI から提供されています。 ML、KiltHub およびその他の公開ソース: データ Web サイトと 4Paradigm 内部公開データは、金融、小売、医療、製造、運輸、その他の業界シナリオなど、業界の一般的な使用シナリオをカバーしています。研究チームは、以下の図 3 に示すように、収集したデータ セットをテーブルの数とデータ セットのサイズに応じてさらに分類しました。

VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

書き換えた内容: FEBench のテーブル数とデータセットのサイズのグラフは次のとおりです:

クエリ生成されたコンテンツは書き換える必要があります

データ セットの数が多いため、データ セットごとに特徴抽出を手動で生成する計算ロジックのワークロードは非常に膨大であるため、研究者はAutoCross (参考資料: AutoCross: 実世界アプリケーションにおける表形式データの自動特徴交差) や、収集されたデータ セットのクエリを自動的に生成するその他の自動機械学習テクノロジなどのツール。 FEBench の機能選択とクエリ生成コンテンツを書き直す必要があります。これには、次の 4 つのステップが含まれます (下の図 4 を参照):

  • データ セット内のメイン テーブルを識別する (ストリーミング データ ) と初期化用の補助テーブル (静的/追加可能/スナップショット テーブルなど) を格納します。続いて、主テーブルと副テーブルの類似した名前またはキー関係を持つ列が分析され、異なる機能操作モードに対応する列間の 1 対 1/1 対多の関係が列挙されます。

  • 列の関係を特徴演算子にマップします。

  • すべての候補特徴を抽出した後、ビーム検索アルゴリズムを使用して効果的な特徴セットを繰り返し生成します。

  • 選択された機能は、意味的に同等の SQL クエリに変換されます。

VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

#図 4. FEBench でのクエリ生成プロセス

内容を書き換える場合は、適切なテンプレートを選択する必要があります

各データ セットのクエリを生成した後、研究者らはさらにクラスタリング アルゴリズムを使用して、代表的なクエリをクエリ テンプレートとして選択し、同様のタスクの繰り返しテストを削減しました。 118 個の収集されたデータ セットと特徴クエリについて、DBSCAN アルゴリズムを使用してこれらのクエリをクラスタ化します。具体的な手順は次のとおりです。

  • 各クエリの特徴を 5 つの部分に分割します。列の数、クエリ演算子の合計数、複雑な演算子の頻度、ネストされたサブクエリのレベル数、および時間ウィンドウ内の最大のタプルの数。特徴エンジニアリング クエリには通常、時間枠が含まれ、クエリの複雑さはバッチ データ サイズの影響を受けないため、データセット サイズはクラスタリング機能の 1 つとして含まれません。

  • ロジスティック回帰モデルを使用して、モデルの入力として特徴を使用し、モデルの出力として特徴クエリの実行時間を使用して、クエリ特徴とクエリ実行特性の間の関係を評価します。モデル。クラスタリング結果に対するさまざまな特徴の重要性は、各特徴の回帰重みをクラスタリング重みとして使用することによって考慮されます。

  • 重み付けされたクエリ特徴に基づいて、DBSCAN アルゴリズムを使用して、複数のクラスターへの機能クエリ。

  • #次のグラフは、さまざまな考慮指標の下での 118 個のデータ セットの分布を示しています。図 (a) は、出力列の数、クエリ演算子の総数、ネストされたサブクエリ レベルの数などの統計的性質の指標を示し、図 (b) は、クエリ実行時間との相関が最も高い指標を示しています。集計操作の数、ネストされたサブクエリ レベルの数、および時間ウィンドウの数

VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

図 5. クラスター分析を通じて 6 つのクラスターを取得した 118 個の特徴クエリと生成されたクエリ テンプレート ( Q0 -5)

最後に、クラスタリングの結果に基づいて、118 個の特徴クエリが 6 つのクラスターに分割されました。各クラスターについて、重心に近いクエリが候補テンプレートとして選択されます。さらに、さまざまなアプリケーション シナリオの人工知能アプリケーションにはさまざまな特徴エンジニアリング要件がある可能性があることを考慮して、さまざまな特徴エンジニアリング シナリオをより適切にカバーできるように、各クラスターの重心付近のさまざまなシナリオからクエリを選択するようにしてください。最後に、交通、ヘルスケア、エネルギー、販売、金融取引など、さまざまなシナリオに適した 6 つのクエリ テンプレートが 118 の機能クエリから選択されました。これら 6 つのクエリ テンプレートは、最終的に FEBench のコア データ セットとクエリを構成し、リアルタイム特徴計算プラットフォームのパフォーマンス テストに使用されます。

書き直す必要がある内容は次のとおりです: ベンチマーク評価 (OpenMLDB および Flink)

この研究では、研究者らは FEBench を使用して、Flink と OpenMLDB という 2 つの典型的な産業システムをテストしました。 Flink は一般的なバッチおよびストリーム処理の一貫したコンピューティング プラットフォームであるのに対し、OpenMLDB は専用のリアルタイム機能コンピューティング プラットフォームです。研究者たちは、テストと分析を通じて、各システムの長所と短所、およびその背後にある理由を発見しました。実験結果は、アーキテクチャ設計の違いにより、Flink と OpenMLDB の間にパフォーマンスの違いがあることを示しています。同時に、これはターゲット システムの機能を分析する際の FEBench の重要性も示しています。要約すると、研究の主な結論は次のとおりです。

  • Flink は、待ち時間が OpenMLDB より 2 桁遅いです (図 6)。研究者らは、このギャップの主な理由は、2 つのシステム アーキテクチャの実装方法の違いにあると分析しており、OpenMLDB は、リアルタイム特徴計算専用システムとして、メモリベースの 2 層ジャンプ テーブルや時間的に最適化されたその他のデータ構造を備えています。最終的に、Flink と比較すると、特徴量計算シナリオにおいて明らかにパフォーマンス上の利点があります。もちろん、汎用システムである Flink は、OpenMLDB よりも適用可能なシナリオの範囲が広いです。

VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

#図 6. OpenMLDB と Flink 間の TP-50 レイテンシーの比較

  • #OpenMLDB には明らかなロングテール レイテンシの問題が見られますが、Flink のテール レイテンシはより安定しています (図 7)。次の数値は、OpenMLDB および Flink のそれぞれの TP-50 に対して正規化されたレイテンシー パフォーマンスを示しており、絶対的なパフォーマンスの比較を表すものではないことに注意してください。 次のように書き直されました: OpenMLDB にはテール レイテンシーに関する明らかな問題がありますが、Flink のテール レイテンシーはより安定しています (図 7 を参照)。次の数値は、絶対的なパフォーマンスの比較ではなく、レイテンシ パフォーマンスを TP-50 での OpenMLDB と Flink のパフォーマンスにそれぞれ正規化したものであることに注意してください。

    #図 7. OpenMLDB と Flink のテール レイテンシの比較 (それぞれの TP-50 レイテンシに正規化)

研究者らは、上記のパフォーマンス結果をさらに詳しく調べました。 VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

実行時間に基づいて逆アセンブルおよび分析します。マイクロアーキテクチャの指標には、命令の完了、誤った分岐の予測、バックエンドの依存関係、フロントエンドの依存関係などが含まれます。クエリ テンプレートが異なれば、微細構造レベルでパフォーマンスのボトルネックも異なります。図 8 に示すように、Q0 ~ Q2 のパフォーマンスのボトルネックは主にフロントエンドに依存しており、全体の実行時間の 45% 以上を占めています。この場合、実行される操作は比較的単純で、ほとんどの時間はユーザー要求の処理と特徴抽出命令の切り替えに費やされます。第 3 四半期から第 5 四半期にかけて、バックエンドの依存関係 (キャッシュの無効化など) と命令の実行 (より複雑な命令を含む) がより重要な要素になります。 OpenMLDB は、ターゲットを絞った最適化によってパフォーマンスをさらに向上させます

  • 図 8 は、OpenMLDB と Flink のマイクロアーキテクチャ インジケーター分析を示しています

VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

実行プランの分析: Q0 を例として、以下の図 9 は Flink と OpenMLDB の実行プランの違いを比較しています。 Flink の計算演算子は最も時間がかかりますが、OpenMLDB はウィンドウ処理を最適化し、カスタム集計関数などの最適化手法を使用することで実行レイテンシを短縮します。

  • 9 番目の図は、実行計画に関する OpenMLDB と Flink の比較を示しています (Q0)

  • #ユーザーが上記の実験結果を再現したい場合、またはローカル システムでベンチマーク テストを実施したい場合 (論文の著者はコミュニティでテスト結果を提出して共有することも推奨しています)、詳細については FEBench プロジェクトのホームページにアクセスしてください。

VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

FEBench プロジェクト: https://github.com/decis-bench/febench

Flink プロジェクト: https://github.com /apache/flink

  • OpenMLDB プロジェクト: https://github.com/4paradigm/OpenMLDB

以上がVLDB 2023 賞が発表、清華大学、4Paradigm、NUS の共同論文が最優秀産業論文賞を受賞の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
踊りましょう:私たちの人間のニューラルネットを微調整するための構造化された動き踊りましょう:私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク(C. elegansのものと同様)を広く研究してきました。 ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにします新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced:Horizo​​nの新しいサブスクリプションティア 現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。 ただし、Android Authorityのレポートは、今後の変更を示唆しています。 最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかデータ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます:データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます!MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます!Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は? - 分析Vidhya建物のエージェントにGoogle ADKを使用する方法は? - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット(ADK)のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析Vidhya効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ: Small Language Model(SLM)は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル(LLM)よりも優れています。 特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。 テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能(AI)および最近では生成AIも例外ではありません

コンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は? - 分析VidhyaコンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は? - 分析VidhyaApr 27, 2025 am 09:26 AM

コンピュータービジョンのためのGoogleGeminiの力を活用:包括的なガイド 大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。 このガイドの利用方法については、

Gemini 2.0 Flash vs O4-Mini:GoogleはOpenaiよりもうまくやることができますか?Gemini 2.0 Flash vs O4-Mini:GoogleはOpenaiよりもうまくやることができますか?Apr 27, 2025 am 09:20 AM

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。 数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール