VLDB 2023国际会议已经在加拿大温哥华成功举办。VLDB会议是数据库领域历史悠久的三大顶级会议之一,其全称为国际大型数据库会议。每届会议都集中展示了当前数据库研究的前沿方向、工业界的最新技术以及各国的研发水平,吸引了全球顶级研究机构的投稿
该会议对系统创新性、完整性、实验设计等方面都有极高的要求。VLDB 的论文接受率总体较低,约为18%,只有贡献很大的论文才有可能被录用。今年的竞争更加激烈。根据官方数据显示,今年 VLDB 共有9篇论文获得了最佳论文奖项,其中包括斯坦福大学、卡内基梅隆大学、微软研究院、VMware 研究院、Meta 等全球知名高校、研究机构和科技巨头的身影
其中由第四范式、清华大学以及新加坡国立大学联合完成的 "FEBench: A Benchmark for Real-Time Relational Data Feature Extraction" 论文,获得了最佳工业界论文 Runner Up 奖项。
这篇论文是由第四范式、清华大学和新加坡国立大学合作完成的。论文提出了一个基于工业界真实场景积累的实时特征计算测试基准,用于评估基于机器学习的实时决策系统
请点击以下链接查看论文:https://github.com/decis-bench/febench/blob/main/report/febench.pdf
项目地址:https://github.com/decis-bench/febench 需要进行重写的内容是:项目地址为https://github.com/decis-bench/febench
项目背景
基于人工智能的决策系统在许多行业场景中得到广泛应用。其中,许多场景涉及基于实时数据的计算,例如金融行业的反欺诈和零售行业的实时线上推荐。机器学习驱动的实时决策系统通常包括两个主要计算环节:特征和模型。由于业务逻辑的多样性以及线上低延迟和高并发的需求,特征计算往往成为整个决策系统的瓶颈。因此,需要进行大量的工程实践来构建一个可用、稳定和高效的实时特征计算平台。下图1展示了一个常见的反欺诈应用的实时特征计算场景。通过基于原始的刷卡流水记录表格进行特征计算,生成新的特征(例如最近10秒内的最大/最小/平均刷卡金额等特征),然后将其输入到下游模型进行实时推理
重写后的内容:图 1. 实时特征计算在反欺诈应用中的应用
一般而言,实时特征计算平台需要满足以下两个基本要求:
线上线下一致性:由于机器学习应用一般会分为线上和线上两个流程,即基于历史数据的训练和基于实时数据的推理。因此确保线上线下的特征计算逻辑一致性,对于保证线上线下最终业务效果一致至关重要。
线上服务的高效性:线上服务针对实时数据和计算,满足低延迟、高并发、高可用等需求。
图 2. 实时特征计算平台架构及工作流程
如上图 2 列举了一个常见的实时特征计算平台的架构。简单来说主要包含了离线计算引擎和在线计算引擎,其中的关键点是保证离线和在线计算引擎的计算逻辑一致性。目前市面上有许多特征平台可以满足上述要求,构成一个完整的实时特征计算平台,包括通用系统如 Flink,或者专用系统如 OpenMLDB、Tecton、Feast 等。但是,目前工业界缺少一个面向实时特征的专用基准来对这类系统的性能进行严谨科学的评估。针对该需求,本篇论文作者构建了 FEBench,一个实时特征计算基准测试,用于评估特征计算平台的性能,分析系统的整体延迟、长尾延迟和并发性能等。
技术原理
FEBench 的基准构建主要包括三个方面的工作:数据集收集、查询生成的内容需要进行改写和重写内容时,需要选择适当的模板
数据集搜集
研究团队总共收集了 118 个可以用于实时特征计算场景的数据集,这些数据集来自 Kaggle,Tianchi,UCI ML,KiltHub 等公开数据网站以及第四范式内部可公开数据,覆盖了工业界的典型使用场景,如金融、零售、医疗、制造、交通等行业场景。研究小组进一步按照表格数量及数据集大小将收集到的数据集进行了归类,如下图 3 所示。
重写内容:FEBench中数据集的表格数量和数据集大小的图表如下:
查询生成的内容需要进行改写
由于数据集数量较大,为每一个数据集人工生成特征抽取的计算逻辑工作量十分巨大,因此研究人员利用了如 AutoCross(参考论文:AutoCross: Automatic Feature Crossing for Tabular Data in Real-World Applications) 等自动机器学习技术,来为收集到的数据集自动化生成查询。FEBench 的特征选择和查询生成的内容需要进行改写过程包括以下四个步骤(如下图 4 所示):
通过识别数据集中的主表(存储流式数据)和辅助表(例如静态 / 可追加 / 快照表),进行初始化。随后,分析主表和辅助表中具有相似名称或键关系的列,并枚举列之间的一对一 / 一对多关系,这些关系对应不同的特征操作模式。
将列关系映射到特征操作符。
在提取所有候选特征后,利用 Beam 搜索算法迭代生成有效的特征集。
选择的特征被转换为语义上等效的 SQL 查询。
图 4. FEBench 中查询的生成流程
重写内容时,需要选择适当的模板
在生成每个数据集的查询后,研究人员进一步使用聚类算法来选择代表性的查询作为查询模板,以减少对相似任务的重复测试。针对收集到的118个数据集和特征查询,使用DBSCAN算法对这些查询进行聚类,具体步骤如下:
将每个查询的特征划分为五个部分:输出列数、查询操作符总数、复杂运算符的出现频率、嵌套子查询层数以及时间窗口中最大元组的数量。由于特征工程查询通常涉及时间窗口,查询复杂性不受批处理数据规模的影响,因此数据集大小没有作为聚类特征之一。
使用逻辑回归模型来评估查询特征与查询执行特性之间的关系,将特征作为模型的输入,将特征查询的执行时间作为模型的输出。通过使用每个特征的回归权重作为其聚类权重,来考虑不同特征对聚类结果的重要性
基于加权查询特征,使用 DBSCAN 算法将特征查询划分为多个聚类。
以下图表展示了118个数据集在各个考量指标下的分布情况。图(a)显示了统计性质的指标,包括输出列数、查询操作符总数和嵌套子查询层数;图(b)显示了与查询执行时间相关性最高的指标,包括聚合操作个数、嵌套子查询层数和时间窗口个数
图 5. 118 个特征查询通过聚类分析得到 6 个集群,生成查询模板(Q0-5)
最终,根据聚类结果,将 118 个特征查询分为 6 个集群。对于每个集群,选择质心附近的查询作为候选模板。此外,考虑到不同应用场景下的人工智能应用可能有不同的特征工程需求,围绕每个集群的质心,尝试选择来自不同场景的查询,以更好地覆盖不同的特征工程场景。最终,从 118 个特征查询中选择了 6 个查询模板,适用于不同场景,包括交通、医疗保健、能源、销售,以及金融交易。这 6 个查询模板最终构成了 FEBench 最为核心的数据集和查询,用于进行实时特征计算平台的性能测试。
需要重写的内容是:基准评测(OpenMLDB与Flink)
在研究中,研究人员使用了FEBench来测试两个典型的工业界系统,分别是Flink和OpenMLDB。Flink是一个通用的批处理和流处理一致性计算平台,而OpenMLDB则是一个专用的实时特征计算平台。通过测试和分析,研究人员发现了这两个系统各自的优缺点以及背后的原因。实验结果显示,由于架构设计的不同,Flink和OpenMLDB在性能上存在差异。同时,这也说明了FEBench在分析目标系统能力方面的重要性。总结来说,研究的主要结论如下
Flink 比 OpenMLDB 在延迟上慢两个数量级(图 6)。研究人员分析,其造成差距的主要原因在于两者系统架构的不同实现方式,其中 OpenMLDB 作为实时特征计算的专用系统,包含了基于内存的双层跳表等专门针对时序数据优化的数据结构,最终相比较于 Flink,在特征计算场景上有明显的性能优势。当然 Flink 作为通用系统,在可适用场景上比 OpenMLDB 更为广泛。
图 6. OpenMLDB 与 Flink 的 TP-50 延迟对比
OpenMLDB 表现出明显的长尾延迟问题,而 Flink 的尾延迟更稳定(图 7)。注意,以下数字显示均为归一化到 OpenMLDB 和 Flink 各自的 TP-50 下的延迟性能,并不代表绝对性能的比较。 重新写为:OpenMLDB 在尾延迟方面存在明显的问题,而 Flink 的尾延迟更加稳定(见图7)。需要注意的是,下面的数字是将延迟性能归一化到 OpenMLDB 和 Flink 分别在 TP-50 下的性能,而不是绝对性能的比较
图 7. OpenMLDB 与 Flink 的尾延迟对比(归一化到各自的 TP-50 延迟)
研究人员对上述性能结果进行了更深入的分析:
根据执行时间进行拆解分析,微架构指标包括指令完成、错误分支预测、后端依赖和前端依赖等。不同查询模板在微观结构层面上的性能瓶颈有所不同。如图8所示,Q0-Q2的性能瓶颈主要在前端依赖,占整个运行时间的45%以上。在这种情况下,执行的操作相对简单,大部分时间花在处理用户请求和特征提取指令的切换上。而对于Q3-Q5,后端依赖(如缓存失效)和指令运行(包含更多复杂指令)成为更主要的因素。OpenMLDB通过针对性优化使其在性能上更加出色
图8展示了OpenMLDB与Flink的微架构指标分析
执行计划分析:以 Q0 为例,下图 9 比较了 Flink 和 OpenMLDB 的执行计划差异。Flink 中的计算运算符花费最多的时间,而 OpenMLDB 通过优化窗口处理和使用自定义聚合函数等优化技术减少了执行延迟。
第九张图展示了OpenMLDB和Flink在执行计划(Q0)方面的对比
如果用户期望复现以上实验结果,或者在本地系统上进行基准测试(论文作者也鼓励将测试结果在社区提交共享),可以访问 FEBench 的项目主页,获得更多信息。
FEBench 项目:https://github.com/decis-bench/febench
Flink 项目:https://github.com/apache/flink
OpenMLDB 项目:https://github.com/4paradigm/OpenMLDB
以上是VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖的详细内容。更多信息请关注PHP中文网其他相关文章!

PowerInfer提高了在消费级硬件上运行AI的效率上海交大团队最新推出了超强CPU/GPULLM高速推理引擎PowerInfer。PowerInfer和llama.cpp都在相同的硬件上运行,并充分利用了RTX4090上的VRAM。这个推理引擎速度有多快?在单个NVIDIARTX4090GPU上运行LLM,PowerInfer的平均token生成速率为13.20tokens/s,峰值为29.08tokens/s,仅比顶级服务器A100GPU低18%,可适用于各种LLM。PowerInfer与

要让大型语言模型(LLM)充分发挥其能力,有效的prompt设计方案是必不可少的,为此甚至出现了promptengineering(提示工程)这一新兴领域。在各种prompt设计方案中,思维链(CoT)凭借其强大的推理能力吸引了许多研究者和用户的眼球,基于其改进的CoT-SC以及更进一步的思维树(ToT)也收获了大量关注。近日,苏黎世联邦理工学院、Cledar和华沙理工大学的一个研究团队提出了更进一步的想法:思维图(GoT)。让思维从链到树到图,为LLM构建推理过程的能力不断得到提升,研究者也通

近期,复旦大学自然语言处理团队(FudanNLP)推出LLM-basedAgents综述论文,全文长达86页,共有600余篇参考文献!作者们从AIAgent的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-basedAgent的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了Agent相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。论文链接:https://arxiv.org/pdf/2309.07864.pdfLLM-basedAgent论文列表:

大型语言模型(LLM)被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此,目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。研究人员最近提出了一种新的结构化生成语言(StructuredGenerationLanguage),称为SGLang,旨在改进与LLM的交互性。通过整合后端运行时系统和前端语言的设计,SGLang使得LLM的性能更高、更易控制。这项研究也获得了机器学习领域的知名学者、CMU助理教授陈天奇的转发。总的来说,SGLang的

FATE2.0全面升级,推动隐私计算联邦学习规模化应用FATE开源平台宣布发布FATE2.0版本,作为全球领先的联邦学习工业级开源框架。此次更新实现了联邦异构系统之间的互联互通,持续增强了隐私计算平台的互联互通能力。这一进展进一步推动了联邦学习与隐私计算规模化应用的发展。FATE2.0以全面互通为设计理念,采用开源方式对应用层、调度、通信、异构计算(算法)四个层面进行改造,实现了系统与系统、系统与算法、算法与算法之间异构互通的能力。FATE2.0的设计兼容了北京金融科技产业联盟的《金融业隐私计算

将不同的基模型象征为不同品种的狗,其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费大量的计算资源和数据,因此预训练模型的参数成为各大机构重点保护的核心竞争力和资产。然而,与传统软件知识产权保护不同,对预训练模型参数盗用的判断存在以下两个新问题:1)预训练模型的参数,尤其是千亿级别模型的参数,通常不会开源。预训练模型的输出和参数会受到后续处理步骤(如SFT、RLHF、continuepretraining等)的影响,这使得判断一个模型是否基于另一个现有模型微调得来变得困难。无

IBM再度发力。随着AI系统的飞速发展,其能源需求也在不断增加。训练新系统需要大量的数据集和处理器时间,因此能耗极高。在某些情况下,执行一些训练好的系统,智能手机就能轻松胜任。但是,执行的次数太多,能耗也会增加。幸运的是,有很多方法可以降低后者的能耗。IBM和英特尔已经试验过模仿实际神经元行为设计的处理器。IBM还测试了在相变存储器中执行神经网络计算,以避免重复访问RAM。现在,IBM又推出了另一种方法。该公司的新型NorthPole处理器综合了上述方法的一些理念,并将其与一种非常精简的计算运行

去噪扩散模型(DDM)是目前广泛应用于图像生成的一种方法。最近,XinleiChen、ZhuangLiu、谢赛宁和何恺明四人团队对DDM进行了解构研究。通过逐步剥离其组件,他们发现DDM的生成能力逐渐下降,但表征学习能力仍然保持一定水平。这说明DDM中的某些组件对于表征学习的作用可能并不重要。针对当前计算机视觉等领域的生成模型,去噪被认为是一种核心方法。这类方法通常被称为去噪扩散模型(DDM),通过学习一个去噪自动编码器(DAE),能够通过扩散过程有效地消除多个层级的噪声。这些方法实现了出色的图


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

SublimeText3 Linux新版
SublimeText3 Linux最新版

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

WebStorm Mac版
好用的JavaScript开发工具

SublimeText3 英文版
推荐:为Win版本,支持代码提示!