搜索
首页Javajava教程IntaLink:区别于大型模型的新型 NLL 技术

IntaLink: A New NLL Technology Distinct from Large Models

IntaLink:区别于大型模型的全新 NL2SQL 技术

隐藏的宝石


IntaLink广泛的应用场景

背景回顾:在之前的文章中,提到过“IntaLink的目标是在数据集成领域实现自动化的数据链接”。从讨论中可以看出,IntaLink 解决的是“关系数据和多个表”的自动链接问题。

现在我们来讨论一下这个问题是否有广泛的应用场景,还是只是一个没有实际需求的伪命题。


01 关系数据仍然是最重要的数据资产之一

虽然大型模型、大数据平台和其他技术可以利用各种类型的信息,包括文档、图像、音频和视频,例如能够生成视频和促进语音交互的多模态生成人工智能,但结果往往是开放的-结束和主观,偶尔会导致“幻觉”。因此,虽然使用它们作为参考或帮助是可以接受的,但在某些严格的工作环境中,我们不能依赖这些信息或大型模型来完成任务。在银行、金融、交通、贸易、会计、生产、能源等领域,核心业务数据必须使用结构化关系数据进行管理。

02 数据构建不可避免且分布式

  • (1)关系数据库的设计范式要求数据合理划分,避免大量冗余。如果构建阶段产生的数据包含大量冗余,不仅数据采集工作量重复,而且数据一致性也难以保证。从另一个角度来看,如果所有相关数据都存储在一张表中,但数据项来自不同的业务来源,数据收集者和生成时间各不相同,那么维护这样的数据记录就变得不可能。因此,数据构建本质上会基于面向对象和业务活动来组织数据,从而导致数据分布在不同的表中。

  • (2) 数据必须来自多个系统。信息化建设不是一蹴而就的,必然存在一系列的发展过程。即使在同一系统内,实施时间表也可能存在差异。而且,不同的应用场景需要不同的技术选择;比如业务数据、实时数据、日志信息都可以通过各种技术来实现,使得数据本质上是多源的。

03 整合是释放数据价值的最有效手段

应用需要整合数据。数据集成应用的需求有多种可能性。例如,整合生产数据和计划数据可以评估计划完成情况;整合生产数据和销售数据可以识别产品积压或订单交付的履行情况;将生产数据与财务数据相结合可以评估生产成本和盈利能力。因此,数据集成是最大化数据价值、赋能业务流程的最有效途径。

综上所述,关系数据的集成应用将在很长一段时间内仍然是最重要的数据应用场景之一。只要这个场景存在,IntaLink就会有广泛的适应性。


IntaLink 与大模型数据集成方法的比较

T2SQL(文本转SQL)NL2SQL(自然语言转SQL)通过文本或自然语言输入自动生成所需的数据查询。 T2SQL和NL2SQL本质上描述了同一个概念:利用人工智能技术将语义理解转化为数据操作方法,这是相同的想法,但术语不同。这是数据应用的一个研究方向。近年来,随着大模型技术的出现,这一领域取得了长足的进步。我研究了阿里巴巴和腾讯的技术报告,并尝试了DB-GPT等开源项目。这些技术在很大程度上相似,至少在底层技术逻辑上是相似的,而 IntaLink 的方法则完全不同。

我们先抛开底层的技术逻辑,根据实现方式进行对比分析:

1、利用大模型技术进行数据自动查询需要数据训练

假设我们有一组名为 T1、T2、...、Tn 的表,每个表包含多个标记为 C1、C2、...、Cn 的数据项,每个表的项数不同。考虑表 T1 的模拟数据集,如下所示:

C1 C2 C3 C4 C5 C6
Orange 5 3 3 2 1

仅从这些内容中,我们无法得出任何有用的信息。我们不清楚上述数据的含义。让我们模拟一下数据的两种含义:

Fruit Type Warehouse No. Shelf No. Stock Shelf Life Warehouse Manager ID
Orange 5 3 3 2 1
Hotel Name Warehouse Hotness Ranking Star Rating Years in Business Remaining Rooms Discount Available
Orange 5 3 3 2 1

我们不会详细讨论这些数据集的有效性或此类表的存在性。然而,很明显,如果不理解表格和数据项的含义,则数据无法应用。人们无法将数据应用需求与数据本身联系起来,更不用说讨论更复杂的数据操作。


用一个测试NL2SQL的数据集,来说明一下大模型技术在该领域的应用模式。

Spider数据集是多库、多表、单轮查询的T2S数据集,被公认为最具挑战性的大规模跨域评估排行榜。它由耶鲁大学于 2018 年提出,并由 11 名耶鲁大学学生注释。该数据集包含一万一百八十一个自然语言问题和五千六百九十三条SQL语句,覆盖138个不同领域的200多个数据库。七千个问题用于培训,一千三十四个问题用于开发,两千一百四十七个问题用于测试。换句话说,通过提供问题及其相应的答案 (SQL),大型模型可以学习如何利用数据。为了简单起见,我们可以将逻辑压缩如下:

  • 问题1:红色唇膏有多少库存?
  • 答案 1:从仓库中选择数量,其中 good_name='lipstick' 且 color='red'

使用这样的数据集训练模型后,我们可以提出以下测试问题:

  • 测试问题:蓝色口红有多少库存?
  • 输出答案:从仓库中选择数量,其中 good_name='lipstick' 且 color='blue'

从中我们可以看出,NL2SQL 强调基于语义和上下文理解,依赖于经过训练的数据集来导出可能的 SQL 查询。


IntaLink的数据整合方法

IntaLink的数据集成不需要用户提供任何训练数据。数据之间的关系是通过表间关系分析模型生成的。这种关系的生成不需要理解表和数据项的实际意义,而是通过一组分析数据特征值的方法来推导表之间的关联。下面我们用两个示例表来说明表间关系的建立。

Tab_1

Name Student_ID CLASS Age Sex
Zhang San 2021_0001 2021_01 19 Male
Li Si 2021_0002 2021_01 18 Female
Wang Wu 2021_0003 2021_01 19 Male

Tab_2

Student_ID Course Grade Rank
2021_0001 Math 135 18
2021_0001 Chinese 110 23
2021_0002 Math 120 25
2021_0002 Chinese 125 10

在Tab_1中,Student_ID与Tab_2中的Student_ID匹配,具有相同的特征值。因此,要链接这两个表,条件 Tab_1.Student_ID = Tab_2.Student_ID 成立。表间链接的分析需要考虑许多因素。在IntaLink中,我们复制数据特征值内存数据库作为分析工具,利用一套优化的分析方法来产生表间关系分析结果。由于涉及内容比较复杂,这里不再赘述。单独的文章会讨论实现逻辑。


IntaLink 和大模型技术在实现 NL2SQL 方面的差异

  • 1) 大模型无需准备训练题集;相反,关系是通过数据分析得出的。因此,IntaLink可以应用于广泛的数据。可整合的数据越多,其优势就越大。
  • 2) 专注于数据集成,特别是集成过程中关系条件的生成,而不关注数据的使用方法。注意:数据集成涉及建立多个表之间的关系,而数据的使用方法可以多种多样,例如求和、计数、平均、最小值和最大值等。NL2SQL根据语义选择合适的数据操作方法,例如SUM、COUNT、AVG、最小值、最大值等
  • 3)准确率高:排除数据质量问题,IntaLink生成的关系条件理论上可以达到百分百的准确率。

IntaLink 和大型模型技术的潜在组合

大模型技术在语义理解和生成内容方面表现出色,而IntaLink在数据关联分析方面具有优势,前期工作量较低,准确率较高。理想情况下,可以集成大型模型技术来了解用户输入要求,将该信息转换为必要的数据表和项目,然后 IntaLink 将为数据集生成这些数据表和项目,然后大型模型生成所需的结果(例如报告、图表、等)用于用户演示。


加入 IntaLink 社区!

我们希望您能成为 IntaLink 旅程的一部分!与我们联系并为我们的项目做出贡献:

? GitHub 存储库:IntaLink

?加入我们的 Discord 社区

成为开源革命的一部分,帮助我们塑造智能数据集成的未来!

以上是IntaLink:区别于大型模型的新型 NLL 技术的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
2025年的前4个JavaScript框架:React,Angular,Vue,Svelte2025年的前4个JavaScript框架:React,Angular,Vue,SvelteMar 07, 2025 pm 06:09 PM

本文分析了2025年的前四个JavaScript框架(React,Angular,Vue,Susve),比较了它们的性能,可伸缩性和未来前景。 尽管由于强大的社区和生态系统,所有这些都保持占主导地位,但它们的相对人口

如何使用咖啡因或Guava Cache等库在Java应用程序中实现多层缓存?如何使用咖啡因或Guava Cache等库在Java应用程序中实现多层缓存?Mar 17, 2025 pm 05:44 PM

本文讨论了使用咖啡因和Guava缓存在Java中实施多层缓存以提高应用程序性能。它涵盖设置,集成和绩效优势,以及配置和驱逐政策管理最佳PRA

Java的类负载机制如何起作用,包括不同的类载荷及其委托模型?Java的类负载机制如何起作用,包括不同的类载荷及其委托模型?Mar 17, 2025 pm 05:35 PM

Java的类上载涉及使用带有引导,扩展程序和应用程序类负载器的分层系统加载,链接和初始化类。父代授权模型确保首先加载核心类别,从而影响自定义类LOA

Node.js 20:关键性能提升和新功能Node.js 20:关键性能提升和新功能Mar 07, 2025 pm 06:12 PM

Node.js 20通过V8发动机改进可显着提高性能,特别是更快的垃圾收集和I/O。 新功能包括更好的WebSembly支持和精制的调试工具,提高开发人员的生产率和应用速度。

Spring Boot Snakeyaml 2.0 CVE-2022-1471问题已修复Spring Boot Snakeyaml 2.0 CVE-2022-1471问题已修复Mar 07, 2025 pm 05:52 PM

本文介绍了SnakeyAml中的CVE-2022-1471漏洞,这是一个允许远程代码执行的关键缺陷。 它详细介绍了如何升级春季启动应用程序到Snakeyaml 1.33或更高版本的降低风险,强调了依赖性更新

冰山:数据湖桌的未来冰山:数据湖桌的未来Mar 07, 2025 pm 06:31 PM

冰山是用于大型分析数据集的开放式桌子格式,可提高数据湖的性能和可伸缩性。 它通过内部元数据管理解决了镶木quet/orc的局限

如何在Java中实施功能编程技术?如何在Java中实施功能编程技术?Mar 11, 2025 pm 05:51 PM

本文使用lambda表达式,流API,方法参考和可选探索将功能编程集成到Java中。 它突出显示了通过简洁性和不变性改善代码可读性和可维护性等好处

如何将Maven或Gradle用于高级Java项目管理,构建自动化和依赖性解决方案?如何将Maven或Gradle用于高级Java项目管理,构建自动化和依赖性解决方案?Mar 17, 2025 pm 05:46 PM

本文讨论了使用Maven和Gradle进行Java项目管理,构建自动化和依赖性解决方案,以比较其方法和优化策略。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前By尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
4 周前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!