搜尋
首頁Javajava教程IntaLink:區別於大型模型的新型 NLL 技術

IntaLink: A New NLL Technology Distinct from Large Models

IntaLink:有別於大型模式的全新 NL2SQL 技術

隱藏的寶石


IntaLink廣泛的應用場景

背景回顧:在先前的文章中,提到「IntaLink的目標是在資料整合領域實現自動化的資料連結」。從討論中可以看出,IntaLink 解決的是「關聯式資料和多個表」的自動連結問題。

現在我們來討論這個問題是否有廣泛的應用場景,還是只是一個沒有實際需求的偽命題。


01 關係數據仍然是最重要的數據資產之一

雖然大型模型、大數據平台和其他技術可以利用各種類型的信息,包括文件、圖像、音頻和視頻,例如能夠生成視頻和促進語音交互的多模態生成人工智能,但結果往往是開放的-結束和主觀,偶爾會導致“幻覺”。因此,雖然使用它們作為參考或幫助是可以接受的,但在某些嚴格的工作環境中,我們不能依賴這些資訊或大型模型來完成任務。在銀行、金融、交通、貿易、會計、生產、能源等領域,核心業務資料必須使用結構化關係資料進行管理。

02 資料建置不可避免且分散式

  • (1)關係資料庫的設計範式要求資料合理劃分,避免大量冗餘。如果建置階段產生的資料包含大量冗餘,不僅資料擷取工作量重複,資料一致性也難以保證。從另一個角度來看,如果所有相關資料都儲存在一張表中,但資料項目來自不同的業務來源,資料收集者和產生時間各不相同,那麼維護這樣的資料記錄就變得不可能。因此,數據建構本質上會基於物件導向和業務活動來組織數據,從而導致數據分佈在不同的表中。

  • (2) 資料必須來自多個系統。資訊化建設不是一蹴可幾的,必然存在一系列的發展過程。即使在同一系統內,實施時間表也可能存在差異。而且,不同的應用場景需要不同的技術選擇;例如業務資料、即時資料、日誌資訊都可以透過各種技術來實現,使得資料本質上是多來源的。

03 整合是釋放資料價值最有效的手段

應用需要整合資料。數據整合應用的需求有多種可能性。例如,整合生產數據和計劃數據可以評估計劃完成情況;整合生產數據和銷售數據可以識別產品積壓或訂單交付的履行;將生產數據與財務數據相結合可以評估生產成本和盈利能力。因此,資料整合是最大化資料價值、賦能業務流程的最有效途徑。

綜上所述,關係資料的整合應用將在很長一段時間內仍然是最重要的資料應用場景之一。只要這個場景存在,IntaLink就會有廣泛的適應性。


IntaLink 與大模型資料整合方法的比較

T2SQL(文字轉SQL)NL2SQL(自然語言轉SQL)透過文字或自然語言輸入自動產生所需的資料查詢。 T2SQL和NL2SQL本質上描述了同一個概念:利用人工智慧技術將語義理解轉化為資料操作方法,這是相同的想法,但術語不同。這是資料應用的一個研究方向。近年來,隨著大模型技術的出現,這一領域取得了長足的進步。我研究了阿里巴巴和騰訊的技術報告,並嘗試了DB-GPT等開源專案。這些技術在很大程度上相似,至少在底層技術邏輯上是相似的,而 IntaLink 的方法則完全不同。

我們先拋開底層的技術邏輯,依照實作方式進行比較分析:

1.利用大模型技術進行資料自動查詢需要資料訓練

假設我們有一組名為 T1、T2、...、Tn 的表,每個表包含多個標記為 C1、C2、...、Cn 的資料項,每個表的項數不同。考慮表 T1 的模擬資料集,如下所示:

C1 C2 C3 C4 C5 C6
Orange 5 3 3 2 1

僅從這些內容中,我們無法得出任何有用的信息。我們不清楚上述數據的含義。讓我們模擬一下數據的兩種意義:

Fruit Type Warehouse No. Shelf No. Stock Shelf Life Warehouse Manager ID
Orange 5 3 3 2 1
Hotel Name Warehouse Hotness Ranking Star Rating Years in Business Remaining Rooms Discount Available
Orange 5 3 3 2 1

我們不會詳細討論這些資料集的有效性或此類表的存在性。然而,很明顯,如果不理解表格和資料項目的含義,則資料無法應用。人們無法將資料應用需求與資料本身連結起來,更不用說討論更複雜的資料操作。


用一個測試NL2SQL的資料集,來說明一下大模型技術在該領域的應用模式。

Spider資料集是多庫、多表、單輪查詢的T2S資料集,被公認為最具挑戰性的大規模跨域評估排行榜。它由耶魯大學於 2018 年提出,並由 11 名耶魯大學學生註釋。此資料集包含一萬一百八十一個自然語言問題和五千六百九十三條SQL語句,涵蓋138個不同領域的200多個資料庫。七千個問題用於培訓,一千三十四個問題用於開發,兩千一百四十七個問題用於測試。換句話說,透過提供問題及其對應的答案 (SQL),大型模型可以學習如何利用資料。為了簡單起見,我們可以將邏輯壓縮如下:

  • 問題1:紅色唇膏有多少庫存?
  • 答案 1:從倉庫中選出數量,其中 good_name='lipstick' 且 color='red'

使用這樣的資料集訓練模型後,我們可以提出以下測試問題:

  • 測試問題:藍色口紅有多少庫存?
  • 輸出答案:從倉庫中選出數量,其中 good_name='lipstick' 且 color='blue'

從中我們可以看出,NL2SQL 強調基於語意和上下文理解,並依賴經過訓練的資料集來導出可能的 SQL 查詢。


IntaLink的資料整合方法

IntaLink的資料整合不需要使用者提供任何訓練資料。資料之間的關係是透過表間關係分析模型產生的。這種關係的產生不需要理解表和資料項的實際意義,而是透過一組分析資料特徵值的方法來推導表之間的關聯。下面我們用兩個範例表來說明表間關係的建立。

Tab_1

Name Student_ID CLASS Age Sex
Zhang San 2021_0001 2021_01 19 Male
Li Si 2021_0002 2021_01 18 Female
Wang Wu 2021_0003 2021_01 19 Male

Tab_2

Student_ID Course Grade Rank
2021_0001 Math 135 18
2021_0001 Chinese 110 23
2021_0002 Math 120 25
2021_0002 Chinese 125 10

在Tab_1中,Student_ID與Tab_2中的Student_ID匹配,具有相同的特徵值。因此,要連結這兩個表,條件 Tab_1.Student_ID = Tab_2.Student_ID 成立。表間連結的分析需要考慮許多因素。在IntaLink中,我們複製資料特徵值記憶體資料庫作為分析工具,並利用一套最佳化的分析方法來產生表間關係分析結果。由於涉及內容比較複雜,這裡不再贅述。單獨的文章會討論實作邏輯。


IntaLink 和大模型技術在實現 NL2SQL 的差異

  • 1) 大模型無需準備訓練題集;相反,關係是透過資料分析得出的。因此,IntaLink可以應用於廣泛的數據。可整合的數據越多,其優勢就越大。
  • 2) 專注於資料集成,特別是集成過程中關係條件的生成,而不關注資料的使用方法。注意:資料整合涉及建立多個表之間的關係,而資料的使用方法可以多種多樣,例如求和、計數、平均值、最小值和最大值等。 NL2SQL根據語意選擇適當的資料操作方法,例如SUM、COUNT、AVG、最小值、最大值等
  • 3)準確率高:排除資料品質問題,IntaLink產生的關係條件理論上可以達到百分之百的準確率。

IntaLink 和大型模型技術的潛在組合

大模型技術在語意理解和產生內容方面表現出色,而IntaLink在資料關聯分析方面具有優勢,前期工作量較低,準確率較高。理想情況下,可以整合大型模型技術來了解使用者輸入要求,將這些資訊轉換為必要的資料表和項目,然後IntaLink 將為資料集產生這些資料表和項目,然後大型模型產生所需的結果(例如報告、圖表、等)用於使用者簡報。


加入 IntaLink 社群!

我們希望您能成為 IntaLink 旅程的一部分!與我們聯繫並為我們的專案做出貢獻:

? GitHub 儲存庫:IntaLink

?加入我們的 Discord 社群

成為開源革命的一部分,幫助我們塑造智慧數據整合的未來!

以上是IntaLink:區別於大型模型的新型 NLL 技術的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
2025年的前4個JavaScript框架:React,Angular,Vue,Svelte2025年的前4個JavaScript框架:React,Angular,Vue,SvelteMar 07, 2025 pm 06:09 PM

本文分析了2025年的前四個JavaScript框架(React,Angular,Vue,Susve),比較了它們的性能,可伸縮性和未來前景。 儘管由於強大的社區和生態系統,所有這些都保持占主導地位,但它們的相對人口

如何使用咖啡因或Guava Cache等庫在Java應用程序中實現多層緩存?如何使用咖啡因或Guava Cache等庫在Java應用程序中實現多層緩存?Mar 17, 2025 pm 05:44 PM

本文討論了使用咖啡因和Guava緩存在Java中實施多層緩存以提高應用程序性能。它涵蓋設置,集成和績效優勢,以及配置和驅逐政策管理最佳PRA

Node.js 20:關鍵性能提升和新功能Node.js 20:關鍵性能提升和新功能Mar 07, 2025 pm 06:12 PM

Node.js 20通過V8發動機改進可顯著提高性能,特別是更快的垃圾收集和I/O。 新功能包括更好的WebSembly支持和精製的調試工具,提高開發人員的生產率和應用速度。

Java的類負載機制如何起作用,包括不同的類載荷及其委託模型?Java的類負載機制如何起作用,包括不同的類載荷及其委託模型?Mar 17, 2025 pm 05:35 PM

Java的類上載涉及使用帶有引導,擴展程序和應用程序類負載器的分層系統加載,鏈接和初始化類。父代授權模型確保首先加載核心類別,從而影響自定義類LOA

冰山:數據湖桌的未來冰山:數據湖桌的未來Mar 07, 2025 pm 06:31 PM

冰山是用於大型分析數據集的開放式桌子格式,可提高數據湖的性能和可伸縮性。 它通過內部元數據管理解決了鑲木quet/orc的局限

Spring Boot Snakeyaml 2.0 CVE-2022-1471問題已修復Spring Boot Snakeyaml 2.0 CVE-2022-1471問題已修復Mar 07, 2025 pm 05:52 PM

本文介紹了SnakeyAml中的CVE-2022-1471漏洞,這是一個允許遠程代碼執行的關鍵缺陷。 它詳細介紹瞭如何升級春季啟動應用程序到Snakeyaml 1.33或更高版本的降低風險,強調了依賴性更新

如何在Java中實施功能編程技術?如何在Java中實施功能編程技術?Mar 11, 2025 pm 05:51 PM

本文使用lambda表達式,流API,方法參考和可選探索將功能編程集成到Java中。 它突出顯示了通過簡潔性和不變性改善代碼可讀性和可維護性等好處

如何將Maven或Gradle用於高級Java項目管理,構建自動化和依賴性解決方案?如何將Maven或Gradle用於高級Java項目管理,構建自動化和依賴性解決方案?Mar 17, 2025 pm 05:46 PM

本文討論了使用Maven和Gradle進行Java項目管理,構建自動化和依賴性解決方案,以比較其方法和優化策略。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器