Heim  >  Artikel  >  Java  >  IntaLink: Eine neue NLL-Technologie, die sich von großen Modellen unterscheidet

IntaLink: Eine neue NLL-Technologie, die sich von großen Modellen unterscheidet

Susan Sarandon
Susan SarandonOriginal
2024-10-31 21:05:02563Durchsuche

IntaLink: A New NLL Technology Distinct from Large Models

IntaLink: Eine neue NL2SQL-Technologie, die sich von großen Modellen unterscheidet

Verstecktes Juwel


Breite Anwendungsszenarien von IntaLink

Hintergrundrückblick: In früheren Artikeln wurde erwähnt, dass „das Ziel von IntaLink darin besteht, eine automatisierte Datenverknüpfung im Bereich der Datenintegration zu erreichen.“ Aus der Diskussion geht klar hervor, dass IntaLink das Problem der automatischen Verknüpfung von „relationalen Daten und mehreren Tabellen“ anspricht.

Lassen Sie uns nun diskutieren, ob dieses Thema breite Anwendungsszenarien hat oder ob es sich lediglich um einen Pseudovorschlag ohne praktischen Bedarf handelt.


01 Relationale Daten bleiben eines der wichtigsten Datenbestände

Obwohl große Modelle, Big-Data-Plattformen und andere Technologien verschiedene Arten von Informationen nutzen können, darunter Dokumente, Bilder, Audio und Video, wie z. B. multimodale generative KI, die Videos produzieren und Sprachinteraktionen ermöglichen kann, sind die Ergebnisse oft offen -endet und subjektiv, was gelegentlich zu „Halluzinationen“ führt. Obwohl es akzeptabel ist, sie als Referenz oder Unterstützung zu verwenden, können wir uns in bestimmten anspruchsvollen Arbeitsumgebungen nicht auf diese Informationen oder große Modelle verlassen, um Aufgaben zu erledigen. In Sektoren wie Banken, Finanzen, Transport, Handel, Buchhaltung, Produktion und Energie müssen Kerngeschäftsdaten mithilfe strukturierter relationaler Daten verwaltet werden.

02 Die Datenkonstruktion ist unvermeidlich und verteilt

  • (1) Das Designparadigma relationaler Datenbanken erfordert eine sinnvolle Aufteilung der Daten, um erhebliche Redundanz zu vermeiden. Wenn die während der Konstruktionsphase generierten Daten viele Redundanzen enthalten, verdoppelt sich nicht nur der Datenerfassungsaufwand, sondern es ist auch schwierig, die Datenkonsistenz sicherzustellen. Aus einer anderen Perspektive: Wenn alle zugehörigen Daten in einer einzigen Tabelle gespeichert sind, die Datenelemente jedoch aus unterschiedlichen Geschäftsquellen mit unterschiedlichen Datensammlern und Generierungszeiten stammen, wird die Pflege solcher Datensätze unmöglich. Daher organisiert die Datenkonstruktion Daten von Natur aus basierend auf Objektorientierung und Geschäftsaktivitäten, was zu ihrer Verteilung auf verschiedene Tabellen führt.

  • (2) Daten müssen aus mehreren Systemen stammen. Da der Aufbau der Informationstechnologie nicht auf einmal abgeschlossen wird, wird es zwangsläufig zu einer Abfolge von Entwicklungen kommen. Selbst innerhalb desselben Systems kann es zu Abweichungen bei den Implementierungszeitplänen kommen. Darüber hinaus erfordern unterschiedliche Anwendungsszenarien unterschiedliche technologische Entscheidungen; Beispielsweise können Geschäftsdaten, Echtzeitdaten und Protokollinformationen durch verschiedene Technologien realisiert werden, wodurch Daten von Natur aus aus mehreren Quellen stammen.

03 Integration ist das effektivste Mittel zur Erschließung von Datenwerten

Daten müssen für die Anwendung integriert werden. Die Nachfrage nach Datenintegrationsanwendungen hat verschiedene Möglichkeiten. Durch die Integration von Produktionsdaten und Planungsdaten kann beispielsweise der Status der Planerfüllung beurteilt werden; Durch die Integration von Produktionsdaten und Verkaufsdaten können Produktrückstände oder die Erfüllung von Auftragslieferungen ermittelt werden. Durch die Integration von Produktionsdaten mit Finanzdaten können Produktionskosten und Rentabilität bewertet werden. Daher ist die Datenintegration der effektivste Weg, den Datenwert zu maximieren und Geschäftsprozesse zu stärken.

Zusammenfassend lässt sich sagen, dass die Integrationsanwendung relationaler Daten noch lange eines der wichtigsten Datenanwendungsszenarien bleiben wird. Solange dieses Szenario besteht, wird IntaLink eine breite Anpassungsfähigkeit haben.


Vergleich von IntaLink- und Large Model Data-Integrationsmethoden

T2SQL (Text to SQL) und NL2SQL (Natural Language to SQL) generieren automatisch die erforderlichen Datenabfragen durch Text- oder natürliche Spracheingabe. Die Begriffe T2SQL und NL2SQL beschreiben im Wesentlichen dasselbe Konzept: die Nutzung von KI-Technologie zur Umwandlung semantischen Verständnisses in Datenoperationsmethoden, was der gleichen Idee, aber mit unterschiedlichen Terminologien entspricht. Dies ist eine Forschungsrichtung in Datenanwendungen. In den letzten Jahren hat dieser Bereich mit dem Aufkommen großer Modelltechnologien erhebliche Fortschritte gemacht. Ich habe technische Berichte von Alibaba und Tencent recherchiert und Open-Source-Projekte wie DB-GPT ausprobiert. Diese Technologien sind zumindest in ihrer zugrunde liegenden technischen Logik weitgehend ähnlich, während der Ansatz von IntaLink völlig unterschiedlich ist.

Lassen Sie uns zunächst die zugrunde liegende technische Logik beiseite lassen und eine vergleichende Analyse basierend auf Implementierungsmethoden durchführen:

1. Die Nutzung großer Modelltechnologie für automatische Datenabfragen erfordert Datentraining

Angenommen, wir haben eine Reihe von Tabellen mit den Namen T1, T2, ..., Tn, die jeweils mehrere Datenelemente mit den Bezeichnungen C1, C2, ..., Cn enthalten, wobei die Anzahl der Elemente pro Tabelle unterschiedlich ist. Betrachten Sie einen simulierten Datensatz für Tabelle T1 wie folgt:

C1 C2 C3 C4 C5 C6
Orange 5 3 3 2 1

Aus diesem Inhalt allein können wir keine nützlichen Informationen ableiten. Wir sind uns über die Bedeutung der oben genannten Daten im Unklaren. Lassen Sie uns zwei Bedeutungen für die Daten simulieren:

Fruit Type Warehouse No. Shelf No. Stock Shelf Life Warehouse Manager ID
Orange 5 3 3 2 1
Hotel Name Warehouse Hotness Ranking Star Rating Years in Business Remaining Rooms Discount Available
Orange 5 3 3 2 1

Wir gehen nicht weiter auf die Gültigkeit dieser Datensätze oder die Existenz solcher Tabellen ein. Es ist jedoch offensichtlich, dass die Daten nicht angewendet werden können, ohne die Bedeutung der Tabellen und Datenelemente zu verstehen. Man kann die Anforderungen von Datenanwendungen nicht mit den Daten selbst verknüpfen, geschweige denn komplexere Datenoperationen diskutieren.


Anhand eines Datensatzes zum Testen von NL2SQL veranschaulichen wir das Anwendungsmuster der Großmodelltechnologie in diesem Bereich.

Der Spider-Datensatz ist ein T2S-Datensatz für Abfragen mit mehreren Datenbanken, mehreren Tabellen und einer Runde und gilt als die anspruchsvollste Bestenliste für die domänenübergreifende Bewertung in großem Maßstab. Es wurde 2018 von der Yale University vorgeschlagen und von elf Yale-Studenten kommentiert. Der Datensatz enthält zehntausendeinhunderteinundachtzig Fragen in natürlicher Sprache und fünftausendsechshundertdreiundneunzig SQL-Anweisungen und deckt über zweihundert Datenbanken in einhundertachtunddreißig verschiedenen Domänen ab. Siebentausend Fragen werden für das Training verwendet, eintausendvierunddreißig für die Entwicklung und zweitausendeinhundertsiebenundvierzig für Tests. Mit anderen Worten: Durch die Bereitstellung von Fragen zusammen mit den entsprechenden Antworten (SQL) lernt das große Modell, die Daten zu nutzen. Der Einfachheit halber können wir die Logik wie folgt zusammenfassen:

  • Frage 1: Wie viele rote Lippenstifte sind auf Lager?
  • Antwort 1: Menge aus Lager auswählen, wobei good_name='lipstick' und color='red'

Nachdem wir das Modell mit einem solchen Datensatz trainiert haben, können wir die folgende Testfrage stellen:

  • Testfrage: Wie viele blaue Lippenstifte sind auf Lager?
  • Ausgabeantwort: Wählen Sie die Menge aus dem Lager aus, wobei good_name='lipstick' und color='blue' sind.

Daraus sehen wir, dass NL2SQL den Schwerpunkt auf die Ableitung möglicher SQL-Abfragen legt, die auf semantischem und kontextuellem Verständnis basieren und sich auf einen trainierten Datensatz stützen.


Die Datenintegrationsmethode von IntaLink

Für die Datenintegration von IntaLink müssen Benutzer keine Trainingsdaten bereitstellen. Die Beziehungen zwischen Daten werden durch ein Modell zur Beziehungsanalyse zwischen Tabellen generiert. Diese Beziehungsgenerierung erfordert kein Verständnis der tatsächlichen Bedeutung der Tabellen und Datenelemente, sondern wird durch eine Reihe von Methoden abgeleitet, die die charakteristischen Werte der Daten analysieren, um Zusammenhänge zwischen Tabellen abzuleiten. Nachfolgend veranschaulichen wir die Einrichtung von Beziehungen zwischen Tabellen anhand von zwei Beispieltabellen.

Tab_1

Name Student_ID CLASS Age Sex
Zhang San 2021_0001 2021_01 19 Male
Li Si 2021_0002 2021_01 18 Female
Wang Wu 2021_0003 2021_01 19 Male

Tab_2

Student_ID Course Grade Rank
2021_0001 Math 135 18
2021_0001 Chinese 110 23
2021_0002 Math 120 25
2021_0002 Chinese 125 10

In Tab_1 stimmt die Student_ID mit der Student_ID in Tab_2 überein und weist dieselben Merkmalswerte auf. Um diese beiden Tabellen zu verknüpfen, gilt daher die Bedingung Tab_1.Student_ID = Tab_2.Student_ID. Diese Analyse der Verknüpfung zwischen Tabellen erfordert die Berücksichtigung zahlreicher Faktoren. In IntaLink replizieren wir die Speicherdatenbank für Datenmerkmalswerte als Analysetool und verwenden dabei eine Reihe optimierter Analysemethoden, um Ergebnisse der Beziehungsanalyse zwischen Tabellen zu erstellen. Aufgrund der Komplexität des Inhalts wird hier nicht näher darauf eingegangen. In einem separaten Artikel wird die Implementierungslogik erläutert.


Unterschiede zwischen IntaLink- und Large-Model-Technologien bei der Implementierung von NL2SQL

  • 1) Es ist nicht erforderlich, einen Satz Trainingsfragen für das große Modell vorzubereiten; Vielmehr werden Beziehungen durch Datenanalyse abgeleitet. Daher kann IntaLink auf eine Vielzahl von Daten angewendet werden. Je mehr Daten integriert werden können, desto größer sind die Vorteile.
  • 2) Konzentriert sich auf die Datenintegration, insbesondere auf die Generierung relationaler Bedingungen während der Integration, ohne sich auf Datennutzungsmethoden zu konzentrieren. Hinweis: Bei der Datenintegration geht es um die Herstellung von Beziehungen zwischen mehreren Tabellen, während Datennutzungsmethoden variieren können, wie Summierung, Zählung, Mittelung, Mindest- und Höchstwerte usw. NL2SQL wählt geeignete Datenoperationsmethoden basierend auf der Semantik aus, wie SUM, COUNT, AVG, MIN, MAX usw.
  • 3) Hohe Genauigkeit: Abgesehen von Datenqualitätsproblemen können die von IntaLink generierten relationalen Bedingungen theoretisch eine hundertprozentige Genauigkeit erreichen.

Mögliche Kombination von IntaLink- und Großmodelltechnologien

Große Modelltechnologien zeichnen sich durch semantisches Verständnis und generativen Inhalt aus, während IntaLink Vorteile bei der Datenassoziationsanalyse mit geringerem Vorabaufwand und höherer Genauigkeit bietet. Idealerweise könnten große Modelltechnologien integriert werden, um die Benutzereingabeanforderungen zu verstehen und diese Informationen in die erforderlichen Datentabellen und -elemente umzuwandeln, die IntaLink dann für Datensätze generieren würde, woraufhin das große Modell die gewünschten Ergebnisse generiert (z. B. Berichte, Diagramme usw.). usw.) zur Benutzerpräsentation.


Treten Sie der IntaLink-Community bei!

Wir würden uns freuen, wenn Sie Teil der IntaLink-Reise sein würden! Vernetzen Sie sich mit uns und tragen Sie zu unserem Projekt bei:

? GitHub-Repository: IntaLink

? Treten Sie unserer Discord-Community bei

Seien Sie Teil der Open-Source-Revolution und helfen Sie uns, die Zukunft der intelligenten Datenintegration zu gestalten!

Das obige ist der detaillierte Inhalt vonIntaLink: Eine neue NLL-Technologie, die sich von großen Modellen unterscheidet. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn