ホームページ  >  記事  >  Java  >  IntaLink: 大型モデルとは異なる新しい NLL テクノロジー

IntaLink: 大型モデルとは異なる新しい NLL テクノロジー

Susan Sarandon
Susan Sarandonオリジナル
2024-10-31 21:05:02563ブラウズ

IntaLink: A New NLL Technology Distinct from Large Models

IntaLink: 大規模モデルとは異なる新しい NL2SQL テクノロジー

隠れた宝石


IntaLink の幅広い応用シナリオ

背景レビュー: 以前の記事で、「IntaLink の目標は、データ統合の分野で自動データ リンクを実現することである」と述べました。議論から、IntaLink が「リレーショナル データと複数のテーブル」の自動リンクの問題に対処していることは明らかです。

ここで、この問題には広範な応用シナリオがあるのか​​、それとも実際の需要のない単なる疑似提案に過ぎないのかを議論しましょう。


01 リレーショナル データは依然として最も重要なデータ資産の 1 つ

大規模なモデル、ビッグデータ プラットフォーム、およびその他のテクノロジは、ビデオの作成や音声対話の促進が可能なマルチモーダル生成 AI など、ドキュメント、画像、オーディオ、ビデオを含むさまざまな種類の情報を利用できますが、結果は多くの場合オープンです。 -終わっていて主観的であり、場合によっては「幻覚」を引き起こすこともあります。したがって、参照や支援としてそれらを使用することは許容されますが、特定の厳しい作業環境では、タスクを完了するためにこの情報や大規模なモデルに依存することはできません。銀行、金融、運輸、貿易、会計、生産、エネルギーなどの分野では、構造化リレーショナル データを使用して中核となるビジネス データを管理する必要があります。

02 データ構築は避けられず分散化

  • (1) リレーショナル データベースの設計パラダイム では、大幅な冗長性を避けるためにデータを合理的に分割する必要があります。構築段階で生成されたデータに多くの冗長性が含まれている場合、データ収集の作業負荷が重複するだけでなく、データの一貫性を確保することも困難になります。別の観点から見ると、すべての関連データが 1 つのテーブルに格納されているが、データ項目がさまざまなビジネス ソースから取得され、データ コレクターや生成時間が異なる場合、そのようなデータ レコードを維持することは不可能になります。したがって、データ構築では本質的にオブジェクト指向とビジネス活動に基づいてデータが整理され、異なるテーブル間での分散が行われます。

  • (2) データは複数のシステムから生成される必要があります。情報技術の構築は一度に完了するものではないため、必然的に一連の開発が行われます。同じシステム内であっても、実装のスケジュールにはばらつきがある可能性があります。さらに、アプリケーションシナリオが異なれば、技術的な選択も異なります。たとえば、ビジネス データ、リアルタイム データ、ログ情報はさまざまなテクノロジーを通じて実現され、データは本質的にマルチソースになります。

03 統合はデータ価値を引き出す最も効果的な手段です

アプリケーションにはデータを統合する必要があります。データ統合アプリケーションの需要にはさまざまな可能性があります。たとえば、生産データと計画データを統合すると、計画の完了状況を評価できます。生産データと販売データを統合すると、製品のバックログや注文の配送状況を特定できます。生産データと財務データを統合することで、生産コストと収益性を評価できます。したがって、データ統合は、データの価値を最大化し、ビジネス プロセスを強化する最も効果的な方法です。

要約すると、リレーショナル データの統合アプリケーションは、今後も長い間最も重要なデータ アプリケーション シナリオの 1 つであり続けるでしょう。このシナリオが存在する限り、IntaLink は幅広い適応性を備えています。


IntaLink と大規模モデルのデータ統合方法の比較

T2SQL (Text to SQL) および NL2SQL (Natural Language to SQL) は、テキストまたは自然言語入力を通じて必要なデータ クエリを自動的に生成します。 T2SQL と NL2SQL という用語は、本質的に同じ概念を表しています。つまり、AI テクノロジーを利用して意味論的な理解をデータ操作方法に変換するというもので、同じ概念ですが、用語が異なります。これはデータ応用における研究の方向性です。近年、大型モデル技術の出現により、この分野は大きな進歩を遂げています。私はアリババやテンセントの技術レポートを調査し、DB-GPT などのオープンソース プロジェクトを試しました。これらのテクノロジーは、少なくともその基礎となる技術ロジックにおいてはほぼ似ていますが、IntaLink のアプローチはまったく異なります。

基礎的な技術ロジックはひとまず置いておいて、実装方法に基づいて比較分析を行ってみましょう:

1. 自動データクエリに大規模モデルテクノロジーを利用するにはデータトレーニングが必要

T1、T2、...、Tn という名前のテーブルのセットがあり、それぞれのテーブルに C1、C2、...、Cn というラベルの付いた複数のデータ項目が含まれており、テーブルごとの項目数は異なります。次のようなテーブル T1 のシミュレートされたデータセットを考えてみましょう:

C1 C2 C3 C4 C5 C6
Orange 5 3 3 2 1

このコンテンツだけからは有益な情報を得ることができません。上記のデータの意味は不明です。データの 2 つの意味をシミュレートしてみましょう:

Fruit Type Warehouse No. Shelf No. Stock Shelf Life Warehouse Manager ID
Orange 5 3 3 2 1
Hotel Name Warehouse Hotness Ranking Star Rating Years in Business Remaining Rooms Discount Available
Orange 5 3 3 2 1

これらのデータセットの有効性やそのようなテーブルの存在については詳しく説明しません。しかし、テーブルやデータ項目の意味を理解しなければ、データを適用できないことは明らかです。データ アプリケーションのニーズをデータ自体に結び付けることはできず、ましてやより複雑なデータ操作について議論することはできません。


NL2SQL をテストするためのデータセットを使用して、この分野における大規模モデル テクノロジのアプリケーション パターンを説明します。

Spider データセットは、マルチデータベース、マルチテーブル、シングルラウンド クエリ用の T2S データセットであり、最も困難な大規模クロスドメイン評価リーダーボードとして認識されています。これは 2018 年にイェール大学によって提案され、イェール大学の学生 11 人が注釈を付けました。データセットには 11,181 の自然言語の質問と 5,693 の SQL ステートメントが含まれており、138 の異なるドメインにわたる 200 以上のデータベースをカバーしています。トレーニングには 7000 問、開発には 134 問、テストには 2147 問が使用されます。つまり、質問とそれに対応する回答 (SQL) を提供することで、大規模モデルはデータの活用方法を学習します。簡単にするために、ロジックを次のように要約できます:

  • 質問 1: 赤い口紅は何本在庫がありますか?
  • 回答 1: Good_name='lipstick' および color='red' の倉庫から数量を選択します

このようなデータセットを使用してモデルをトレーニングした後、次のテスト質問を提示できます:

  • テスト質問: 青い口紅は何本在庫がありますか?
  • 出力回答: Good_name='lipstick' および color='blue' の倉庫から数量を選択します

このことから、NL2SQL はトレーニングされたデータセットに依存し、セマンティックおよびコンテキストの理解に基づいて可能な SQL クエリを導出することを重視していることがわかります。


IntaLink のデータ統合方法

IntaLink のデータ統合では、ユーザーがトレーニング データを提供する必要はありません。データ間の関係は、テーブル間関係分析モデルを通じて生成されます。この関係の生成には、テーブルとデータ項目の実際の重要性を理解する必要はありませんが、データの特性値を分析してテーブル間の関連性を推定する一連のメソッドを通じて導き出されます。以下では、2 つのサンプル テーブルを使用してテーブル間のリレーションシップの確立を説明します。

タブ_1

Name Student_ID CLASS Age Sex
Zhang San 2021_0001 2021_01 19 Male
Li Si 2021_0002 2021_01 18 Female
Wang Wu 2021_0003 2021_01 19 Male

タブ_2

Student_ID Course Grade Rank
2021_0001 Math 135 18
2021_0001 Chinese 110 23
2021_0002 Math 120 25
2021_0002 Chinese 125 10

Tab_1 の Student_ID は Tab_2 の Student_ID と一致し、同じ特性値を共有します。したがって、これら 2 つのテーブルをリンクするには、条件 Tab_1.Student_ID = Tab_2.Student_ID が成立します。テーブル間のリンケージを分析するには、多数の要素を考慮する必要があります。 IntaLink では、データ特性値メモリ データベースを分析ツールとして複製し、最適化された一連の分析手法を利用してテーブル間の関係分析結果を生成します。内容が複雑なため、ここではこれ以上詳しく説明しません。実装ロジックについては別の記事で説明します。


NL2SQL の実装における IntaLink と大規模モデル テクノロジの違い

  • 1) 大規模モデル用のトレーニング質問セットを準備する必要はありません。むしろ、関係性はデータ分析を通じて導き出されます。したがって、IntaLink は幅広いデータに適用できます。統合できるデータが多ければ多いほど、その利点は大きくなります。
  • 2) データの使用方法には焦点を当てず、データ統合、特に統合中の関係条件の生成に焦点を当てます。注: データ統合は複数のテーブル間の関係の確立に関係しますが、データの使用方法は合計、カウント、平均値、最小値と最大値などさまざまです。NL2SQL は、SUM、COUNT、AVG などのセマンティクスに基づいて適切なデータ操作方法を選択します。最小、最大など
  • 3) 高精度: データ品質の問題を除けば、IntaLink によって生成されるリレーショナル条件は理論的には 100% の精度を達成できます。

IntaLink とラージ モデル テクノロジの潜在的な組み合わせ

大規模モデル テクノロジーは意味の理解と生成コンテンツに優れていますが、IntaLink は初期作業負荷が低く、精度が高いため、データ関連分析に利点があります。理想的には、大規模なモデル テクノロジを統合してユーザー入力要件を理解し、その情報を必要なデータ テーブルと項目に変換し、IntaLink がデータ セット用に生成し、その後、大規模なモデルが望ましい結果 (レポート、グラフ、レポートなど) を生成することができます。など) ユーザープレゼンテーション用。


IntaLink コミュニティに参加してください!

IntaLink の旅にぜひご参加ください。私たちとつながり、私たちのプロジェクトに貢献してください:

? GitHub リポジトリ: IntaLink

? Discord コミュニティに参加してください

オープンソース革命に参加し、インテリジェントなデータ統合の未来の形成にご協力ください!

以上がIntaLink: 大型モデルとは異なる新しい NLL テクノロジーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。