IntaLink: 大規模モデルとは異なる新しい NL2SQL テクノロジー
隠れた宝石
IntaLink の幅広い応用シナリオ
背景レビュー: 以前の記事で、「IntaLink の目標は、データ統合の分野で自動データ リンクを実現することである」と述べました。議論から、IntaLink が「リレーショナル データと複数のテーブル」の自動リンクの問題に対処していることは明らかです。
ここで、この問題には広範な応用シナリオがあるのか、それとも実際の需要のない単なる疑似提案に過ぎないのかを議論しましょう。
01 リレーショナル データは依然として最も重要なデータ資産の 1 つ
大規模なモデル、ビッグデータ プラットフォーム、およびその他のテクノロジは、ビデオの作成や音声対話の促進が可能なマルチモーダル生成 AI など、ドキュメント、画像、オーディオ、ビデオを含むさまざまな種類の情報を利用できますが、結果は多くの場合オープンです。 -終わっていて主観的であり、場合によっては「幻覚」を引き起こすこともあります。したがって、参照や支援としてそれらを使用することは許容されますが、特定の厳しい作業環境では、タスクを完了するためにこの情報や大規模なモデルに依存することはできません。銀行、金融、運輸、貿易、会計、生産、エネルギーなどの分野では、構造化リレーショナル データを使用して中核となるビジネス データを管理する必要があります。
02 データ構築は避けられず分散化
(1) リレーショナル データベースの設計パラダイム では、大幅な冗長性を避けるためにデータを合理的に分割する必要があります。構築段階で生成されたデータに多くの冗長性が含まれている場合、データ収集の作業負荷が重複するだけでなく、データの一貫性を確保することも困難になります。別の観点から見ると、すべての関連データが 1 つのテーブルに格納されているが、データ項目がさまざまなビジネス ソースから取得され、データ コレクターや生成時間が異なる場合、そのようなデータ レコードを維持することは不可能になります。したがって、データ構築では本質的にオブジェクト指向とビジネス活動に基づいてデータが整理され、異なるテーブル間での分散が行われます。
(2) データは複数のシステムから生成される必要があります。情報技術の構築は一度に完了するものではないため、必然的に一連の開発が行われます。同じシステム内であっても、実装のスケジュールにはばらつきがある可能性があります。さらに、アプリケーションシナリオが異なれば、技術的な選択も異なります。たとえば、ビジネス データ、リアルタイム データ、ログ情報はさまざまなテクノロジーを通じて実現され、データは本質的にマルチソースになります。
03 統合はデータ価値を引き出す最も効果的な手段です
アプリケーションにはデータを統合する必要があります。データ統合アプリケーションの需要にはさまざまな可能性があります。たとえば、生産データと計画データを統合すると、計画の完了状況を評価できます。生産データと販売データを統合すると、製品のバックログや注文の配送状況を特定できます。生産データと財務データを統合することで、生産コストと収益性を評価できます。したがって、データ統合は、データの価値を最大化し、ビジネス プロセスを強化する最も効果的な方法です。
要約すると、リレーショナル データの統合アプリケーションは、今後も長い間最も重要なデータ アプリケーション シナリオの 1 つであり続けるでしょう。このシナリオが存在する限り、IntaLink は幅広い適応性を備えています。
IntaLink と大規模モデルのデータ統合方法の比較
T2SQL (Text to SQL) および NL2SQL (Natural Language to SQL) は、テキストまたは自然言語入力を通じて必要なデータ クエリを自動的に生成します。 T2SQL と NL2SQL という用語は、本質的に同じ概念を表しています。つまり、AI テクノロジーを利用して意味論的な理解をデータ操作方法に変換するというもので、同じ概念ですが、用語が異なります。これはデータ応用における研究の方向性です。近年、大型モデル技術の出現により、この分野は大きな進歩を遂げています。私はアリババやテンセントの技術レポートを調査し、DB-GPT などのオープンソース プロジェクトを試しました。これらのテクノロジーは、少なくともその基礎となる技術ロジックにおいてはほぼ似ていますが、IntaLink のアプローチはまったく異なります。
基礎的な技術ロジックはひとまず置いておいて、実装方法に基づいて比較分析を行ってみましょう:
1. 自動データクエリに大規模モデルテクノロジーを利用するにはデータトレーニングが必要
T1、T2、...、Tn という名前のテーブルのセットがあり、それぞれのテーブルに C1、C2、...、Cn というラベルの付いた複数のデータ項目が含まれており、テーブルごとの項目数は異なります。次のようなテーブル T1 のシミュレートされたデータセットを考えてみましょう:
C1 | C2 | C3 | C4 | C5 | C6 |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
このコンテンツだけからは有益な情報を得ることができません。上記のデータの意味は不明です。データの 2 つの意味をシミュレートしてみましょう:
Fruit Type | Warehouse No. | Shelf No. | Stock | Shelf Life | Warehouse Manager ID |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
Hotel Name | Warehouse Hotness Ranking | Star Rating | Years in Business | Remaining Rooms | Discount Available |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
これらのデータセットの有効性やそのようなテーブルの存在については詳しく説明しません。しかし、テーブルやデータ項目の意味を理解しなければ、データを適用できないことは明らかです。データ アプリケーションのニーズをデータ自体に結び付けることはできず、ましてやより複雑なデータ操作について議論することはできません。
NL2SQL をテストするためのデータセットを使用して、この分野における大規模モデル テクノロジのアプリケーション パターンを説明します。
Spider データセットは、マルチデータベース、マルチテーブル、シングルラウンド クエリ用の T2S データセットであり、最も困難な大規模クロスドメイン評価リーダーボードとして認識されています。これは 2018 年にイェール大学によって提案され、イェール大学の学生 11 人が注釈を付けました。データセットには 11,181 の自然言語の質問と 5,693 の SQL ステートメントが含まれており、138 の異なるドメインにわたる 200 以上のデータベースをカバーしています。トレーニングには 7000 問、開発には 134 問、テストには 2147 問が使用されます。つまり、質問とそれに対応する回答 (SQL) を提供することで、大規模モデルはデータの活用方法を学習します。簡単にするために、ロジックを次のように要約できます:
- 質問 1: 赤い口紅は何本在庫がありますか?
- 回答 1: Good_name='lipstick' および color='red' の倉庫から数量を選択します
このようなデータセットを使用してモデルをトレーニングした後、次のテスト質問を提示できます:
- テスト質問: 青い口紅は何本在庫がありますか?
- 出力回答: Good_name='lipstick' および color='blue' の倉庫から数量を選択します
このことから、NL2SQL はトレーニングされたデータセットに依存し、セマンティックおよびコンテキストの理解に基づいて可能な SQL クエリを導出することを重視していることがわかります。
IntaLink のデータ統合方法
IntaLink のデータ統合では、ユーザーがトレーニング データを提供する必要はありません。データ間の関係は、テーブル間関係分析モデルを通じて生成されます。この関係の生成には、テーブルとデータ項目の実際の重要性を理解する必要はありませんが、データの特性値を分析してテーブル間の関連性を推定する一連のメソッドを通じて導き出されます。以下では、2 つのサンプル テーブルを使用してテーブル間のリレーションシップの確立を説明します。
タブ_1
Name | Student_ID | CLASS | Age | Sex |
---|---|---|---|---|
Zhang San | 2021_0001 | 2021_01 | 19 | Male |
Li Si | 2021_0002 | 2021_01 | 18 | Female |
Wang Wu | 2021_0003 | 2021_01 | 19 | Male |
タブ_2
Student_ID | Course | Grade | Rank |
---|---|---|---|
2021_0001 | Math | 135 | 18 |
2021_0001 | Chinese | 110 | 23 |
2021_0002 | Math | 120 | 25 |
2021_0002 | Chinese | 125 | 10 |
Tab_1 の Student_ID は Tab_2 の Student_ID と一致し、同じ特性値を共有します。したがって、これら 2 つのテーブルをリンクするには、条件 Tab_1.Student_ID = Tab_2.Student_ID が成立します。テーブル間のリンケージを分析するには、多数の要素を考慮する必要があります。 IntaLink では、データ特性値メモリ データベースを分析ツールとして複製し、最適化された一連の分析手法を利用してテーブル間の関係分析結果を生成します。内容が複雑なため、ここではこれ以上詳しく説明しません。実装ロジックについては別の記事で説明します。
NL2SQL の実装における IntaLink と大規模モデル テクノロジの違い
- 1) 大規模モデル用のトレーニング質問セットを準備する必要はありません。むしろ、関係性はデータ分析を通じて導き出されます。したがって、IntaLink は幅広いデータに適用できます。統合できるデータが多ければ多いほど、その利点は大きくなります。
- 2) データの使用方法には焦点を当てず、データ統合、特に統合中の関係条件の生成に焦点を当てます。注: データ統合は複数のテーブル間の関係の確立に関係しますが、データの使用方法は合計、カウント、平均値、最小値と最大値などさまざまです。NL2SQL は、SUM、COUNT、AVG などのセマンティクスに基づいて適切なデータ操作方法を選択します。最小、最大など
- 3) 高精度: データ品質の問題を除けば、IntaLink によって生成されるリレーショナル条件は理論的には 100% の精度を達成できます。
IntaLink とラージ モデル テクノロジの潜在的な組み合わせ
大規模モデル テクノロジーは意味の理解と生成コンテンツに優れていますが、IntaLink は初期作業負荷が低く、精度が高いため、データ関連分析に利点があります。理想的には、大規模なモデル テクノロジを統合してユーザー入力要件を理解し、その情報を必要なデータ テーブルと項目に変換し、IntaLink がデータ セット用に生成し、その後、大規模なモデルが望ましい結果 (レポート、グラフ、レポートなど) を生成することができます。など) ユーザープレゼンテーション用。
IntaLink コミュニティに参加してください!
IntaLink の旅にぜひご参加ください。私たちとつながり、私たちのプロジェクトに貢献してください:
? GitHub リポジトリ: IntaLink
? Discord コミュニティに参加してください
オープンソース革命に参加し、インテリジェントなデータ統合の未来の形成にご協力ください!
以上がIntaLink: 大型モデルとは異なる新しい NLL テクノロジーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

この記事では、2025年の上位4つのJavaScriptフレームワーク(React、Angular、Vue、Svelte)を分析し、パフォーマンス、スケーラビリティ、将来の見通しを比較します。 強力なコミュニティと生態系のためにすべてが支配的なままですが、彼らの相対的なポップ

この記事では、カフェインとグアバキャッシュを使用してJavaでマルチレベルキャッシュを実装してアプリケーションのパフォーマンスを向上させています。セットアップ、統合、パフォーマンスの利点をカバーし、構成と立ち退きポリシー管理Best Pra

Javaのクラスロードには、ブートストラップ、拡張機能、およびアプリケーションクラスローダーを備えた階層システムを使用して、クラスの読み込み、リンク、および初期化が含まれます。親の委任モデルは、コアクラスが最初にロードされ、カスタムクラスのLOAに影響を与えることを保証します

node.js 20は、V8エンジンの改善、特により速いガベージコレクションとI/Oを介してパフォーマンスを大幅に向上させます。 新機能には、より良いWebセンブリのサポートと洗練されたデバッグツール、開発者の生産性とアプリケーション速度の向上が含まれます。

この記事では、リモートコードの実行を可能にする重大な欠陥であるSnakeyamlのCVE-2022-1471の脆弱性について説明します。 Snakeyaml 1.33以降のSpring Bootアプリケーションをアップグレードする方法は、このリスクを軽減する方法を詳述し、その依存関係のアップデートを強調しています

大規模な分析データセットのオープンテーブル形式であるIcebergは、データの湖のパフォーマンスとスケーラビリティを向上させます。 内部メタデータ管理を通じて、寄木細工/ORCの制限に対処し、効率的なスキーマの進化、タイムトラベル、同時wを可能にします

この記事では、Lambda式、Streams API、メソッド参照、およびオプションを使用して、機能プログラミングをJavaに統合することを調べます。 それは、簡潔さと不変性を通じてコードの読みやすさと保守性の改善などの利点を強調しています

この記事では、Javaプロジェクト管理、自動化の構築、依存関係の解像度にMavenとGradleを使用して、アプローチと最適化戦略を比較して説明します。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

WebStorm Mac版
便利なJavaScript開発ツール

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!
