>  기사  >  Java  >  IntaLink: 대형 모델과 다른 새로운 NLL 기술

IntaLink: 대형 모델과 다른 새로운 NLL 기술

Susan Sarandon
Susan Sarandon원래의
2024-10-31 21:05:02644검색

IntaLink: A New NLL Technology Distinct from Large Models

IntaLink: 대형 모델과 다른 새로운 NL2SQL 기술

숨겨진 보석


IntaLink의 광범위한 적용 시나리오

배경 검토: 이전 기사에서 "IntaLink의 목표는 데이터 통합 ​​분야에서 자동화된 데이터 연결을 달성하는 것"이라고 언급되었습니다. 논의를 통해 IntaLink가 "관계형 데이터와 다중 테이블"의 자동 연결 문제를 해결하는 것이 분명합니다.

이제 이 문제가 폭넓은 적용 시나리오를 갖는 것인지, 아니면 단순히 실제 수요가 없는 사이비 명제에 불과한 것인지 논의해 보겠습니다.


01 관계형 데이터는 여전히 가장 중요한 데이터 자산 중 하나입니다

대형 모델, 빅데이터 플랫폼 및 기타 기술은 동영상을 제작하고 음성 상호작용을 촉진할 수 있는 멀티모달 생성 AI 등 문서, 이미지, 오디오, 동영상 등 다양한 유형의 정보를 활용할 수 있지만 결과는 공개되지 않는 경우가 많습니다. -끝나고 주관적이며 때때로 "환각"으로 이어집니다. 따라서 참조나 지원을 위해 이를 사용하는 것은 허용되지만 특정 엄격한 작업 환경에서는 작업을 완료하기 위해 이 정보나 대규모 모델에 의존할 수 없습니다. 은행, 금융, 운송, 무역, 회계, 생산, 에너지 등의 분야에서는 구조화된 관계형 데이터를 사용하여 핵심 비즈니스 데이터를 관리해야 합니다.

02 데이터 구축이 불가피하고 분산되어 있음

  • (1) 관계형 데이터베이스의 설계 패러다임에서는 심각한 중복을 피하기 위해 데이터를 합리적으로 분할해야 합니다. 구축 단계에서 생성된 데이터에 중복성이 많이 포함되면 데이터 수집 작업량이 중복될 뿐만 아니라 데이터 일관성도 확보하기 어렵다. 다른 관점에서 보면 모든 관련 데이터가 단일 테이블에 저장되어 있지만 데이터 항목이 데이터 수집자와 생성 시간이 다양한 다양한 비즈니스 소스에서 가져온 경우 이러한 데이터 레코드를 유지 관리하는 것은 불가능합니다. 따라서 데이터 구성은 본질적으로 객체 지향 및 비즈니스 활동을 기반으로 데이터를 구성하여 여러 테이블에 분산되도록 합니다.

  • (2) 데이터는 여러 시스템에서 생성되어야 합니다. 정보기술 구축은 단번에 완성되는 것이 아니기 때문에 필연적으로 일련의 발전이 있을 것이다. 동일한 시스템 내에서도 구현 일정에 차이가 있을 수 있습니다. 더욱이 다양한 애플리케이션 시나리오에는 다양한 기술적 선택이 필요합니다. 예를 들어 비즈니스 데이터, 실시간 데이터, 로그 정보 등은 다양한 기술을 통해 구현될 수 있어 데이터가 본질적으로 멀티소스화됩니다.

03 통합은 데이터 가치를 실현하는 가장 효과적인 수단입니다

신청을 위해서는 데이터 통합이 필요합니다. 데이터 통합 ​​애플리케이션에 대한 수요에는 다양한 가능성이 있습니다. 예를 들어 생산 데이터와 계획 데이터를 통합하면 계획 완료 상태를 평가할 수 있습니다. 생산 데이터와 판매 데이터를 통합하면 제품 잔고나 주문 배송 이행을 식별할 수 있습니다. 생산 데이터와 재무 데이터를 통합하여 생산 비용과 수익성을 평가할 수 있습니다. 따라서 데이터 통합은 데이터 가치를 극대화하고 비즈니스 프로세스를 강화하는 가장 효과적인 방법입니다.

요약하자면, 관계형 데이터의 통합 적용은 오랫동안 가장 중요한 데이터 적용 시나리오 중 하나로 남을 것입니다. 이 시나리오가 존재하는 한 IntaLink는 광범위한 적응성을 갖게 될 것입니다.


IntaLink와 대규모 모델 데이터 통합 ​​방법의 비교

T2SQL(Text to SQL)NL2SQL(Natural Language to SQL)은 텍스트 또는 자연어 입력을 통해 필요한 데이터 쿼리를 자동으로 생성합니다. T2SQL과 NL2SQL이라는 용어는 본질적으로 동일한 개념을 설명합니다. 즉, AI 기술을 활용하여 의미론적 이해를 데이터 작업 방법으로 변환하는 것입니다. 이는 동일한 아이디어이지만 용어가 다릅니다. 데이터 응용 분야의 연구 방향입니다. 최근에는 대형 모델 기술의 등장으로 이 분야가 크게 발전했습니다. 저는 Alibaba와 Tencent의 기술 보고서를 조사하고 DB-GPT와 같은 오픈 소스 프로젝트를 시도해 보았습니다. 이러한 기술은 최소한 기본 기술 논리 측면에서 거의 유사하지만 IntaLink의 접근 방식은 완전히 다릅니다.

지금은 기본 기술 논리를 접어두고 구현 방법을 기반으로 비교 분석해 보겠습니다.

1. 자동 데이터 쿼리를 위해 대규모 모델 기술을 활용하려면 데이터 교육이 필요합니다.

T1, T2, ..., Tn이라는 테이블 집합이 있고, 각 테이블에는 C1, C2, ..., Cn이라는 라벨이 붙은 여러 데이터 항목이 포함되어 있고 테이블당 항목 수가 다양하다고 가정해 보겠습니다. 다음과 같이 테이블 T1에 대한 시뮬레이션된 데이터 세트를 고려하십시오.

C1 C2 C3 C4 C5 C6
Orange 5 3 3 2 1

이 콘텐츠만으로는 유용한 정보를 얻을 수 없습니다. 위 데이터의 의미가 불분명합니다. 데이터의 두 가지 의미를 시뮬레이션해 보겠습니다.

Fruit Type Warehouse No. Shelf No. Stock Shelf Life Warehouse Manager ID
Orange 5 3 3 2 1
Hotel Name Warehouse Hotness Ranking Star Rating Years in Business Remaining Rooms Discount Available
Orange 5 3 3 2 1

이러한 데이터 세트의 유효성이나 그러한 테이블의 존재 여부에 대해서는 다루지 않습니다. 그러나 테이블과 데이터 항목의 의미를 이해하지 못하면 해당 데이터를 적용할 수 없다는 것은 명백합니다. 더 복잡한 데이터 작업에 대해 논의하는 것은 말할 것도 없고 데이터 애플리케이션 요구 사항을 데이터 자체에 연결할 수는 없습니다.


NL2SQL 테스트용 데이터 세트를 사용하여 이 분야의 대형 모델 기술 적용 패턴을 설명하겠습니다.

Spider 데이터세트는 다중 데이터베이스, 다중 테이블, 단일 라운드 쿼리를 위한 T2S 데이터세트로 가장 까다로운 대규모 도메인 간 평가 리더보드로 인정받고 있습니다. 이는 2018년 예일대학교에서 제안되었으며, 예일대 학생 11명이 주석을 달았습니다. 데이터세트에는 10,181개의 자연어 질문과 5,6693개의 SQL 문이 포함되어 있으며, 이는 138개의 서로 다른 도메인에 걸쳐 200개 이상의 데이터베이스를 포괄합니다. 7,000개의 질문이 훈련에 사용되고, 1,034개는 개발에, 2,147개는 테스트에 사용됩니다. 즉, 질문과 이에 대한 답변(SQL)을 제공함으로써 대형 모델은 데이터 활용 방법을 학습합니다. 단순화를 위해 논리를 다음과 같이 요약할 수 있습니다.

  • 질문 1: 레드 립스틱 재고는 몇 개인가요?
  • 답변 1: good_name='립스틱', 색상='red'인 창고에서 금액을 선택하세요.

이러한 데이터 세트로 모델을 훈련한 후 다음 테스트 질문을 제기할 수 있습니다.

  • 테스트 질문: 블루 립스틱 재고는 몇 개인가요?
  • 출력 답변: good_name='립스틱', 색상='파란색'인 창고에서 금액을 선택하세요.

이를 통해 NL2SQL은 훈련된 데이터 세트를 기반으로 의미론적 및 맥락적 이해를 바탕으로 가능한 SQL 쿼리 도출을 강조한다는 것을 알 수 있습니다.


IntaLink의 데이터 통합 ​​방식

IntaLink의 데이터 통합에서는 사용자가 교육 데이터를 제공할 필요가 없습니다. 데이터 간의 관계는 테이블 간 관계 분석 모델을 통해 생성됩니다. 이러한 관계 생성은 테이블과 데이터 항목의 실제 의미를 이해할 필요가 없으며 데이터의 특성 값을 분석하여 테이블 간의 연관성을 추론하는 일련의 방법을 통해 파생됩니다. 아래에서는 두 개의 샘플 테이블을 사용하여 테이블 간 관계를 설정하는 방법을 보여줍니다.

탭_1

Name Student_ID CLASS Age Sex
Zhang San 2021_0001 2021_01 19 Male
Li Si 2021_0002 2021_01 18 Female
Wang Wu 2021_0003 2021_01 19 Male

탭_2

Student_ID Course Grade Rank
2021_0001 Math 135 18
2021_0001 Chinese 110 23
2021_0002 Math 120 25
2021_0002 Chinese 125 10

Tab_1에서 Student_ID는 Tab_2의 Student_ID와 일치하며 동일한 특성 값을 공유합니다. 따라서 이 두 테이블을 연결하려면 Tab_1.Student_ID = Tab_2.Student_ID 조건이 true가 됩니다. 테이블 간 연계를 분석하려면 다양한 요소를 고려해야 합니다. IntaLink에서는 테이블 간 관계 분석 결과를 생성하기 위해 최적화된 분석 방법 세트를 활용하여 데이터 특성 값 메모리 데이터베이스를 분석 도구로 복제합니다. 관련된 내용이 복잡하기 때문에 여기서는 더 자세히 설명하지 않겠습니다. 구현 논리에 대해서는 별도의 기사에서 설명합니다.


NL2SQL 구현 시 IntaLink와 대형 모델 기술의 차이점

  • 1) 대형 모델에 대한 학습 질문 세트를 준비할 필요는 없습니다. 오히려 데이터 분석을 통해 관계가 도출됩니다. 따라서 IntaLink는 광범위한 데이터에 적용할 수 있습니다. 통합할 수 있는 데이터가 많을수록 그 장점은 더욱 커집니다.
  • 2) 데이터 활용 방법에 집중하지 않고 데이터 통합, 특히 통합 중 관계 조건 생성에 중점을 둡니다. 참고: 데이터 통합은 여러 테이블 간의 관계 설정에 관한 것이지만 데이터 사용 방법은 합계, 계산, 평균, 최소값 및 최대값 등 다양할 수 있습니다. NL2SQL은 SUM, COUNT, AVG와 같은 의미론을 기반으로 적절한 데이터 작업 방법을 선택합니다. MIN, MAX 등
  • 3) 높은 정확도: 데이터 품질 문제를 제외하면 IntaLink가 생성하는 관계 조건은 이론적으로 100% 정확도를 달성할 수 있습니다.

IntaLink와 대형 모델 기술의 잠재적 결합

대형 모델 기술은 의미론적 이해와 생성 콘텐츠에 탁월한 반면, IntaLink는 선행 작업량이 적고 정확성이 높은 데이터 연관 분석에 이점이 있습니다. 이상적으로는 대규모 모델 기술을 통합하여 사용자 입력 요구 사항을 이해하고 해당 정보를 필요한 데이터 테이블과 항목으로 변환하고 IntaLink가 데이터 세트에 대해 생성한 다음 대규모 모델이 원하는 결과(예: 보고서, 차트, 등) 사용자 프레젠테이션용입니다.


IntaLink 커뮤니티에 가입하세요!

IntaLink 여정에 여러분도 참여해 주시길 바랍니다! 우리와 소통하고 프로젝트에 기여하세요:

? GitHub 저장소: IntaLink

? Discord 커뮤니티에 참여하세요

오픈 소스 혁명에 동참하여 지능형 데이터 통합의 미래를 만들어가도록 도와주세요!

위 내용은 IntaLink: 대형 모델과 다른 새로운 NLL 기술의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.