사전 학습된 언어 모델(PLM)에 풍부한 지식이 포함되어 있다는 사실이 점점 더 많은 연구를 통해 입증되었습니다. PLM을 활용하는 적절한 교육 방법을 사용하면 모델의 기능을 더 효과적으로 향상시킬 수 있습니다. Text-to-SQL 작업에서 현재 주류 생성기는 구문 트리를 기반으로 하며 SQL 구문용으로 설계되어야 합니다.
최근 NetEase Interactive Entertainment AI Lab은 광동외국어대학교 및 컬럼비아대학교와 협력하여 사전 학습된 언어 모델의 사전 학습 방법을 기반으로 하는 2단계 다중 작업 사전 학습 모델 MIGA를 제안했습니다. T5. MIGA는 사전 훈련 단계에서 세 가지 보조 작업을 도입하고 이를 통합 생성 작업 패러다임으로 구성합니다. 이는 모든 Text-to-SQL 데이터 세트를 동시에 균일하게 훈련할 수 있습니다. 미세 조정 단계에서 MIGA는 오류를 목표로 합니다. 여러 라운드의 대화 전송 문제는 SQL 섭동에 사용되어 모델 생성의 견고성을 향상시킵니다.
현재 Text-to-SQL 연구의 주류 방법은 주로 SQL 구문 트리를 기반으로 하는 인코더-디코더 모델입니다. 이는 생성된 결과가 SQL 구문을 준수해야 함을 보장할 수 있지만 SQL 구문에 대한 특별한 설계가 필요합니다. . 사전 훈련된 언어 모델의 지식과 기능을 쉽게 상속할 수 있는 생성 언어 모델을 기반으로 하는 Text-to-SQL에 대한 최근 연구도 있습니다.
구문 트리에 대한 의존성을 줄이고 사전 학습된 언어 모델의 기능을 더 잘 활용하기 위해 이 연구에서는 사전 학습 프레임워크 하에서 2단계 다중 작업 Text-to-SQL 사전 학습을 제안합니다. T5 모델 모델 MIGA(MultI-task G세대 frAmework)을 훈련합니다.
MIGA는 훈련 과정을 두 단계로 나눕니다:
MIGA 모델은 두 개의 다중 회전 대화 Text-to-SQL 공개 데이터 세트에서 현재 최고의 구문 트리 기반 모델보다 성능이 뛰어나며 관련 연구는 AAAI 2023에서 승인되었습니다.
문서 주소: https://arxiv.org/abs/2212.09278
그림 1 MIGA 모델 다이어그램 .
다중 작업 사전 훈련 단계
이 연구는 주로 T5의 사전 훈련 방법을 참조하며, 이미 훈련된 T5 모델을 기반으로 4가지 사전 훈련 작업이 설계되었습니다.
이러한 통일된 학습 방법 설계를 통해 MIGA는 더 많은 작업 관련 추가 작업을 처리할 수 있도록 다재다능하고 유연해질 수 있으며 다음과 같은 장점도 있습니다.
사전 훈련 단계에서 연구는 T5 모델을 훈련하기 위해 Text-to-SQL 데이터 세트 Spider와 대화형 Text-to-SQL 데이터 세트 SparC 및 CoSQL의 데이터를 통합했습니다.
미세 조정 단계
사전 훈련 단계 후에 이 연구에서는 단순히 Text-to-SQL 작업을 사용하여 대상 작업의 주석이 달린 데이터를 기반으로 모델을 추가로 미세 조정했습니다. 본 연구에서는 현재 라운드의 SQL을 예측할 때 이전 라운드에서 예측된 SQL을 이어붙이는 과정에서 여러 라운드의 대화와 생성으로 인해 발생하는 오류 전송 문제를 극복하기 위해 본 연구에서는 SQL 섭동 기법을 제안한다. . α 확률로 입력 데이터의 과거 SQL 라운드를 교란시킵니다. SQL 문의 섭동은 주로 해당 토큰을 β 확률로 샘플링한 후 다음 섭동 중 하나를 수행합니다.
다단계 대화를 위한 평가 데이터 세트 Text-to-SQL: SparC 및 CoSQL.
평가 지표는 다음과 같습니다.
QM: 단일 질문 라운드에서 주석 출력과 완전히 일치하는 생성된 SQL의 비율을 나타내는 질문 일치;
표 1 비교 실험 분석, 첫 번째 부분은 트리 모델이고 두 번째 부분은 사전 훈련을 기반으로 한 생성 모델입니다.
표 2의 절제 실험에서 이 연구는 MIGA의 2단계 훈련 과정에서 여러 작업을 탐색했으며 이러한 작업이 목표 작업을 다양한 수준으로 향상시킬 것임을 입증했습니다.
표 2 SparC 작업의 경우 각 작업 또는 데이터를 각각 제거하면 표시기가 감소했습니다.
실제 사례 분석 결과, MIGA 생성의 안정성과 정확성이 T5-3B 기반의 학습 모델보다 우수함을 알 수 있습니다. 다중 테이블 연결 연산 및 열 매핑에서는 MIGA가 더 우수함을 알 수 있습니다. 그리고 다른 모델보다 낫습니다. 사례#1의 질문#2에서 T5-3B 모델은 상대적으로 복잡한 JOIN 구조(2테이블 연결)에 대해 효과적인 SQL을 생성할 수 없으므로 질문에서 더 복잡한 JOIN 구조(3테이블 연결)에 대한 잘못된 예측으로 이어집니다. #삼. . MIGA는 JOIN 구조를 정확하게 예측하고 이전 조건 t1.sex="f"를 잘 유지합니다. 사례 #2에서 T5-3B는 서로 다른 테이블의 여러 열을 혼동하여 people 테이블의 열에 대한 수입을 실수하는 반면, MIGA는 해당 열을 poker_player 테이블에 속하는 것으로 올바르게 식별하고 이를 t1에 연결합니다.
표 3 사례 분석.
NetEase Interactive Entertainment AI Lab은 Text-to-SQL용 T5: MIGA를 기반으로 하는 2단계 다중 작업 사전 학습 모델을 제안했습니다. 사전 훈련 단계에서 MIGA는 Text-to-SQL 작업을 3개의 추가 하위 작업으로 분해하고 이를 시퀀스 간 생성 패러다임으로 통합하여 사전 훈련된 T5 모델에 더 나은 동기를 부여합니다. 또한 여러 라운드의 Text-to-SQL 생성 시나리오에서 오류 전송의 영향을 줄이기 위해 미세 조정 단계에 SQL 교란 메커니즘이 도입되었습니다.
앞으로 연구팀은 매우 큰 언어 모델의 기능을 활용하기 위한 보다 효과적인 전략을 더욱 탐구하고 잘못된 전송으로 인한 성능 저하 문제를 더욱 극복할 수 있는 보다 우아하고 효과적인 방법을 모색할 것입니다.
위 내용은 T5 기반의 2단계 다중 작업 Text-to-SQL 사전 학습 모델 MIGA의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!