>기술 주변기기 >일체 포함 >지식 강화 및 사전 학습된 대형 모델 기반 쿼리 의도 인식

지식 강화 및 사전 학습된 대형 모델 기반 쿼리 의도 인식

王林
王林앞으로
2023-05-19 14:01:441303검색

基于知识增强和预训练大模型的 Query 意图识别

1. 배경 소개

基于知识增强和预训练大模型的 Query 意图识别

기업의 디지털화(Digitalization)는 최근 몇 년간 화두인 인공지능, 빅데이터, 클라우드 컴퓨팅 등 차세대 디지털 기술의 활용을 말합니다. 기업의 비즈니스 모델을 변화시켜 기업 비즈니스의 새로운 성장을 촉진합니다. 기업 디지털화에는 일반적으로 비즈니스 운영의 디지털화와 기업 관리의 디지털화가 포함됩니다. 이러한 공유는 주로 기업 관리 수준의 디지털화를 도입합니다.

정보 디지털화는 간단히 말해서 디지털 방식으로 정보를 읽고, 쓰고, 저장하고, 전송하는 것을 의미합니다. 이전의 종이 문서에서 현재의 전자 문서, 온라인 협업 문서에 이르기까지 정보의 디지털화는 오늘날 사무실의 새로운 표준이 되었습니다. 현재 Alibaba는 비즈니스 협업을 위해 DingTalk Documents 및 Yuque Documents를 사용하고 있으며 온라인 문서 수가 2천만 개 이상에 도달했습니다. 또한 많은 기업이 Alibaba의 인트라넷인 Alibaba 내부 및 외부 네트워크, 기술 커뮤니티 ATA 등 자체 내부 콘텐츠 커뮤니티를 보유하고 있으며 현재 ATA 커뮤니티에는 거의 300,000개에 달하는 기술 기사가 있으며 이는 모두 매우 귀중한 콘텐츠 자산입니다.

프로세스의 디지털화는 디지털 기술을 사용하여 서비스 프로세스를 변화시키고 서비스 효율성을 향상시키는 것을 의미합니다. 내부 관리, IT, 인사 등 거래 업무가 많이 있을 것입니다. BPMS 프로세스 관리 시스템은 업무 프로세스를 표준화하고, 비즈니스 룰을 기반으로 워크플로우를 수립하고, 워크플로우에 따라 자동으로 실행할 수 있어 인건비를 대폭 절감할 수 있습니다. RPA는 프로세스에서 다중 시스템 전환 문제를 해결하는 데 주로 사용됩니다. 시스템 인터페이스에서 수동 클릭 입력 작업을 시뮬레이션할 수 있기 때문에 다양한 시스템 플랫폼을 연결할 수 있습니다. 프로세스 디지털화의 다음 개발 방향은 대화형 로봇과 RPA를 통해 달성되는 프로세스의 지능화입니다. 요즘 작업 기반 대화형 로봇은 사용자가 몇 번의 대화 내에서 휴가 요청, 티켓 예약 등과 같은 몇 가지 간단한 작업을 완료하는 데 도움을 줄 수 있습니다.

비즈니스 디지털화의 목표는 디지털 기술을 통해 새로운 비즈니스 모델을 구축하는 것입니다. 기업 내에는 실제로 구매 부서의 비즈니스 디지털화와 같은 일부 비즈니스 중간 사무실이 있습니다. 이는 제품 검색, 구매 신청 개시, 구매 계약서 작성, 결제, 주문 실행 등 일련의 프로세스를 디지털화하는 것을 의미합니다. . 또 다른 사례로는 법무법인의 업무 디지털화를 들 수 있다. 계약센터를 예로 들면 계약서 작성부터 계약서 검토, 계약 체결, 계약 이행까지 계약 전 과정의 디지털화를 구현하는 것이다.

基于知识增强和预训练大模型的 Query 意图识别

디지털화로 생성된 대용량 데이터와 문서는 다양한 비즈니스 시스템에 분산되므로 직원이 원하는 정보를 빠르게 찾을 수 있도록 지원하는 지능형 기업 검색 엔진이 필요합니다. Alibaba Group을 예로 들면 기업 검색의 주요 시나리오는 다음과 같습니다.

(1) DingTalk Documents, Yuque Documentation, ATA 등 통합 검색 입구는 현재 Alibaba의 내부 네트워크인 Alibaba 내부 및 외부와 직원 전용 버전인 DingTalk에 배치되어 있습니다. 이 두 입구의 통합 트래픽은 약 140QPS에 달하며 이는 ToB 시나리오에서 매우 높은 트래픽입니다.

(2) 기업 직원 도우미는 Xiaomi 내부 및 외부 직원을 위한 지능형 서비스 로봇으로 HR, 관리, IT 및 기타 분야의 기업 지식 질문 및 답변 서비스를 제공합니다. 딩톡 입구와 일부 플러그인 입구 등 빠른 서비스 채널은 총 25만 명 가량이 이용 가능하며, 그룹의 트래픽 포지션 중 하나이기도 하다.

(3) 산업 검색은 이전 장에서 언급한 비즈니스의 디지털화에 해당합니다. 예를 들어 조달에는 조달 몰이라는 포털이 있습니다. 구매자는 조달 몰에서 검색하고 제품을 선택하고 조달 신청서를 제출할 수 있습니다. 웹사이트를 검색하지만 사용자가 회사의 구매자인 법률 준수 비즈니스에도 해당 포털이 있어 법조계 학생들이 계약서를 검색하고 계약서 작성, 승인, 그리고 서명.

基于知识增强和预训练大模型的 Query 意图识别

일반적으로 기업의 각 비즈니스 시스템이나 콘텐츠 사이트에는 자체 검색 비즈니스 시스템이 있으며, 이는 서로 격리되어야 합니다. 그러나 콘텐츠 사이트의 격리로 인해 비즈니스 시스템이 형성됩니다. 정보섬 현상. 예를 들어, 기술 동급생이 기술적 문제에 직면하면 먼저 ATA로 가서 문제와 관련된 기술 기사를 검색할 수 있습니다. 그런 다음 Zhibo, DingTalk 문서 및 Yuque 문서에서 유사한 콘텐츠를 검색합니다. , 총 4~5번의 검색이 필요합니다. 이 검색 동작은 의심할 여지 없이 매우 비효율적입니다. 따라서 우리는 이러한 콘텐츠를 통합된 기업 검색으로 수집하여 단 한 번의 검색으로 모든 관련 정보를 얻을 수 있기를 바랍니다.

또한 비즈니스 속성이 포함된 업계 검색은 일반적으로 서로 격리되어야 합니다. 예를 들어, 조달 쇼핑몰의 사용자는 그룹의 구매자이고 계약 센터의 사용자는 그룹의 법무 담당자입니다. 이 두 검색 시나리오의 사용자 수는 매우 적기 때문에 사용자 행동은 상대적으로 적습니다. 사용자 행동 데이터를 활용하는 추천 알고리즘에서는 효과가 크게 감소합니다. 조달, 법무 분야도 주석이 달린 데이터가 거의 없다. 주석을 달기 위해서는 전문가가 필요하고, 비용도 많이 들기 때문에 고품질의 데이터 세트를 수집하기 어렵다.

마지막으로 검색되는 쿼리의 길이가 기본적으로 12단어 이내이고, 내용이 부족하며, 의미 정보가 풍부하지 않습니다. 짧은 텍스트에 대한 이해, 관련 연구 작업이 많이 있습니다. 검색되는 항목은 기본적으로 문자 수가 수백에서 수천에 이르는 긴 문서입니다. 긴 문서의 내용을 이해하고 표현하는 것도 매우 어려운 작업입니다.

基于知识增强和预训练大模型的 Query 意图识别

위 그림은 현재 기업 검색의 기본 아키텍처를 보여줍니다. 여기서는 통합검색 부분을 주로 소개합니다.

현재 통합검색은 ATA, DingTalk Documents, Yuque Documents 등 크고 작은 40개 이상의 콘텐츠 사이트에 연결되어 있습니다. 리콜 및 대략적인 정렬에는 Alibaba가 자체 개발한 Ha3 엔진이 사용되며, 리콜 전 알고리즘의 QP 서비스를 호출하여 사용자의 쿼리를 분석하고 쿼리 분할, 오류 수정, 용어 가중치, 쿼리 확장, NER 의도 인식 등을 제공합니다. QP 결과 및 비즈니스 논리에 따라 쿼리 문자열은 회수를 위해 엔진 측에서 어셈블됩니다. Ha3 기반 대략적인 정렬 플러그인은 GBDT 등과 같은 일부 경량 정렬 모델을 지원할 수 있습니다. 정밀 순위 단계에서는 검색의 정확성을 보장하기 위해 보다 복잡한 모델을 사용하여 정렬할 수 있으며, 클릭률 추정 모델은 클릭률을 직접적으로 최적화합니다.

검색 정렬 외에도 검색 드롭다운 상자의 검색 직접 영역, 연관어, 관련 검색어, 인기 검색어 등 기타 검색 주변 기능도 통합합니다. 현재 상위 계층에서 지원하는 서비스는 주로 Alibaba 및 Alibaba DingTalk 내외 통합 검색, 조달 및 법률 업무에 대한 수직 검색, ATA Teambition OKR 시스템에 대한 쿼리 이해입니다.

基于知识增强和预训练大模型的 Query 意图识别

위 그림은 기업 검색 QP의 일반적인 아키텍처입니다. QP 서비스는 DII라는 알고리즘 온라인 서비스 플랫폼에 배포됩니다. DII 플랫폼은 KV 테이블 및 인덱스 테이블 인덱스의 구성 및 쿼리를 지원할 수 있으며 전체적으로 체인 서비스 프레임워크이며 복잡한 비즈니스 로직은 상대적으로 독립적이고 응집력 있는 비즈니스 모듈로 분할되어야 합니다. 예를 들어 Alibaba 내부 및 외부의 검색 QP 서비스는 단어 분할, 오류 수정, 쿼리 확장, 용어 가중치 및 의도 인식과 같은 여러 기능 모듈로 구분됩니다. 체인 프레임워크의 장점은 여러 사람의 공동 개발을 촉진한다는 것입니다. 업스트림 및 다운스트림 인터페이스가 합의되는 한 각 사람은 동일한 모듈을 재사용하여 비용을 줄일 수 있습니다. 중복 코드. 또한 외부 세계에 TPP 인터페이스를 제공하기 위해 기본 알고리즘 서비스에 레이어가 래핑됩니다. TPP는 Alibaba 내의 성숙한 알고리즘 추천 플랫폼으로, AB 실험과 탄력적인 확장을 쉽게 수행할 수 있으며, 로그 관리 및 모니터링 및 경고 메커니즘도 매우 성숙되어 있습니다.

TPP 측에서 쿼리 전처리를 수행한 다음 DII 요청을 조합하고 DII 알고리즘 서비스를 호출하고 결과를 얻은 후 구문 분석하고 최종적으로 호출자에게 반환합니다.

2. 작업 공유

다음으로 두 가지 기업 시나리오에서 쿼리 의도 인식 작업을 소개하겠습니다.

1 . 위 그림의 오른쪽은 FAQ 질문 및 답변 엔진의 일반적인 프레임워크를 보여줍니다.

基于知识增强和预训练大模型的 Query 意图识别

사용자가 쿼리를 입력하면 주로 비즈니스 및 운영에서 일부 규칙을 설정할 수 있는 규칙 개입 모듈이 있습니다. 규칙이 적중되면 설정된 답변이 직접 반환됩니다. 맞지 않으면 알고리즘을 떠나십시오. 의도 인식 모듈은 해당 비즈니스 라인에 대한 사용자 쿼리를 예측합니다. 각 비즈니스 라인의 FAQ 지식 베이스에는 많은 QA 쌍이 있으며 각 질문은 유사한 질문으로 구성됩니다. Query를 사용하여 지식베이스에서 QA 쌍의 후보 세트를 검색한 후 텍스트 매칭 모듈을 사용하여 QA 쌍을 세분화하고 모델 점수를 기반으로 답변이 직접적인지, 관련 질문이 권장되는지 여부를 판단합니다. 대답이 없습니다. FAQ 질문 및 답변 엔진 외에도 작업 기반 질문 및 답변, 지식 그래프 질문 및 답변과 같은 다른 질문 및 답변 엔진이 있으므로 최종적으로 어떤 엔진의 답변을 선택할 수 있도록 다중 모듈 랭커가 설계되었습니다. 사용자에게 공개합니다.

다음은 의도 인식 모듈에 중점을 둡니다.

샤오미 안팎의 사용자 검색어를 집계한 결과, 사용자 검색어의 대부분이 0~20 사이에 집중되어 있으며, 검색어의 80% 이상이 검색되는 것으로 나타났습니다. 따라서 Xiaomi 내부와 외부의 의도 인식은 짧은 텍스트 분류 문제이므로 짧은 텍스트의 수가 매우 적기 때문에 전통적인 벡터 공간 모델로 표현하면 벡터 공간이 희박해집니다. 그리고 일반적으로 짧은 텍스트 표현은 표준화가 잘 되어 있지 않고, 약어나 불규칙적인 용어가 많아 OOV 현상이 더 많습니다.

基于知识增强和预训练大模型的 Query 意图识别

Xiaomi의 짧은 텍스트 쿼리의 또 다른 특징은 고유 명사가 많다는 것입니다. 일반적으로 Huanxing, Idol 등과 같은 내부 플랫폼 및 도구 이름입니다. 이러한 고유명사의 텍스트 자체에는 카테고리 관련 의미 정보가 없기 때문에 효과적인 의미 표현을 학습하기 어렵기 때문에 우리는 이 문제를 해결하기 위해 지식 강화를 활용하는 것을 생각했습니다.

일반지식 강화는 오픈소스 지식그래프를 활용하게 되지만, 기업 내 고유명사는 오픈소스 지식그래프에서 해당 개체를 찾을 수 없기 때문에 내부에서 지식을 찾습니다. 알리바바에는 지식 카드 검색 기능이 있는데, 각 지식 카드는 샤오미 내부 및 외부 분야와 관련이 깊기 때문에 여기에서 관련 정보를 찾을 수 있습니다. 지식 카드는 지식 소스로 사용됩니다.

基于知识增强和预训练大模型的 Query 意图识别

방법은 두 단계로 나뉩니다.

첫 번째는 지식 강화입니다. 각 지식 카드에는 엔터티 이름과 텍스트 소개가 있습니다. 인트라넷 Wi-Fi 연결, Wi-Fi 인트라넷 연결 등 유사한 쿼리가 많기 때문에 이와 관련된 지식 카드도 기록 쿼리를 활용합니다. 유사한 쿼리는 서로 보완할 수 있습니다. 의미론적 정보를 제공하여 짧은 텍스트의 희소성 문제를 더욱 완화합니다. 지식 카드 엔터티 외에도 유사한 쿼리가 호출되고 원래 쿼리는 분류를 위해 텍스트 분류 모델로 전송됩니다.

基于知识增强和预训练大模型的 Query 意图识别

벡터 회상을 사용하여 지식 카드의 엔터티 및 유사한 쿼리를 회상합니다. Bert를 사용하여 쿼리 및 지식 카드의 텍스트 설명의 구체적인 수량을 각각 계산합니다. 일반적으로 Bert의 CLS 벡터는 문장 표현으로 직접 사용되지 않습니다. 또한 CLS 벡터를 문장 표현으로 직접 사용하면 Bert의 벡터 출력이 표현 저하 문제가 있고 직접 사용하기에 적합하지 않기 때문에 결과가 좋지 않을 것이라고 많은 논문에서 언급했습니다. 비지도 유사성 계산을 수행하므로 대조 학습 아이디어를 사용하여 유사한 샘플을 더 가깝게 만들고 서로 다른 샘플을 최대한 균등하게 배포합니다.

특히 Sentence-Bert는 데이터 세트를 미세 조정하고 모델 구조와 훈련 방법으로 더 나은 문장 벡터 표현을 생성할 수 있습니다. 2타워 구조로 양쪽의 Bert 모델은 모델 매개변수를 공유하며, Bert가 출력한 Hidden State를 각각 Bert에 입력하면 두 문장의 문장 벡터가 얻어집니다. 여기서 최적화 목표는 비교학습인 infoNCE의 손실입니다.

긍정적 예: 샘플을 모델에 두 번 직접 입력했지만 이 두 번의 드롭아웃이 다르기 때문에 표현 벡터가 약간씩 달라집니다.

부정적 예: 같은 배치에 있는 다른 모든 문장.

이 손실을 최적화하고 Sentence-Bert 모델을 사용하여 문장 벡터를 예측하세요.

여기에서는 StructBERT 모델 매개변수 를 사용하여 Bert 부분을 초기화합니다. StructBERT는 DAMO Academy에서 제안한 사전 학습 모델로, 모델 구조는 기본 BERT와 동일합니다. 핵심 아이디어는 언어 구조 정보를 사전 학습 작업에 통합하여 쿼리의 문장 벡터와 지식 카드를 얻는 것입니다. 계산을 통해 벡터의 코사인 유사성은 가장 유사한 상위 k개의 지식 카드와 유사한 쿼리를 회상합니다.

基于知识增强和预训练大模型的 Query 意图识别


위 그림은 Encoding 레이어에서 각 지식 카드 엔터티가 유지하는 원본 쿼리의 표현과 유사한 단어 벡터를 추출하는 데 사용되는 모델 구조입니다. 엔터티 ID 임베딩, ID 임베딩은 무작위로 초기화됩니다.

모델 구조 다이어그램의 오른쪽은 쿼리에 의해 호출된 엔터티를 처리하고 엔터티의 통합된 벡터 표현을 얻는 데 사용됩니다. 짧은 텍스트 자체가 비교적 모호하기 때문에 회상된 지식 카드 엔터티에도 어느 정도 노이즈가 있습니다. 두 가지 주의 메커니즘을 사용하면 모델이 올바른 엔터티에 더 많은 주의를 기울일 수 있습니다. 하나는 모델이 쿼리와 관련된 엔터티에 더 많은 주의를 기울이도록 하는 것을 목표로 하는 Query-to-Entity Attention입니다. 다른 하나는 엔터티 자체의 self-Attention으로, 서로 유사한 엔터티의 가중치는 높이고 노이즈가 있는 엔터티의 가중치는 줄일 수 있습니다. 두 개의 Attention 가중치 세트를 결합하여 최종 엔터티의 벡터 표현을 얻습니다.

모델 구조도의 왼쪽은 원본 검색어와 유사 검색어를 처리하는 부분으로, 유사 검색어와 원본 검색어의 중복되는 단어가 검색어의 중심 단어를 어느 정도 특징화할 수 있다는 점을 관찰할 수 있으므로 여기서는 각 단어 간의 관계를 계산합니다. 클릭하여 유사성 매트릭스를 얻고 합계 풀링을 수행하여 쿼리와 상대적으로 유사한 원본 쿼리의 각 단어의 가중치를 얻습니다. 목적은 모델이 중심 단어에 더 많은 주의를 기울이도록 하는 것입니다. , 유사 질의의 단어 벡터와 원본 질의를 이어붙여 융합 의미 정보를 계산한다.

마지막으로 위의 3개 벡터를 이어붙이고, Dense Layer Prediction을 통해 각 카테고리의 확률을 구합니다.

基于知识增强和预训练大模型的 Query 意图识别

위는 BERT 미세 조정 결과를 초과하는 실험 결과입니다. 인코딩 계층에서 Bert를 사용하지 않으면 Bert가 아닌 모든 모델도 초과합니다.

2. 업종 검색

基于知识增强和预训练大模型的 Query 意图识别

구매몰을 예로 들어보겠습니다. 구매몰에는 자체 상품 카테고리 시스템이 있으며, 각 상품은 상품 카테고리 아래에 탑재됩니다. 선반. 쇼핑몰 검색의 정확도를 높이기 위해서는 특정 카테고리에 대한 검색어를 예측한 후, 해당 카테고리에 따른 검색 순위 결과를 조정해야 하며, 이를 기반으로 하위 카테고리 탐색 및 관련 검색어를 인터페이스에 표시할 수도 있습니다. 카테고리 결과입니다.

범주 예측에는 수동으로 라벨링된 데이터 세트가 필요하지만 조달 분야에서는 라벨링 비용이 상대적으로 높기 때문에 이 문제는 소규모 표본 분류의 관점에서 해결됩니다.

基于知识增强和预训练大模型的 Query 意图识别

사전 훈련된 모델은 NLP 작업에 대한 강력한 언어 이해 기능을 보여주었습니다. 일반적인 사용 패러다임은 먼저 레이블이 지정되지 않은 대규모 데이터 세트를 사전 훈련한 다음 감독됨 다운스트림 작업에 대한 미세 조정을 수행합니다. 예를 들어 Bert의 사전 학습 작업은 주로 마스크 언어 모델입니다. 즉, 문장의 단어 중 일부를 무작위로 마스크하여 원본 모델에 입력한 다음 마스크 부분의 단어를 예측하여 확률을 최대화하는 것을 의미합니다. 단어.

쿼리 카테고리 예측은 본질적으로 텍스트 분류 작업입니다. 텍스트 분류 작업은 특정 레이블 ID에 대한 입력을 예측하는 것이지만 이는 레이블 자체의 의미 정보를 사용하지 않고 미세 조정된 분류 작업입니다. 사전 훈련 작업은 일관성이 없으며 언어 모델을 학습하기 위한 사전 훈련 작업의 사용을 극대화할 수 없으므로 새로운 사전 훈련 언어 모델이 등장했습니다.

사전 학습된 언어 모델의 패러다임을 신속한 학습이라고 합니다. 프롬프트는 인간의 문제를 더 잘 이해하는 데 도움이 되는 사전 학습된 언어 모델에 대한 단서로 이해될 수 있습니다. 구체적으로 입력 텍스트에 추가 단락을 추가하면 이 단락에서는 레이블과 관련된 단어가 마스크된 후 모델을 사용하여 마스크 위치의 단어를 예측하여 분류 작업을 마스크로 변환합니다. 언어 모델 작업에서는 마스크 위치의 단어를 예측한 후 해당 단어를 레이블 세트에 매핑해야 하는 경우가 많습니다. 조달을 위한 범주 예측은 범주 예측 작업을 위해 여러 개의 템플릿이 구성됩니다. 그런 다음 마스크가 삭제됩니다. 부분은 예측해야 하는 단어입니다.

基于知识增强和预训练大模型的 Query 意图识别

템플릿의 경우 예측 단어에서 레이블 단어로의 매핑이 설정됩니다.

우선, 예측 단어가 반드시 레이블일 필요는 없습니다. 훈련을 용이하게 하기 위해 각 샘플의 마스크 문자 수가 동일하기 때문입니다. 원래 레이블 단어는 3자, 4자 등입니다. 여기서 예측 단어와 레이블 단어는 2개의 문자로 매핑되어 통합됩니다.

또한 신속한 학습을 ​​기반으로 자가 학습 프레임워크를 사용하여 먼저 레이블이 지정된 데이터를 사용하여 각 템플릿에 대한 모델을 교육한 다음 여러 모델을 통합하여 레이블이 없는 데이터를 예측하고 한 라운드 동안 교육한 후 그중에서 선택합니다. 신뢰도가 높은 데이터는 훈련 세트에 의사 레이블 데이터로 추가되어 더 많은 레이블이 지정된 데이터를 얻은 다음 일련의 모델을 훈련합니다.

基于知识增强和预训练大模型的 Query 意图识别

위 그림은 제로샷 시나리오에서 분류 효과를 볼 수 있으며, 총 30개의 클래스가 있습니다. 이미 16%의 정확도를 달성했습니다. 10개의 샷 데이터 세트를 훈련하면 여러 템플릿이 최대 56%의 정확도에 도달할 수 있으며 템플릿 선택도 결과에 일정한 영향을 미친다는 것을 알 수 있습니다.

동일한 10개의 샷 데이터 세트도 TextCNN과 BERT-finetune을 사용하여 테스트되었으며 결과는 큐 학습 미세 조정의 효과보다 훨씬 낮았으므로 작은 샘플 시나리오에서는 큐 학습이 매우 효과적입니다.

마지막으로 전체 데이터, 약 4000개의 훈련 샘플, 자가 학습을 사용하여 효과는 약 82%에 도달했습니다. 온라인으로 카드 임계값과 같은 일부 후처리를 추가하면 분류 정확도가 90% 이상을 보장할 수 있습니다.

3. 요약적 사고

基于知识增强和预训练大模型的 Query 意图识别

엔터프라이즈 시나리오를 이해하는데 있어 크게 두 가지 어려움이 있습니다. Query:

(1) 도메인 지식 부족, 일반 단편 텍스트 이해 지식 그래프는 지식 강화에 사용되지만 기업 시나리오의 특수성으로 인해 오픈 소스 지식 그래프는 요구 사항을 충족하기 어렵기 때문에 기업 내 반구조화된 데이터를 지식 강화에 사용합니다.

(2) 기업 내 일부 전문 분야에는 주석이 달린 데이터가 거의 없습니다. 0 샘플과 소규모 샘플을 사용하는 시나리오가 많습니다. 훈련된 모델과 힌트 학습이 있지만 기존 사전 훈련 모델에 사용된 코퍼스가 실제로 기업 시나리오의 도메인 지식을 다루지 않기 때문에 0개 샘플의 실험 결과는 특히 좋지 않습니다.

그러면 기업 수준의 사전 학습된 대형 모델을 학습시키고, Alibaba의 ATA 기사 데이터, 계약 데이터, 코드 데이터 등 공통 말뭉치를 기반으로 회사 내부 수직 필드의 데이터를 사용할 수 있습니까? 등을 통해 사전 학습된 대규모 모델을 얻은 후 프롬프트 학습 또는 컨텍스트 학습을 사용하여 텍스트 분류, NER, 텍스트 매칭 등 다양한 작업을 하나의 언어 모델 작업으로 통합합니다.

또한, 질의응답 QA, 검색 등의 사실적 업무에서는 생성언어모델의 결과를 바탕으로 답변의 정확성을 어떻게 보장할 것인지도 고민해야 할 문제이다.

4. 질의응답 세션

Q1: Alibaba에서 제공하는 전체 의도 인식 모델에 대한 관련 논문이나 코드가 있나요?

A1: 모델은 자체 개발한 것으로, 아직 논문이나 코드가 없습니다.

Q2: 현재 쿼리 및 유사 쿼리는 토큰 수준 입력을 사용합니다. 검색된 지식 카드 정보가 분류 모델의 구체성을 사용하지 않고 ID 삽입만 고려하는 이유는 무엇입니까?

A2: 쿼리 및 유사 쿼리는 토큰 차원 수준 입력을 사용하고 지식 카드는 ID 임베딩만 사용합니다. 지식 카드 자체의 이름을 고려하면 텍스트 의미에 포함되지 않은 내부 제품 이름이 일부 있기 때문입니다. . 특히 의미가 있습니다. 이러한 지식 카드를 텍스트로 설명하는 경우 상대적으로 긴 텍스트일 뿐이므로 너무 많은 노이즈가 발생할 수 있으므로 텍스트 설명은 사용되지 않고 이 지식 카드에 내장된 ID만 사용됩니다.

Q3: 프로모션과 관련된 문제에 대해 현재 소규모 표본의 경우 정확도는 16%에 불과하고 텐쇼트는 50에 불과합니다. 그렇다면 기업용 애플리케이션에서는 어떻게 고려해야 할까요? 아니면 이에 대한 아이디어가 있나요?

A3: 사전 훈련된 모델은 조달 분야에서 일부 희귀한 말뭉치를 다루지 않고 상대적으로 적은 수의 매개변수를 사용하는 BERT 기반 모델을 사용하기 때문에 10개의 짧은 부분은 실제로 약 50%에 불과합니다. 10번의 샷의 효과는 그다지 좋지 않지만, 전체 데이터 양을 사용하면 정확도는 80% 이상을 달성할 수 있습니다.

Q4: 마지막에 언급된 기업의 사전 학습된 대형 모델에 대한 답변의 정확성을 확장하는 것이 편리한가요? 관련 내용을 자세히 설명해 주실 수 있나요?

A4: 이 지역은 현재 탐색 중입니다. 주요 아이디어는 강화 학습과 유사한 몇 가지 아이디어를 사용하고 언어 모델이 생성되기 전에 인위적인 피드백을 추가하여 출력을 조정하는 것입니다.

입력 후, 즉 대규모 모델 출력 후에 일부 전처리를 추가합니다. 전처리 중에 지식 그래프나 기타 지식을 추가하여 답변의 정확성을 보장할 수 있습니다.

위 내용은 지식 강화 및 사전 학습된 대형 모델 기반 쿼리 의도 인식의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제