위 그림은 DAMO 아카데미 자연어 처리 지능의 기술 블록도이고, from the Bottom 포함 내용:
검색의 성격은 동일합니다. 사용자에게는 정보 획득 요구가 있는 동시에 정보 리소스 라이브러리도 있습니다. , 검색 엔진을 통해 두 가지를 연결합니다.
전자상거래 시나리오를 예로 들어보겠습니다. 예를 들어, 사용자가 전자상거래 상점에서 aj1 North Carolina 파란색 새 운동화를 검색합니다. 이러한 사용자의 쿼리를 더 잘 이해하려면 일련의 작업을 수행해야 합니다.
검색 패러다임에 따라 나누면 일반적으로 희소 검색과 밀집 검색으로 구분됩니다.
일반적으로 검색은 호출, 정렬(대략 정렬, 미세 정렬, 재배열)과 같은 링크 형태의 구분으로 나뉩니다.
리콜 단계:
과 결합될 수 있는 상대적으로 복잡하고 관련성이 높은 모델입니다. 왼쪽에서 오른쪽으로 모델 복잡성과 효과 정확도가 높아집니다. 오른쪽에서 왼쪽으로 처리되는 문서 수가 늘어납니다. 리콜(십억), 예비 순위(십만), 정밀 순위(수백, 수천), 재배치(수십) 등 타오바오 전자상거래를 예로 들어보겠습니다. 생산 링크 검색은 검색 효과와 엔지니어링 효율성이 절충되는 시스템입니다. 컴퓨팅 성능이 향상됨에 따라 복잡한 모델이 대체되기 시작합니다. 예를 들어, 미세하게 정렬된 모델은 이제 점차적으로 대략적인 정렬 또는 리콜 단계로 이동합니다. 검색 성능 평가: 산업 시나리오는 매우 큽니다. 여기서는 소비자 인터넷 검색과 산업 인터넷 검색으로 나뉩니다. 검색은 오프라인 데이터, 검색 서비스 프레임워크(녹색 부분), 검색 기술 알고리즘 시스템(파란색 부분), 그 기반은 문서 분석, 쿼리 이해, 상관 관계 등을 수행하는 Alicemind 사전 훈련된 언어 모델 시스템입니다. AliceMind는 DAMO Academy에서 구축한 계층적 사전 학습 언어 모델 시스템입니다. 일반 사전 학습 모델, 다중 언어, 다중 모드, 대화 등이 포함되어 있으며 모든 NLP 작업의 기반입니다. 검색의 단어 분할(원자적 기능)은 검색 색인 세분성을 결정하며, 후속 관련성 및 BM25 세분성과도 관련이 있습니다. 작업별 작업의 경우 일부 사전 훈련을 사용자 정의하면 일반 사전 훈련보다 효과가 더 좋습니다. 예를 들어, 최근 연구에서는 기본 BERT 사전 훈련 작업에 통계 단어, 그램 세분성 또는 경계 엔트로피와 같은 감독되지 않은 통계 정보를 추가한 다음 사전 훈련에 mse-loss를 추가하려고 합니다. CWS/POS 및 NER(오른쪽 그림)에서는 많은 작업이 SOTA에 도달했습니다. 또 다른 연구는 교차 분야입니다. 매번 데이터에 라벨을 붙이고 감독 작업을 구성하는 데 드는 비용이 매우 높으므로 도메인 간 비지도 단어 분할 메커니즘을 구축해야 합니다. 오른쪽 하단에 있는 표는 오픈 소스 단어 분할에 비해 전자상거래 단어 분할의 품질이 크게 향상되었다는 예입니다. 이 방법도 ACL2020에 출시되었습니다. 검색 명명된 엔터티 인식은 주로 쿼리 및 문서에 대한 구조화된 이해와 관련되며 핵심 문구 및 유형을 식별합니다. 동시에 검색 지식 그래프의 구성도 NER 기능에 의존합니다. NER를 검색하는 데도 몇 가지 어려움이 따릅니다. 주된 이유는 쿼리가 상대적으로 짧고 컨텍스트가 부족하기 때문입니다. 예를 들어, 전자 상거래의 쿼리 엔터티는 매우 모호하고 지식이 풍부합니다. 따라서 최근 NER의 핵심 최적화 아이디어는 맥락이나 지식의 도입을 통해 NER의 표현력을 높이는 것입니다. 은 2020년과 2021년에 암시적 향상 작업 콤보 임베딩을 수행했습니다. 기존 단어 추출기 또는 GLUE 표현을 동적으로 통합함으로써 SOTA를 달성하기 위한 많은 비즈니스 작업에 사용될 수 있습니다. 2021년에는 명시적 검색 향상이 개발될 예정입니다. 텍스트는 검색 엔진을 통해 향상된 컨텍스트를 받고 변환기 구조에 통합됩니다. 이 작품은 ACL 2021에 출판되었습니다. 이 작업을 바탕으로 SemEval 2022 다국어 NER 평가에 참여하여 10개의 우승과 최우수 시스템 논문을 획득했습니다. 검색 향상: 입력 문장 자체 외에도 추가 컨텍스트가 검색되어 입력에 연결되며 학습에 도움이 되는 KL의 손실과 결합됩니다. 많은 오픈 소스 데이터 세트에서 SOTA를 획득했습니다. BERT 자체는 매우 효과적이지만 실제 프로덕션에서는 GPU 클러스터가 거의 없고 각 작업을 수행해야 하므로 성능 추론 비용이 많이 듭니다. 우리는 추론을 한 번만 할 수 있는지 생각하고, 인코더 후에 각 작업을 자체적으로 조정하여 더 나은 결과를 얻을 수 있는지 생각합니다. 직관적인 방법은 메타 작업 프레임워크를 통해 NLP 쿼리 분석 작업을 통합하는 것입니다. 그러나 전통적인 메타 작업은 균일하게 샘플링된 분포입니다. 우리는 다양한 작업에 대해 샘플링을 자체 적응하는 적응형 메타 학습 기반 방법인 MOMETAS를 제안합니다. 여러 작업을 학습하는 과정에서 주기적으로 검증 데이터를 사용하여 다양한 작업 학습의 효과를 테스트해 보겠습니다. 보상은 이전 훈련의 샘플링을 안내합니다. (아래 표) 많은 작업에 이 메커니즘을 결합하면 UB(균일 분포)에 비해 많은 개선이 이루어집니다. 위의 메커니즘을 적용하여 많은 업계의 시나리오를 검색할 수 있습니다. BERT는 한 번만 인코딩되어 저장되며 많은 다운스트림 작업에서 직접 재사용할 수 있어 성능이 크게 향상될 수 있다는 이점이 있습니다. 심층 검색은 이중 타워 또는 단일 타워에 지나지 않으며, 이는 감독된 신호 및 사전 훈련된 모델입니다. Finetune Embedding을 통해 얻은 쿼리와 문서의 특성을 나타냅니다. 최근 최적화 경로는 주로 데이터 향상이나 어려운 샘플 마이닝이고, 다른 하나는 사전 훈련된 언어 모델을 최적화하는 것입니다. 기본 BERT는 검색에 특히 적합한 텍스트 표현이 아니므로 텍스트 표현 검색을 위해 미리 훈련된 언어 모델이 있습니다. 다른 최적화는 다중 뷰 텍스트 표현과 특수 손실 설계에 있습니다. 네이티브 BERT의 무작위 샘플링과 비교하여 검색어 가중치를 결합하여 더 높은 단어 가중치로 단어를 늘려 샘플링 확률을 높이고 학습된 표현이 검색 리콜에 더 적합합니다. 또한, 문장수준 비교학습이 추가됩니다. 이 두 가지 메커니즘을 결합하여 사전 훈련된 ROM 언어 모델이 제안되었습니다. MS MARCO에서 실험을 수행하고 이전 방법을 비교하여 최상의 결과를 얻으세요. 실제 장면 검색 작업에서도 큰 개선을 가져올 수 있습니다. 동시에 이 모델은 MS랭킹에도 참여했습니다. ROM 리콜 단계 외에도 정밀 순위 지정 및 reranking 단계에서 목록 인식 Transformer reranking 세트가 제안되어 많은 카테고리를 미세 조정할 수 있습니다. Transformer의 결과는 Transformer를 통해 유기적으로 혼합되어 크게 개선되었습니다. ROM과 HLATR 두 가지 솔루션을 결합한 결과, 3월부터 현재(7월)까지의 결과는 여전히 SOTA입니다. 다모아카데미에서 개발한 주소 분석 상품은 다양한 업종에 수많은 통신 주소가 있다는 사실을 바탕으로 만들어졌습니다. 중국어 통신 주소에는 구어체 표현의 기본값이 많은 등 많은 특징이 있습니다. 동시에 주소 자체는 사람이나 사물이며, 객관적인 세계의 많은 개체를 연결하는 중요한 개체 단위입니다. 따라서 이를 기반으로 파싱, 완성, 검색, 주소 분석을 제공하기 위한 일련의 주소 지식 그래프를 구축하였다. 제품의 기술 블록도입니다. 아래에서 위로 전체 링크를 연결하는 검색 엔진 기반 프레임워크를 포함하여 주소 지식 그래프 구축과 주소 사전 학습 언어 모델이 포함됩니다. 위에서 언급한 벤치마크 기능은 API 형태로 제공되며 산업 솔루션에 패키지되어 있습니다. 이 기술에서 가장 중요한 점 중 하나는 지리적 의미론의 사전 훈련된 언어 모델입니다. 주소는 텍스트에서는 문자열로 표현되지만 실제로는 공간상으로는 경도와 위도로 표현되는 경우가 많으며, 지도에는 그에 상응하는 그림이 있습니다. 따라서 이 세 가지 양식의 정보는 위치에서의 작업을 지원하기 위해 다중 모드 지리 의미 언어 모델에 유기적으로 통합됩니다. 위에서 언급한 것처럼 단어 분할, 오류 수정, 구조화 및 기타 분석 등 주소와 관련된 많은 기본 기능이 필요합니다. 핵심 링크는 지리적 사전 학습 언어 모델을 연결하고 기본 작업을 처리하며 검색 엔진을 실행하여 이들을 연결하는 것입니다. 예를 들어 Zhejiang No.1 Hospital을 검색하면 이에 대한 구조화, 동의어 수정, 용어 가중치 부여, 벡터화, Geohash 예측 등을 수행할 수 있습니다. 분석 결과를 바탕으로 회상해 보세요. 이 링크는 텍스트 호출, 병음 호출, 벡터 호출을 수행하고 지리적 호출도 추가하는 표준 검색 링크입니다. 회상 다음에는 다단계 특성 융합을 포함한 다단계 정렬이 수행됩니다. 주소 검색 시스템의 직관적인 적용은 제안 장면에 주소를 입력하거나 공간상의 한 지점에 매핑되어야 하는 Amap 지도에서 검색하는 것입니다. 다음으로 비교적 산업용 애플리케이션 솔루션 두 가지를 소개하겠습니다. 첫 번째는 새로운 소매 Family ID입니다. 핵심 요구 사항은 고객 관리 시스템을 유지하는 것입니다. 그러나 각 시스템의 사용자 정보가 연결되어 있지 않아 효과적인 통합이 이루어지지 않습니다. 예를 들어 한 브랜드 제조사가 에어컨을 판매하는데, 가족들이 구매, 설치, 유지 관리 등으로 인해 다양한 주소와 휴대폰 번호를 등록하지만 해당 주소는 실제로는 동일한 주소입니다. 확립된 주소 검색 정규화 기술은 서로 다른 표현으로 주소를 정규화하고, 지문을 생성하며, 서로 다른 사용자 ID를 Family 개념으로 집계합니다. 가족 집합 개념을 통해 신규 소매점 하에서 더 나은 침투 분석, 광고 게재 및 기타 마케팅 활동을 달성할 수 있습니다. 또 다른 응용 시나리오는 119, 129, 긴급 및 기타 지능형 경보 수신 응용 프로그램입니다. 사람들의 개인 및 재산 안전이 관련되어 있기 때문에 매 순간이 중요합니다. 우리는 음성 인식과 텍스트 의미 이해 기술을 결합하여 이러한 효율성을 향상시키기를 희망합니다. (왼쪽 예) 장면에는 ASR 전사의 오타, 유창성, 구어체 및 기타 문제와 같은 많은 특징이 있습니다. 목표는 자동화된 음성 전사 분석을 기반으로 알람 위치를 추론하는 것입니다. 우리는 대화 이해, 원활한 음성 언어 오류 수정, 의도 인식 및 검색 집합의 조합을 포함한 완전한 시스템 솔루션 세트를 제안했습니다. 최종적으로 주소 추천을 구현하기 위해 대략적인 선택과 정밀한 선택 메커니즘을 회상합니다. 이 링크는 상대적으로 성숙했으며 중국 내 수백 개 도시의 소방 시스템에 구현되었습니다. 소방관은 경보 대화를 통해 특정 위치를 식별하고 추천, 일치 및 주소 울타리를 결합하여 특정 위치를 결정하고 그에 따라 경보를 보냅니다. 다음으로 To C와 교사에게도 수요가 많은 교육 업계의 사진 컬렉션 사업을 소개하겠습니다. 사진 검색 질문에는 여러 가지 기능이 있으며, 점진적으로 업데이트되는 문제 은행이 있으며 사용자 기반이 넓습니다. 또한 다양한 학문 분야와 연령층에 해당하는 분야에 대한 지식이 풍부합니다. 동시에 이는 OCR에서 후속 의미론적 이해 및 검색에 이르는 일련의 링크가 포함된 다중 모드 알고리즘입니다. 최근에는 사진 수집을 위해 알고리즘에서 시스템까지의 완전한 링크 세트가 구축되었습니다. 예를 들어 휴대폰과 OCR 인식으로 사진을 찍은 후, 검색에 도움이 되는 맞춤법 교정, 주제 예측, 단어 분할, 단어 가중치 부여 등 일련의 작업이 수행됩니다. OCR은 영어의 공백을 인식하지 못하기 때문에 K12 영어 사전 학습 알고리즘 모델 세트를 사용하여 영어를 분할하도록 학습했습니다. 동시에 주제와 문제 유형을 알 수 없으므로 미리 예측해야 합니다. 다중 양식을 사용하여 의도 이해를 위해 이미지와 텍스트를 결합합니다. 사진 검색 질문은 일반 사용자 검색과 다릅니다. 사용자 검색은 검색어가 짧은 경향이 있는 반면, 사진 검색 질문은 완전한 질문인 경우가 많습니다. 문제의 단어 중 중요하지 않은 단어가 많아 단어 가중치 분석을 하거나, 중요하지 않은 단어를 버리거나 정렬하여 다운그레이드하는 작업이 필요합니다. 사진 검색 장면에서 가장 눈에 띄는 최적화 효과는 벡터 리콜입니다. 성능 요구 사항으로 인해 OR 리콜 메커니즘을 사용하기 어렵고 AND 로직을 사용해야 합니다. 이에 상응하는 특징은 리콜이 상대적으로 적다는 것입니다. 재현율을 높이려면 용어 가중치 및 오류 수정과 같은 중복 모듈을 더 많이 수행해야 합니다. (오른쪽 그림) 텍스트와 벡터의 다중 채널 호출 효과는 순수 OR 논리의 효과를 능가하며 지연 시간은 10배 감소합니다. 사진 검색 링크에는 이미지 벡터 회상, 공식 회상 및 개인화된 회상이 포함됩니다. 두 가지 예를 들어보세요. 첫 번째는 일반 텍스트의 OCR 결과입니다.(왼쪽 열) 이전 결과는 ES, 단순 OR 리콜에 BM25의 결과를 더한 것입니다.(오른쪽 열) 다중 채널 리콜 및 상관 리콜 이후의 링크가 크게 늘어났습니다. 향상. . 두 번째는 그래픽이 포함된 사진을 찍는 것인데, 이는 여러 채널에서 사진 회상과 결합되어야 합니다. 기업 검색에는 반정형, 비정형 데이터가 많아 통합검색을 제공하여 기업의 데이터 통합을 돕습니다. 자원 . 전력 분야뿐만 아니라 다른 산업 분야에도 비슷한 요구 사항이 있습니다. 여기서의 검색은 더 이상 좁은 검색이 아니라 문서 전처리 AI와 지식 그래프 구축, 그리고 이후에 질문과 답변을 연결하는 기능도 포함합니다. 위는 구조화부터 검색, 적용까지 전력 지식베이스의 제도적 표준 텍스트 세트를 작성하는 개략도입니다.
4. 소비자 인터넷과 산업 인터넷에서 검색
2. 관련 기술 연구
1. AliceMind 시스템
2. 단어 분할
3. 명명된 엔터티 인식
4. 적응형 다중 작업 훈련
5. 사전 훈련된 언어 모델 검색 및 호출
6. HLATR reranking 모델
3. 업종 검색 애플리케이션
1. 주소 분석 상품
2. 교육용 사진 검색 질문
3. 파워 지식베이스 통합검색
위 내용은 사전 학습된 언어 모델을 기반으로 한 산업 검색의 응용 및 연구의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!