수동 주석이 필요하지 않습니다! LLM은 텍스트 임베딩 학습을 지원합니다. 100개 언어를 쉽게 지원하고 수십만 개의 다운스트림 작업에 적응합니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

수동 주석이 필요하지 않습니다! LLM은 텍스트 임베딩 학습을 지원합니다. 100개 언어를 쉽게 지원하고 수십만 개의 다운스트림 작업에 적응합니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 30, 2024 pm 09:39 PM

모델기차

텍스트 임베딩(워드 임베딩)은 자연어 처리(NLP) 분야의 기본 기술로 텍스트를 의미 공간에 매핑하고 이를 조밀한 벡터 표현으로 변환할 수 있습니다. 이 방법은 정보 검색(IR), 질문 답변, 텍스트 유사성 계산, 추천 시스템 등 다양한 NLP 작업에 널리 사용되었습니다. 텍스트 임베딩을 통해 텍스트의 의미와 관계를 더 잘 이해할 수 있어 NLP 작업의 효율성이 향상됩니다.

정보 검색(IR) 분야에서 검색의 첫 번째 단계에서는 일반적으로 유사성 계산을 위해 텍스트 임베딩을 사용합니다. 이는 대규모 코퍼스에서 작은 후보 문서 세트를 호출한 다음 세밀한 계산을 수행하는 방식으로 작동합니다. 임베딩 기반 검색은 RAG(Retrieval Augmentation Generation)의 중요한 구성 요소이기도 합니다. 이를 통해 LLM(대형 언어 모델)이 모델 매개변수를 수정하지 않고도 동적 외부 지식에 액세스할 수 있습니다. 이러한 방식으로 IR 시스템은 텍스트 임베딩과 외부 지식을 더 잘 활용하여 검색 결과를 향상시킬 수 있습니다.

word2vec 및 GloVe와 같은 초기 텍스트 임베딩 학습 방법이 널리 사용되지만 정적 특성으로 인해 자연어로 풍부한 문맥 정보를 캡처하는 능력이 제한됩니다. 그러나 사전 훈련된 언어 모델이 등장하면서 Sentence-BERT 및 SimCSE와 같은 일부 새로운 방법은 BERT를 미세 조정하여 텍스트 임베딩을 학습함으로써 자연어 추론(NLI) 데이터 세트에서 상당한 진전을 이루었습니다. 이러한 방법은 BERT의 컨텍스트 인식 기능을 활용하여 텍스트의 의미와 컨텍스트를 더 잘 이해함으로써 텍스트 임베딩의 품질과 표현력을 향상시킵니다. 이러한 방법은 사전 훈련과 미세 조정의 조합을 통해 자연어 처리를 위한 대규모 말뭉치에서 더 풍부한 의미 정보를 학습할 수 있습니다.

텍스트 임베딩 성능과 견고성을 향상하려면 E5 및 BGE와 같은 고급 방법 다단계 훈련이 사용되었습니다. 그들은 처음에는 약하게 감독되는 수십억 개의 텍스트 쌍에 대해 사전 훈련된 다음 주석이 달린 여러 데이터 세트에 대해 미세 조정됩니다. 이 전략은 텍스트 임베딩 성능을 효과적으로 향상시킬 수 있습니다.

기존 다단계 방법에는 여전히 두 가지 결함이 있습니다.

1. 복잡한 다단계 학습 파이프라인을 구성하려면 많은 수의 상관 쌍을 관리하기 위해 많은 엔지니어링 작업이 필요합니다.

2. 미세 조정은 수동으로 수집된 데이터 세트에 의존하며, 이는 종종 작업 다양성과 언어 적용 범위로 인해 제한됩니다.

대부분의 방법은 BERT 스타일 인코더를 사용하고 더 나은 LLM 및 관련 기술의 교육 진행 상황을 무시합니다.

Microsoft 연구팀은 최근 이전 방법의 일부 단점을 극복하기 위해 간단하고 효율적인 텍스트 임베딩 훈련 방법을 제안했습니다. 이 접근 방식에는 복잡한 파이프라인 설계나 수동으로 구성된 데이터 세트가 필요하지 않지만 LLM을 활용하여 다양한 텍스트 데이터를 합성합니다. 이 접근 방식을 통해 그들은 거의 100개 언어로 수십만 개의 텍스트 임베딩 작업에 대한 고품질 텍스트 임베딩을 생성할 수 있었으며 전체 교육 프로세스는 1,000단계 미만으로 진행되었습니다.

수동 주석이 필요하지 않습니다! LLM은 텍스트 임베딩 학습을 지원합니다. 100개 언어를 쉽게 지원하고 수십만 개의 다운스트림 작업에 적응합니다.

논문 링크: https://arxiv.org/abs/2401.00368

구체적으로, 연구자들은 2단계 프롬프트 전략을 사용하여 먼저 LLM 브레인스토밍 후보자 작업 풀을 프롬프트한 다음, 그 다음 LLM이 풀에서 특정 작업에 대한 데이터를 생성하도록 요청합니다.

다양한 애플리케이션 시나리오를 다루기 위해 연구원들은 각 작업 유형에 대해 여러 프롬프트 템플릿을 설계하고 다양한 템플릿에서 생성된 데이터를 결합하여 다양성을 높였습니다.

실험 결과에 따르면 "합성 데이터만" 미세 조정하면 Mistral-7B가 BEIR 및 MTEB 벤치마크에서 매우 경쟁력 있는 성능을 달성하고, 합성 데이터와 주석이 추가된 데이터를 모두 추가하면 sota 성능을 달성합니다.

대형 모델을 사용하여 텍스트 임베딩 개선

1. 합성 데이터 생성

GPT-4와 같은 최첨단 대형 언어 모델(LLM)을 사용하여 데이터를 합성하는 것이 점점 더 주목받고 있습니다. 이는 멀티 태스킹 및 다중 언어 기능 다양성에서 모델을 향상시킬 수 있으며, 다양한 다운스트림 작업(예: 의미 검색, 텍스트 유사성 계산, 클러스터링)에서 잘 수행되는 보다 강력한 텍스트 임베딩을 훈련할 수 있습니다.

다양한 합성 데이터를 생성하기 위해 연구원들은 먼저 임베딩 작업을 분류한 다음 각 작업 유형에 대해 서로 다른 프롬프트 템플릿을 사용하는 간단한 분류법을 제안했습니다.

비대칭 작업

쿼리와 문서가 의미상 관련되어 있지만 서로 바꿔 쓰지 않는 작업을 포함합니다.

쿼리와 문서의 길이에 따라 연구원들은 비대칭 작업을 짧은-긴 매칭(상용 검색 엔진의 일반적인 시나리오인 짧은 쿼리 및 긴 문서), 긴-짧은 매칭, 짧은 -짧은 일치와 긴 긴 일치.

각 하위 범주에 대해 연구원들은 2단계 프롬프트 템플릿을 설계했습니다. 먼저 LLM에게 작업 목록을 브레인스토밍하도록 요청한 다음 작업 정의 조건의 특정 예를 생성했습니다. GPT-4의 출력은 대부분 일관되었습니다. 품질이 매우 높습니다.

수동 주석이 필요하지 않습니다! LLM은 텍스트 임베딩 학습을 지원합니다. 100개 언어를 쉽게 지원하고 수십만 개의 다운스트림 작업에 적응합니다.

사전 실험에서 연구원들은 단일 프롬프트를 사용하여 작업 정의 및 쿼리 문서 쌍을 생성하려고 시도했지만 위에서 언급한 2단계 방법만큼 데이터 다양성이 좋지 않았습니다.

대칭 작업

주로 의미는 비슷하지만 표면 형태가 다른 쿼리와 문서가 포함됩니다.

이 기사에서는 단일 언어 의미 텍스트 유사성(STS)과 이중 텍스트 검색이라는 두 가지 애플리케이션 시나리오를 연구하고, 작업 정의 이후 각 시나리오에 대해 두 가지 서로 다른 프롬프트 템플릿을 설계했습니다. 비교적 간단하므로 브레인스토밍 단계를 생략할 수 있습니다.

프롬프트 단어의 다양성을 더욱 높이고 합성 데이터의 다양성을 향상시키기 위해 연구원들은 각 프롬프트 보드에 여러 개의 자리 표시자를 추가하고 런타임에 무작위로 샘플링했습니다. 예를 들어 "{query_length}"는 Sampled from을 나타냅니다. "{5단어 미만, 5~10단어, 10단어 이상}" 세트입니다.

다국어 데이터를 생성하기 위해 연구원들은 XLM-R의 언어 목록에서 "{언어}" 값을 샘플링하여 사전 정의된 JSON을 따르지 않는 생성된 데이터에 더 많은 가중치를 부여했습니다. 형식은 구문 분석 중에 삭제됩니다. 정확한 문자열 일치를 기반으로 중복도 제거됩니다.

2. 훈련

관련 쿼리-문서 쌍이 주어지면 먼저 원래 쿼리 q+를 사용하여 새 명령 q_inst를 생성합니다. 여기서 "{task_definition}"은 명령에 대한 한 문장 설명을 삽입하기 위한 자리 표시자입니다. 작업 기호.

수동 주석이 필요하지 않습니다! LLM은 텍스트 임베딩 학습을 지원합니다. 100개 언어를 쉽게 지원하고 수십만 개의 다운스트림 작업에 적응합니다.

생성된 합성 데이터의 경우 브레인스토밍 단계의 출력은 MS-MARCO와 같은 다른 데이터세트에 사용되며, 연구원은 파일을 수정하지 않고 작업 정의를 수동으로 생성하고 데이터세트의 모든 쿼리에 적용합니다. 끝에 있는 모든 명령 접두사.

이렇게 하면 문서 인덱스가 미리 구축되어 있고 쿼리 측면만 변경하여 수행할 작업을 사용자 정의할 수 있습니다.

사전 훈련된 LLM이 주어지면 쿼리와 문서 끝에 [EOS] 토큰을 추가한 다음 이를 LLM에 공급하여 마지막 레이어 [EOS] 벡터를 가져와 쿼리 및 문서 임베딩을 얻습니다.

그런 다음 표준 InfoNCE 손실을 사용하여 배치 내 부정 및 하드 부정에 대한 손실을 계산합니다.

수동 주석이 필요하지 않습니다! LLM은 텍스트 임베딩 학습을 지원합니다. 100개 언어를 쉽게 지원하고 수십만 개의 다운스트림 작업에 적응합니다.

여기서 ℕ은 모든 부정의 집합을 나타내고, 수동 주석이 필요하지 않습니다! LLM은 텍스트 임베딩 학습을 지원합니다. 100개 언어를 쉽게 지원하고 수십만 개의 다운스트림 작업에 적응합니다. 는 쿼리와 문서 간의 일치 점수를 계산하는 데 사용되며, t는 실험에서 0.02로 고정된 온도 하이퍼 매개변수입니다

수동 주석이 필요하지 않습니다! LLM은 텍스트 임베딩 학습을 지원합니다. 100개 언어를 쉽게 지원하고 수십만 개의 다운스트림 작업에 적응합니다.

실험 결과

합성 데이터 통계

연구원들은 Azure OpenAI 서비스를 사용하여 150,000개의 고유 명령이 포함된 500,000개의 샘플을 생성했습니다. 이 중 25%는 GPT-3.5-Turbo에서 생성되었고 나머지는 GPT-4에서 생성되었습니다. , 총 1억 8천만 개의 토큰이 소비되었습니다.

주요 언어는 영어이며, 75개 저자원 언어에 대해 총 93개 언어를 포괄하며, 언어당 평균 샘플은 약 1,000개입니다.

수동 주석이 필요하지 않습니다! LLM은 텍스트 임베딩 학습을 지원합니다. 100개 언어를 쉽게 지원하고 수십만 개의 다운스트림 작업에 적응합니다.

데이터 품질 측면에서 연구원들은 GPT-3.5-Turbo의 일부 출력이 프롬프트 템플릿에 지정된 지침을 엄격하게 따르지 않는다는 사실을 발견했습니다. 그럼에도 불구하고 전반적인 품질은 여전히 허용 가능하며 예비 수준이었습니다. 실험은 또한 이를 사용하면 데이터 하위 집합의 이점이 있음을 입증했습니다.

모델 미세 조정 및 평가

연구원들은 위의 손실을 사용하여 사전 훈련된 Mistral-7B를 1 epoch 동안 미세 조정하고 RankLLaMA의 훈련 방법을 따랐으며 순위 16의 LoRA를 사용했습니다. .

GPU 메모리 요구 사항을 더욱 줄이기 위해 경사 체크포인트, 혼합 정밀 교육 및 DeepSpeed ZeRO-3과 같은 기술이 사용됩니다.

훈련 데이터의 경우 생성된 합성 데이터와 13개의 공개 데이터 세트를 모두 사용하여 샘플링 후 약 180만 개의 예시가 생성되었습니다.

일부 이전 작업과의 공정한 비교를 위해 연구원들은 유일한 주석 감독이 MS-MARCO 장 순위 데이터 세트일 때 결과를 보고하고 MTEB 벤치마크에서 모델을 평가합니다.

주요 결과

아래 표에서 볼 수 있듯이, 기사에서 얻은 모델 "E5mistral-7B + 전체 데이터"는 MTEB 벤치마크 테스트에서 가장 높은 평균 점수를 달성했는데, 이는 기존 모델보다 2.4 높은 수치입니다. 이전의 가장 진보된 모델 포인트.

"합성 데이터만 있음" 설정에서는 주석이 달린 데이터가 훈련에 사용되지 않지만 성능은 여전히 매우 경쟁력이 있습니다.

수동 주석이 필요하지 않습니다! LLM은 텍스트 임베딩 학습을 지원합니다. 100개 언어를 쉽게 지원하고 수십만 개의 다운스트림 작업에 적응합니다.

연구원들은 여러 상업용 텍스트 삽입 모델도 비교했지만 이러한 모델의 투명성과 문서화가 부족하여 공정한 비교가 불가능했습니다.

그러나 BEIR 벤치마크의 검색 성능 비교 결과를 보면 학습된 모델이 현재 상용 모델보다 상당 부분 우수하다는 것을 알 수 있습니다.

수동 주석이 필요하지 않습니다! LLM은 텍스트 임베딩 학습을 지원합니다. 100개 언어를 쉽게 지원하고 수십만 개의 다운스트림 작업에 적응합니다.

다국어 검색

모델의 다국어 기능을 평가하기 위해 연구원들은 사람이 주석을 추가한 쿼리와 18개 언어의 관련성 판단이 포함된 MIRACL 데이터세트에 대한 평가를 수행했습니다.

결과에 따르면 모델은 리소스가 많은 언어, 특히 영어에서 mE5-large를 능가하고 성능이 더 우수하지만 리소스가 적은 언어의 경우 모델은 여전히 mE5-base에 비해 이상적이지 않습니다.

연구원들은 이를 Mistral-7B가 주로 영어 데이터에 대해 사전 훈련했기 때문이라고 생각합니다. 이는 예측 다국어 모델이 이러한 격차를 해소하는 데 사용할 수 있는 방법입니다.

위 내용은 수동 주석이 필요하지 않습니다! LLM은 텍스트 임베딩 학습을 지원합니다. 100개 언어를 쉽게 지원하고 수십만 개의 다운스트림 작업에 적응합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

마찰에서 흐름까지 : AI가 법적 작업을 재구성하는 방법May 09, 2025 am 11:29 AM

법률 기술 혁명은 법률 전문가가 AI 솔루션을 적극적으로 수용하도록 추진력을 얻고 있습니다. 수동 저항은 더 이상 경쟁력을 유지하려는 사람들에게는 실행 가능한 옵션이 아닙니다. 기술 채택이 중요한 이유는 무엇입니까? 법률 전문가

이것이 Ai가 당신을 생각하고 당신에 대해 알고있는 것입니다.May 09, 2025 am 11:24 AM

많은 사람들은 AI와의 상호 작용이 익명이며 인간의 의사 소통과는 대조적이라고 가정합니다. 그러나 AI는 모든 채팅 중에 사용자를 적극적으로 프로파일 링합니다. 모든 프롬프트, 모든 단어는 분석 및 분류됩니다. AI Revo 의이 중요한 측면을 살펴 보겠습니다

번성하고 준비된 기업 문화를 구축하기위한 7 단계May 09, 2025 am 11:23 AM

성공적인 인공 지능 전략은 강력한 기업 문화 지원과 분리 될 수 없습니다. Peter Drucker가 말했듯이 비즈니스 운영은 사람들에게 달려 있으며 인공 지능의 성공도 마찬가지입니다. 인공 지능을 적극적으로 수용하는 조직의 경우 AI에 적응하는 기업 문화를 구축하는 것이 중요하며 AI 전략의 성공 또는 실패조차 결정합니다. West Monroe는 최근에 번성하는 AI 친화적 인 기업 문화를 구축하기위한 실용적인 가이드를 발표했으며 다음은 다음과 같습니다. 1. AI의 성공 모델을 명확하게 설명하십시오. 우선, AI가 비즈니스를 강화할 수있는 방법에 대한 명확한 비전이 있어야합니다. 이상적인 AI 운영 문화는 인간과 AI 시스템 간의 작업 프로세스를 자연스럽게 통합 할 수 있습니다. AI는 특정 작업에 능숙하지만 인간은 창의성과 판단에 능숙합니다.

Netflix New Scroll, Meta AI AI의 게임 체인저, Neuralink는 85 억 달러에 달했습니다.May 09, 2025 am 11:22 AM

메타 업그레이드 AI 보조 응용 프로그램 및 웨어러블 AI의 시대가오고 있습니다! ChatGpt와 경쟁하도록 설계된이 앱은 텍스트, 음성 상호 작용, 이미지 생성 및 웹 검색과 같은 표준 AI 기능을 제공하지만 이제 지리적 위치 기능을 처음으로 추가했습니다. 이것은 메타 AI가 자신의 위치와 질문에 대답 할 때보고있는 내용을 알고 있음을 의미합니다. 귀하의 관심사, 위치, 프로필 및 활동 정보를 사용하여 이전에는 불가능한 최신 상황 정보를 제공합니다. 이 앱은 또한 실시간 번역을 지원하여 Ray-Ban 안경의 AI 경험을 완전히 바꾸고 유용성을 크게 향상 시켰습니다. 외국 영화에 대한 관세 부과는 미디어와 문화에 대한 권력의 알몸 운동입니다. 구현되면 AI 및 가상 프로덕션으로 가속됩니다.

오늘이 단계를 수행하여 AI 사이버 범죄로부터 자신을 보호하십시오.May 09, 2025 am 11:19 AM

인공 지능은 사이버 범죄 분야를 혁신하여 새로운 방어 기술을 배우도록 강요하고 있습니다. 사이버 범죄자들은 깊은 위조 및 지능형 사이버 공격과 같은 강력한 인공 지능 기술을 사용하여 전례없는 규모로 사기 및 파괴를 사용하고 있습니다. 글로벌 비즈니스의 87%가 지난해 AI 사이버 범죄를 목표로 한 것으로보고되었습니다. 그렇다면이 현명한 범죄의 물결의 희생자가되는 것을 어떻게 피할 수 있습니까? 개인 및 조직 차원에서 위험을 식별하고 보호 조치를 취하는 방법을 살펴 보겠습니다. 사이버 범죄자가 인공 지능을 사용하는 방법 기술이 발전함에 따라 범죄자들은 개인, 기업 및 정부를 공격 할 수있는 새로운 방법을 지속적으로 찾고 있습니다. 인공 지능의 광범위한 사용은 최신 측면 일 수 있지만 잠재적 인 피해는 전례가 없습니다. 특히 인공 지능

공생 춤 : 인공 및 자연 인식의 고리 탐색May 09, 2025 am 11:13 AM

인공 지능 (AI)과 인간 지능 (NI) 사이의 복잡한 관계는 피드백 루프로 가장 잘 이해됩니다. 인간은 AI를 만들어 인간 활동에 의해 생성 된 데이터에 대해 인간 능력을 향상 시키거나 복제합니다. 이 ai

AI의 가장 큰 비밀 - 제작자는 이해하지 못하고 전문가가 분할May 09, 2025 am 11:09 AM

최첨단 AI 모델을 둘러싼 이해의 부족을 강조한 Anthropic의 최근 진술은 전문가들 사이에서 격렬한 논쟁을 불러 일으켰습니다. 이 불투명도는 진정한 기술 위기입니까, 아니면 단순히 더 많은 소프로가는 길에 일시적인 장애물입니까?

Sarvam AI의 Bulbul-V2 : 인도 최고의 TTS 모델May 09, 2025 am 10:52 AM

인도는 풍부한 언어 태피스트리를 가진 다양한 국가로 지역 간의 원활한 의사 소통을 지속적으로 도전합니다. 그러나 Sarvam의 Bulbul-V2

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

WebStorm Mac 버전

유용한 JavaScript 개발 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.