Jina Embeddings v2 : 장거리 문서 텍스트 임베딩 혁신 혁신
Bert와 같은 현재 텍스트 임베딩 모델은 512- 점 처리 한계에 의해 제한되어 긴 문서로 성능을 방해합니다. 이 제한은 종종 상황 상실과 부정확 한 이해로 이어집니다. Jina Embeddings V2는 최대 8192 개의 토큰의 시퀀스를 지원하여 중요한 상황을 보존하고 광범위한 텍스트 내에서 처리 된 정보의 정확성과 관련성을 크게 향상시켜 이러한 제한을 능가합니다. 이것은 복잡한 텍스트 데이터를 처리하는 데 큰 발전을 나타냅니다.
주요 학습 포인트
긴 문서를 처리 할 때 BERT와 같은 전통적인 모델의 한계 이해.
Jina Embeddings V2가 8192-Token 용량 및 고급 아키텍처를 통해 이러한 제한을 극복하는 방법을 배우는 것.
Alibi, GLU 및 3 단계 교육 방법을 포함한 Jina Imbeddings v2의 혁신적인 특징 탐색.
법률 연구, 컨텐츠 관리 및 생성 AI에서 실제 응용 프로그램 발견
Jina Embeddings v2를 포옹 페이스 라이브러리를 사용하여 프로젝트에 통합하는 실질적인 경험을 얻는 것.
이 기사는 데이터 과학 블로그의 일부입니다.
목차 -
-
긴 문서를 포함시키는 문제
건축 혁신 및 훈련 방법론
-
성능 평가
실제 응용 프로그램
모델 비교
포옹 페이스 와 함께 Jina Embeddings v2를 사용합니다
결론
자주 묻는 질문 -
- 긴 문서를 포함시키는 과제
긴 문서 처리는 NLP (Natural Language Processing)에서 중요한 과제를 제시합니다. 전통적인 방법은 세그먼트에서 텍스트를 처리하여 컨텍스트 잘린 텍스트와 단편화 된 임베딩으로 이어지는 원본 문서를 잘못 표현합니다. 이것은 다음과 같은 결과를 초래합니다
계산 수요 증가
더 높은 메모리 소비
텍스트에 대한 포괄적 인 이해가 필요한 작업의 성능 감소
Jina Embeddings v2는 토큰 제한을 8192 로 늘려서 이러한 문제를 직접 해결하여 과도한 세분화의 필요성을 제거하고 문서의 의미 론적 무결성을 유지합니다.
.
건축 혁신 및 훈련 방법론
Jina Embeddings v2는 최첨단 혁신으로 Bert의 기능을 향상시킵니다
선형 바이어스 (ALIBI)를 사용한주의 ALIBI는 전통적인 위치 임베드를주의 점수에 적용되는 선형 바이어스로 대체합니다. 이를 통해 모델은 훈련 중에 발생하는 것보다 훨씬 긴 서열에 효과적으로 외삽 할 수 있습니다. 이전의 단방향 구현과 달리 Jina Embeddings V2는 양방향 변형을 사용하여 인코딩 작업과의 호환성을 보장합니다.
GATED LINEAR UNITS (GLU) : 변압기 효율을 향상시키는 것으로 알려진 GLU는 피드 포워드 레이어에 사용됩니다. GEGLU 및 Reglu와 같은 변형은 모델 크기에 따라 성능을 최적화하기 위해 사용됩니다.
최적화 된 교육 : Jina Embeddings V2는 3 단계 교육 과정을 사용합니다.
프리 트레인 : - 마스킹 언어 모델링 (MLM)을 사용하여 거대한 깨끗한 크롤링 코퍼스 (C4)에서 훈련.
텍스트 쌍으로 미세 조정 : 의미 적으로 유사한 텍스트 쌍에 대한 임베딩을 정렬합니다.
하드 부정적인 미세 조정 :
도전적인 산만 예제를 통합하여 순위와 검색을 향상시킵니다. -
메모리 효율적인 훈련 : 혼합 정밀 훈련 및 활성화 체크 포인트와 같은 기술은 더 큰 배치 크기에 대한 확장 성을 보장하고 대조적 학습에 중요합니다.
-
ALIBI주의는 SoftMax 작동 전에 각주의 점수에 선형 바이어스를 통합합니다. 각주의 헤드는 고유 한 상수 스칼라 인 를 사용하여 계산을 다양 화합니다. 이 모델은 언어 모델링에 사용되는 인과 적 변형과 달리 모든 토큰이 서로 참석하는 인코더 변형을 사용합니다.
성능 평가
-
Jina Embeddings V2는 MTEB (Massive Text Embedding Benchmark) 및 새로운 장거리 용문 데이터 세트를 포함하여 다양한 벤치 마크에서 최첨단 성과를 달성합니다. 주요 결과는 다음과 같습니다
분류 : Amazon Polarity 및 Toxic Conversations Classion과 같은 작업의 최고 정확도.
클러스터링 :
는 그룹화 관련 텍스트 (PatentClustering 및 WikicitiesClustering)에서 경쟁자를 능가합니다.
검색 : - 는 전체 문서 문맥이 중요한 내러티브 QA와 같은 작업에서 탁월합니다.
긴 문서 처리 : 8192-Token 시퀀스에서도 MLM 정확도를 유지합니다.
-
이 차트는 다양한 시퀀스 길이를 가진 검색 및 클러스터링 작업에 대한 모델 성능을 포함시키는 것과 비교합니다. 실제 응용 프로그램
법률 및 학술 연구 : 법률 문서 및 학술 논문을 검색하고 분석하는 데 이상적입니다.
컨텐츠 관리 시스템 : 대형 문서 저장소의 효율적인 태그, 클러스터링 및 검색.
생성 AI :
는 AI 생성 요약 및 프롬프트 기반 모델을 향상시킵니다
e- 커머스 : 제품 검색 및 권장 시스템을 개선합니다
-
모델 비교
Jina Embeddings v2는 긴 시퀀스를 처리 할뿐만 아니라 OpenAi의 텍스트-엠 베드 딩 -ADA-002와 같은 독점 모델과 경쟁 할 때도 탁월합니다. 오픈 소스 특성은 접근성을 보장합니다
포옹 페이스와 함께 Jina Embeddings v2를 사용하는
1 단계 : 설치
-
2 단계 : 변압기와 함께 JINA 임베딩 사용
출력 :
-
긴 시퀀스 처리 :
-
3 단계 : 문장 전송 자와 함께 Jina 임베딩 사용
(를 사용하는 유사한 코드가 제공되며 를 설정하는 지침과 함께 제공됩니다.)
결론
Jina Embeddings v2는 NLP의 상당한 발전으로 긴 문서 처리의 한계를 효과적으로 해결합니다. 그 기능은 기존 워크 플로를 향상시키고 긴 형식의 텍스트로 작업 할 수있는 새로운 가능성을 잠금 해제합니다.
키 테이크 아웃 (원래 결론에서 요약 된 핵심 요점)
자주 묻는 질문 (FAQ에 대한 요약 답변)
참고 : 이미지는 원래 형식과 위치로 유지됩니다.
위 내용은 Jina Embeddings v2 : 긴 문서 처리가 쉬워졌습니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!