>기술 주변기기 >일체 포함 >Zhiyuan은 3억 ​​개의 의미 벡터 모델 학습 데이터를 공개했으며 BGE 모델은 계속해서 반복적으로 업데이트됩니다.

Zhiyuan은 3억 ​​개의 의미 벡터 모델 학습 데이터를 공개했으며 BGE 모델은 계속해서 반복적으로 업데이트됩니다.

王林
王林앞으로
2023-09-21 21:33:111430검색

대형 모델의 급속한 발전과 적용으로 인해 대형 모델의 핵심 기본 구성 요소인 Embedding의 중요성이 더욱 부각되고 있습니다. 한 달 전 Zhiyuan Company가 출시한 오픈 소스 상용 중국어 및 영어 의미 벡터 모델 BGE(BAAI General Embedding)는 커뮤니티에서 광범위한 관심을 끌었으며 Hugging Face 플랫폼에서 수십만 번 다운로드되었습니다. 현재 BGE는 버전 1.5를 빠르게 반복적으로 출시하고 여러 업데이트를 발표했습니다. 그 중 BGE는 처음으로 3억 개의 대규모 훈련 데이터를 오픈 소스화하여 커뮤니티에 유사한 모델을 훈련하고 이 분야의 기술 개발을 촉진하는 데 도움을 제공했습니다

BGE의 우수성 그 역량은 주로 대규모의 다양한 학습 데이터에서 비롯됩니다. 이전에는 업계 동료들이 유사한 데이터 세트를 거의 공개하지 않았습니다. 이번 업데이트에서 Zhiyuan은 처음으로 BGE 교육 데이터를 커뮤니티에 공개하여 이러한 유형의 기술 개발을 위한 기반을 마련했습니다.

이번에 공개된 MTP 데이터 세트는 총 3억 개의 중국어 및 영어 관련 텍스트 쌍으로 구성되어 있습니다. 그 중 중국어로 된 레코드가 1억 개, 영어로 된 레코드가 2억 개입니다. 데이터 소스에는 Wudao Corpora, Pile, DuReader, Sentence Transformer 및 기타 말뭉치가 포함됩니다. 필요한 샘플링, 추출 및 청소 후 획득

자세한 내용은 데이터 허브를 참조하세요: https://data.baai.ac.cn

MTP는 최대 오픈 소스 중국어-영어 관련 텍스트 쌍 데이터 세트입니다. 현재까지 중국어와 영어 의미론적 벡터 모델을 훈련하는 데 중요한 기반을 제공하고 있습니다.

개발자 커뮤니티의 반응에 따라 BGE 기능 업그레이드

커뮤니티 피드백을 바탕으로 BGE는 1.0 버전을 기반으로 더욱 최적화되어 성능을 더욱 안정적이고 탁월하게 만들었습니다. 구체적인 업그레이드 내용은 다음과 같습니다.

모델 업데이트. BGE-*-zh-v1.5는 훈련 데이터를 필터링하고, 품질이 낮은 데이터를 삭제하고, 훈련 중 온도 계수를 0.02로 높여 유사성 값을 보다 안정적으로 만들어 유사성 분포 문제를 완화합니다.

새 모델이 추가되었습니다. 오픈 소스 BGE-reranker 크로스 인코더 모델은 관련 텍스트를 보다 정확하게 찾을 수 있으며 중국어 및 영어 이중 언어를 지원합니다. 벡터를 출력해야 하는 벡터 모델과 달리 BGE-reranker는 텍스트 쌍 간의 유사성을 직접 출력하며 순위 정확도가 더 높으며 벡터 리콜 결과를 재정렬하고 최종 결과의 관련성을 높이는 데 사용할 수 있습니다.
  • 새로운 기능. BGE1.1에는 음수가 어려운 샘플 마이닝 스크립트가 추가되어 미세 조정 중 지침을 추가하는 기능이 미세 조정 모델에 추가되어 검색 효과가 효과적으로 향상됩니다. 저장은 자동으로 문장 변환기 형식으로 변환되므로 모델을 더 쉽게 로드할 수 있습니다.
  • 최근 Zhiyuan과 Hugging Face가 C-Pack을 사용하여 중국 보편적 의미 벡터 모델을 향상시킬 것을 제안하는 기술 보고서를 발표했다는 점은 언급할 가치가 있습니다.
  • "C-Pack: 일반 중국어 임베딩을 발전시키기 위한 패키지 리소스"

링크: https://arxiv.org/pdf/2309.07597.pdf

개발자 커뮤니티에서 높은 인기 얻기

BGE는 출시 이후 대규모 모델 개발자 커뮤니티의 주목을 받았습니다. 현재 Hugging Face는 수십만 번 다운로드되었으며 LangChain, LangChain-Chachat, llama_index 등

Langchain 관계자, LangChain 공동 창립자 겸 CEO Harrison Chase, Deep Trading 창립자 Yam Peleg 및 기타 커뮤니티 영향력자들은 BGE에 대한 우려를 표명했습니다.

Zhiyuan은 3억 ​​개의 의미 벡터 모델 학습 데이터를 공개했으며 BGE 모델은 계속해서 반복적으로 업데이트됩니다.

Zhiyuan은 3억 ​​개의 의미 벡터 모델 학습 데이터를 공개했으며 BGE 모델은 계속해서 반복적으로 업데이트됩니다.

오픈 소스와 개방성을 고수하고 협력적 혁신을 촉진하는 Zhiyuan 대형 모델 기술 개발 시스템 FlagOpen BGE는 Embedding 기술과 모델에 초점을 맞춘 새로운 FlagEmbedding 섹션을 추가했습니다. BGE는 주목받는 오픈 소스 프로젝트 중 하나입니다. FlagOpen은 대형 모델 시대의 인공지능 기술 인프라 구축에 최선을 다하고 있으며, 앞으로도 더욱 완성도 높은 대형 모델 풀스택 기술을 학계와 산업계에 지속적으로 공개해 나갈 예정입니다

위 내용은 Zhiyuan은 3억 ​​개의 의미 벡터 모델 학습 데이터를 공개했으며 BGE 모델은 계속해서 반복적으로 업데이트됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제