Rumah >Peranti teknologi >AI >Jina Embeddings v2: Mengendalikan Dokumen Panjang Mudah
jina embeddings v2: merevolusikan embedding teks dokumen lama
model penyembuhan teks semasa, seperti BERT, dikekang oleh had pemprosesan 512, menghalang prestasi mereka dengan dokumen yang panjang. Batasan ini sering membawa kepada kehilangan konteks dan pemahaman yang tidak tepat. Jina Embeddings v2 melepasi sekatan ini dengan menyokong urutan sehingga 8192 token, memelihara konteks penting dan meningkatkan ketepatan dan kaitan maklumat yang diproses dalam teks yang luas. Ini merupakan kemajuan besar dalam mengendalikan data teks yang kompleks.
Jadual Kandungan
cabaran membenamkan dokumen panjang
inovasi seni bina dan metodologi latihanmemproses dokumen panjang memberikan cabaran penting dalam pemprosesan bahasa semulajadi (NLP). Kaedah tradisional memproses teks dalam segmen, yang membawa kepada pemotongan konteks dan embeddings berpecah -belah yang menyalahgunakan dokumen asal. Ini mengakibatkan:
Meningkatkan tuntutan pengiraanPenggunaan memori yang lebih tinggi
inovasi seni bina dan metodologi latihan
Jina Embeddings v2 meningkatkan keupayaan Bert dengan inovasi terkini: , mempelbagaikan perhitungannya. Model ini menggunakan varian encoder di mana semua token menghadiri satu sama lain, tidak seperti varian kausal yang digunakan dalam pemodelan bahasa.
Jina Embeddings v2 mencapai prestasi terkini di pelbagai tanda aras, termasuk penanda aras embedding teks besar-besaran (MTEB) dan dataset lama baru. Keputusan utama termasuk: Aplikasi dunia nyata Perbandingan model Jina Embeddings v2 cemerlang bukan sahaja dalam mengendalikan urutan panjang tetapi juga bersaing dengan model proprietari seperti Openai's Text-Embedding-Ada-002. Sifat sumber terbuka memastikan kebolehcapaian. Menggunakan Jina Embeddings v2 dengan muka memeluk Langkah 1: Pemasangan Langkah 2: Menggunakan Jina Embeddings dengan Transformers output: Mengendalikan urutan panjang:
Langkah 3: Menggunakan Jina Embeddings dengan Sentnal-Transformers
perpustakaan disediakan, bersama -sama dengan arahan untuk menetapkan
Jina Embeddings v2 adalah kemajuan yang signifikan dalam NLP, dengan berkesan menangani batasan memproses dokumen panjang. Keupayaannya meningkatkan aliran kerja yang sedia ada dan membuka kunci kemungkinan baru untuk bekerja dengan teks jangka panjang. (diringkaskan mata utama dari kesimpulan asal)
(Jawapan yang diringkaskan kepada Soalan Lazim)
Nota: Imej dikekalkan dalam format dan lokasi asalnya.
Alibi Perhatian menggabungkan kecenderungan linear ke dalam setiap skor perhatian sebelum operasi SoftMax. Setiap kepala perhatian menggunakan skalar malar yang unik,
Ketepatan teratas dalam tugas -tugas seperti Klasifikasi Amazon Polarity dan Toksik.
carta ini membandingkan prestasi model embedding merentasi tugas pengambilan dan kluster dengan pelbagai urutan yang berbeza -beza.
!pip install transformers
!pip install -U sentence-transformers
import torch
from transformers import AutoModel
from numpy.linalg import norm
cos_sim = lambda a, b: (a @ b.T) / (norm(a) * norm(b))
model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True)
embeddings = model.encode(['How is the weather today?', 'What is the current weather like today?'])
print(cos_sim(embeddings, embeddings))
embeddings = model.encode(['Very long ... document'], max_length=2048)
sentence_transformers
.) max_seq_length
Atas ialah kandungan terperinci Jina Embeddings v2: Mengendalikan Dokumen Panjang Mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!