Rumah >Peranti teknologi >AI >Jina Embeddings v2: Mengendalikan Dokumen Panjang Mudah

Jina Embeddings v2: Mengendalikan Dokumen Panjang Mudah

William Shakespeare
William Shakespeareasal
2025-03-09 10:01:08710semak imbas

jina embeddings v2: merevolusikan embedding teks dokumen lama

model penyembuhan teks semasa, seperti BERT, dikekang oleh had pemprosesan 512, menghalang prestasi mereka dengan dokumen yang panjang. Batasan ini sering membawa kepada kehilangan konteks dan pemahaman yang tidak tepat. Jina Embeddings v2 melepasi sekatan ini dengan menyokong urutan sehingga 8192 token, memelihara konteks penting dan meningkatkan ketepatan dan kaitan maklumat yang diproses dalam teks yang luas. Ini merupakan kemajuan besar dalam mengendalikan data teks yang kompleks.

Mata Pembelajaran Utama

  • Memahami batasan model tradisional seperti Bert semasa memproses dokumen panjang.
  • belajar bagaimana Jina Embeddings v2 mengatasi batasan-batasan ini melalui kapasiti 8192 dan seni bina lanjutan.
  • Meneroka ciri-ciri inovatif Jina Embeddings v2, termasuk Alibi, Glu, dan metodologi latihan tiga peringkatnya.
  • Menemui aplikasi dunia sebenar dalam penyelidikan undang-undang, pengurusan kandungan, dan ai generatif.
  • Mendapatkan pengalaman praktikal dalam mengintegrasikan Jina Embeddings v2 ke dalam projek menggunakan perpustakaan muka yang memeluk.
Artikel ini adalah sebahagian daripada Blogathon Sains Data.

Jadual Kandungan

cabaran membenamkan dokumen panjang

inovasi seni bina dan metodologi latihan
  • Penilaian Prestasi
  • Aplikasi dunia sebenar
  • perbandingan model
  • Menggunakan Jina Embeddings v2 dengan muka memeluk
  • Kesimpulan
  • Soalan Lazim
  • Cabaran membenamkan dokumen panjang

memproses dokumen panjang memberikan cabaran penting dalam pemprosesan bahasa semulajadi (NLP). Kaedah tradisional memproses teks dalam segmen, yang membawa kepada pemotongan konteks dan embeddings berpecah -belah yang menyalahgunakan dokumen asal. Ini mengakibatkan:

Meningkatkan tuntutan pengiraan

Penggunaan memori yang lebih tinggi
  • Mengurangkan prestasi dalam tugas yang memerlukan pemahaman yang komprehensif mengenai teks
  • Jina Embeddings v2 secara langsung menangani isu -isu ini dengan meningkatkan had token kepada
  • 8192
  • , menghapuskan keperluan untuk segmentasi yang berlebihan dan mengekalkan integriti semantik dokumen.

inovasi seni bina dan metodologi latihan

Jina Embeddings v2 meningkatkan keupayaan Bert dengan inovasi terkini:

  • Perhatian dengan bias linear (alibi): Alibi menggantikan embeddings posisional tradisional dengan bias linear yang digunakan untuk skor perhatian. Ini membolehkan model untuk mengekstrapolasi dengan berkesan ke urutan jauh lebih lama daripada yang ditemui semasa latihan. Tidak seperti pelaksanaan unidirectional sebelumnya, Jina Embeddings v2 menggunakan varian bidirectional, memastikan keserasian dengan tugas pengekodan.
  • unit linear gated (Glu): Glu, yang dikenali untuk meningkatkan kecekapan pengubah, digunakan dalam lapisan feedforward. Varian seperti Geglu dan Reglu digunakan untuk mengoptimumkan prestasi berdasarkan saiz model.
  • Latihan yang dioptimumkan: Jina Embeddings v2 menggunakan proses latihan tiga peringkat:
    • Pretraining: Dilatih di Corpus Crawled Cop Clean (C4) Menggunakan Pemodelan Bahasa bertopeng (MLM).
    • penalaan halus dengan pasangan teks: Aligns embeddings untuk pasangan teks semantik yang serupa.
    • penalaan halus negatif yang keras: Meningkatkan kedudukan dan pengambilan semula dengan memasukkan contoh gangguan yang mencabar.
    • Latihan yang cekap memori: Teknik seperti latihan ketepatan campuran dan pemeriksaan pengaktifan Pastikan skalabilitas untuk saiz batch yang lebih besar, penting untuk pembelajaran kontras.

Jina Embeddings v2: Handling Long Documents Made Easy Alibi Perhatian menggabungkan kecenderungan linear ke dalam setiap skor perhatian sebelum operasi SoftMax. Setiap kepala perhatian menggunakan skalar malar yang unik,

m

, mempelbagaikan perhitungannya. Model ini menggunakan varian encoder di mana semua token menghadiri satu sama lain, tidak seperti varian kausal yang digunakan dalam pemodelan bahasa.

Penilaian Prestasi

Jina Embeddings v2 mencapai prestasi terkini di pelbagai tanda aras, termasuk penanda aras embedding teks besar-besaran (MTEB) dan dataset lama baru. Keputusan utama termasuk: Jina Embeddings v2: Handling Long Documents Made Easy

Klasifikasi:
    Ketepatan teratas dalam tugas -tugas seperti Klasifikasi Amazon Polarity dan Toksik.
  • clustering:
  • Outperforms pesaing dalam pengelompokan teks berkaitan (patenClustering dan wikicitiesclustering).
  • Pengambilan semula: cemerlang dalam tugas -tugas seperti naratif, di mana konteks dokumen lengkap adalah penting.
  • pengendalian dokumen panjang: mengekalkan ketepatan MLM walaupun dengan urutan 8192-token.
  • carta ini membandingkan prestasi model embedding merentasi tugas pengambilan dan kluster dengan pelbagai urutan yang berbeza -beza.
  • Aplikasi dunia nyata

    • Penyelidikan undang -undang dan akademik: sesuai untuk mencari dan menganalisis dokumen undang -undang dan kertas akademik.
    • sistem pengurusan kandungan: penandaan, clustering, dan pengambilan repositori yang besar.
    • Generative AI: Meningkatkan ringkasan AI-Generated dan model berasaskan prompt.
    • e-commerce: Meningkatkan sistem carian dan cadangan produk.

    Perbandingan model

    Jina Embeddings v2 cemerlang bukan sahaja dalam mengendalikan urutan panjang tetapi juga bersaing dengan model proprietari seperti Openai's Text-Embedding-Ada-002. Sifat sumber terbuka memastikan kebolehcapaian.

    Menggunakan Jina Embeddings v2 dengan muka memeluk

    Langkah 1: Pemasangan

!pip install transformers
!pip install -U sentence-transformers

Langkah 2: Menggunakan Jina Embeddings dengan Transformers

import torch
from transformers import AutoModel
from numpy.linalg import norm

cos_sim = lambda a, b: (a @ b.T) / (norm(a) * norm(b))

model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True)

embeddings = model.encode(['How is the weather today?', 'What is the current weather like today?'])

print(cos_sim(embeddings, embeddings))

output:

Jina Embeddings v2: Handling Long Documents Made Easy

Mengendalikan urutan panjang:

embeddings = model.encode(['Very long ... document'], max_length=2048)

Langkah 3: Menggunakan Jina Embeddings dengan Sentnal-Transformers

(kod serupa menggunakan

perpustakaan disediakan, bersama -sama dengan arahan untuk menetapkan sentence_transformers.) max_seq_length

Jina Embeddings v2: Handling Long Documents Made Easy

Kesimpulan

Jina Embeddings v2 adalah kemajuan yang signifikan dalam NLP, dengan berkesan menangani batasan memproses dokumen panjang. Keupayaannya meningkatkan aliran kerja yang sedia ada dan membuka kunci kemungkinan baru untuk bekerja dengan teks jangka panjang.

Takeaways Key

(diringkaskan mata utama dari kesimpulan asal)

Soalan Lazim

(Jawapan yang diringkaskan kepada Soalan Lazim)

Nota: Imej dikekalkan dalam format dan lokasi asalnya.

Atas ialah kandungan terperinci Jina Embeddings v2: Mengendalikan Dokumen Panjang Mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel sebelumnya:Tutorial API Pembantu TerbukaArtikel seterusnya:Tutorial API Pembantu Terbuka