cari
RumahPeranti teknologiAIJina Embeddings v2: Mengendalikan Dokumen Panjang Mudah

jina embeddings v2: merevolusikan embedding teks dokumen lama

model penyembuhan teks semasa, seperti BERT, dikekang oleh had pemprosesan 512, menghalang prestasi mereka dengan dokumen yang panjang. Batasan ini sering membawa kepada kehilangan konteks dan pemahaman yang tidak tepat. Jina Embeddings v2 melepasi sekatan ini dengan menyokong urutan sehingga 8192 token, memelihara konteks penting dan meningkatkan ketepatan dan kaitan maklumat yang diproses dalam teks yang luas. Ini merupakan kemajuan besar dalam mengendalikan data teks yang kompleks.

Mata Pembelajaran Utama

  • Memahami batasan model tradisional seperti Bert semasa memproses dokumen panjang.
  • belajar bagaimana Jina Embeddings v2 mengatasi batasan-batasan ini melalui kapasiti 8192 dan seni bina lanjutan.
  • Meneroka ciri-ciri inovatif Jina Embeddings v2, termasuk Alibi, Glu, dan metodologi latihan tiga peringkatnya.
  • Menemui aplikasi dunia sebenar dalam penyelidikan undang-undang, pengurusan kandungan, dan ai generatif.
  • Mendapatkan pengalaman praktikal dalam mengintegrasikan Jina Embeddings v2 ke dalam projek menggunakan perpustakaan muka yang memeluk.
Artikel ini adalah sebahagian daripada Blogathon Sains Data.

Jadual Kandungan

cabaran membenamkan dokumen panjang

inovasi seni bina dan metodologi latihan
  • Penilaian Prestasi
  • Aplikasi dunia sebenar
  • perbandingan model
  • Menggunakan Jina Embeddings v2 dengan muka memeluk
  • Kesimpulan
  • Soalan Lazim
  • Cabaran membenamkan dokumen panjang

memproses dokumen panjang memberikan cabaran penting dalam pemprosesan bahasa semulajadi (NLP). Kaedah tradisional memproses teks dalam segmen, yang membawa kepada pemotongan konteks dan embeddings berpecah -belah yang menyalahgunakan dokumen asal. Ini mengakibatkan:

Meningkatkan tuntutan pengiraan

Penggunaan memori yang lebih tinggi
  • Mengurangkan prestasi dalam tugas yang memerlukan pemahaman yang komprehensif mengenai teks
  • Jina Embeddings v2 secara langsung menangani isu -isu ini dengan meningkatkan had token kepada
  • 8192
  • , menghapuskan keperluan untuk segmentasi yang berlebihan dan mengekalkan integriti semantik dokumen.

inovasi seni bina dan metodologi latihan

Jina Embeddings v2 meningkatkan keupayaan Bert dengan inovasi terkini:

  • Perhatian dengan bias linear (alibi): Alibi menggantikan embeddings posisional tradisional dengan bias linear yang digunakan untuk skor perhatian. Ini membolehkan model untuk mengekstrapolasi dengan berkesan ke urutan jauh lebih lama daripada yang ditemui semasa latihan. Tidak seperti pelaksanaan unidirectional sebelumnya, Jina Embeddings v2 menggunakan varian bidirectional, memastikan keserasian dengan tugas pengekodan.
  • unit linear gated (Glu): Glu, yang dikenali untuk meningkatkan kecekapan pengubah, digunakan dalam lapisan feedforward. Varian seperti Geglu dan Reglu digunakan untuk mengoptimumkan prestasi berdasarkan saiz model.
  • Latihan yang dioptimumkan: Jina Embeddings v2 menggunakan proses latihan tiga peringkat:
    • Pretraining: Dilatih di Corpus Crawled Cop Clean (C4) Menggunakan Pemodelan Bahasa bertopeng (MLM).
    • penalaan halus dengan pasangan teks: Aligns embeddings untuk pasangan teks semantik yang serupa.
    • penalaan halus negatif yang keras: Meningkatkan kedudukan dan pengambilan semula dengan memasukkan contoh gangguan yang mencabar.
    • Latihan yang cekap memori: Teknik seperti latihan ketepatan campuran dan pemeriksaan pengaktifan Pastikan skalabilitas untuk saiz batch yang lebih besar, penting untuk pembelajaran kontras.

Jina Embeddings v2: Handling Long Documents Made Easy Alibi Perhatian menggabungkan kecenderungan linear ke dalam setiap skor perhatian sebelum operasi SoftMax. Setiap kepala perhatian menggunakan skalar malar yang unik,

m

, mempelbagaikan perhitungannya. Model ini menggunakan varian encoder di mana semua token menghadiri satu sama lain, tidak seperti varian kausal yang digunakan dalam pemodelan bahasa.

Penilaian Prestasi

Jina Embeddings v2 mencapai prestasi terkini di pelbagai tanda aras, termasuk penanda aras embedding teks besar-besaran (MTEB) dan dataset lama baru. Keputusan utama termasuk: Jina Embeddings v2: Handling Long Documents Made Easy

Klasifikasi:
    Ketepatan teratas dalam tugas -tugas seperti Klasifikasi Amazon Polarity dan Toksik.
  • clustering:
  • Outperforms pesaing dalam pengelompokan teks berkaitan (patenClustering dan wikicitiesclustering).
  • Pengambilan semula: cemerlang dalam tugas -tugas seperti naratif, di mana konteks dokumen lengkap adalah penting.
  • pengendalian dokumen panjang: mengekalkan ketepatan MLM walaupun dengan urutan 8192-token.
  • carta ini membandingkan prestasi model embedding merentasi tugas pengambilan dan kluster dengan pelbagai urutan yang berbeza -beza.
  • Aplikasi dunia nyata

    • Penyelidikan undang -undang dan akademik: sesuai untuk mencari dan menganalisis dokumen undang -undang dan kertas akademik.
    • sistem pengurusan kandungan: penandaan, clustering, dan pengambilan repositori yang besar.
    • Generative AI: Meningkatkan ringkasan AI-Generated dan model berasaskan prompt.
    • e-commerce: Meningkatkan sistem carian dan cadangan produk.

    Perbandingan model

    Jina Embeddings v2 cemerlang bukan sahaja dalam mengendalikan urutan panjang tetapi juga bersaing dengan model proprietari seperti Openai's Text-Embedding-Ada-002. Sifat sumber terbuka memastikan kebolehcapaian.

    Menggunakan Jina Embeddings v2 dengan muka memeluk

    Langkah 1: Pemasangan

!pip install transformers
!pip install -U sentence-transformers

Langkah 2: Menggunakan Jina Embeddings dengan Transformers

import torch
from transformers import AutoModel
from numpy.linalg import norm

cos_sim = lambda a, b: (a @ b.T) / (norm(a) * norm(b))

model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True)

embeddings = model.encode(['How is the weather today?', 'What is the current weather like today?'])

print(cos_sim(embeddings, embeddings))

output:

Jina Embeddings v2: Handling Long Documents Made Easy

Mengendalikan urutan panjang:

embeddings = model.encode(['Very long ... document'], max_length=2048)

Langkah 3: Menggunakan Jina Embeddings dengan Sentnal-Transformers

(kod serupa menggunakan

perpustakaan disediakan, bersama -sama dengan arahan untuk menetapkan sentence_transformers.) max_seq_length

Jina Embeddings v2: Handling Long Documents Made Easy

Kesimpulan

Jina Embeddings v2 adalah kemajuan yang signifikan dalam NLP, dengan berkesan menangani batasan memproses dokumen panjang. Keupayaannya meningkatkan aliran kerja yang sedia ada dan membuka kunci kemungkinan baru untuk bekerja dengan teks jangka panjang.

Takeaways Key

(diringkaskan mata utama dari kesimpulan asal)

Soalan Lazim

(Jawapan yang diringkaskan kepada Soalan Lazim)

Nota: Imej dikekalkan dalam format dan lokasi asalnya.

Atas ialah kandungan terperinci Jina Embeddings v2: Mengendalikan Dokumen Panjang Mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Panduan komprehensif untuk ekstrapolasiPanduan komprehensif untuk ekstrapolasiApr 15, 2025 am 11:38 AM

Pengenalan Katakan ada petani yang setiap hari memerhatikan kemajuan tanaman dalam beberapa minggu. Dia melihat kadar pertumbuhan dan mula merenungkan betapa lebih tinggi tumbuhannya dapat tumbuh dalam beberapa minggu lagi. Dari th

Kebangkitan AI lembut dan apa maksudnya untuk perniagaan hari iniKebangkitan AI lembut dan apa maksudnya untuk perniagaan hari iniApr 15, 2025 am 11:36 AM

Soft AI-yang ditakrifkan sebagai sistem AI yang direka untuk melaksanakan tugas-tugas tertentu yang sempit menggunakan penalaran, pengiktirafan corak, dan pengambilan keputusan yang fleksibel-bertujuan untuk meniru pemikiran seperti manusia dengan merangkul kekaburan. Tetapi apa maksudnya untuk busine

Rangka kerja keselamatan yang berkembang untuk sempadan AIRangka kerja keselamatan yang berkembang untuk sempadan AIApr 15, 2025 am 11:34 AM

Jawapannya jelas-seperti pengkomputeran awan memerlukan peralihan ke arah alat keselamatan awan asli, AI menuntut satu penyelesaian keselamatan baru yang direka khusus untuk keperluan unik AI. Kebangkitan pengkomputeran awan dan pelajaran keselamatan dipelajari Dalam th

3 cara AI Generatif menguatkan usahawan: berhati -hati dengan purata!3 cara AI Generatif menguatkan usahawan: berhati -hati dengan purata!Apr 15, 2025 am 11:33 AM

Usahawan dan menggunakan AI dan Generatif AI untuk menjadikan perniagaan mereka lebih baik. Pada masa yang sama, adalah penting untuk mengingati AI generatif, seperti semua teknologi, adalah penguat - menjadikan yang hebat dan yang biasa -biasa saja, lebih buruk. Kajian 2024 yang ketat o

Kursus Pendek Baru mengenai Model Embedding oleh Andrew NgKursus Pendek Baru mengenai Model Embedding oleh Andrew NgApr 15, 2025 am 11:32 AM

Buka kunci kekuatan model embedding: menyelam jauh ke kursus baru Andrew Ng Bayangkan masa depan di mana mesin memahami dan menjawab soalan anda dengan ketepatan yang sempurna. Ini bukan fiksyen sains; Terima kasih kepada kemajuan dalam AI, ia menjadi R

Adakah halusinasi dalam model bahasa besar (LLMS) tidak dapat dielakkan?Adakah halusinasi dalam model bahasa besar (LLMS) tidak dapat dielakkan?Apr 15, 2025 am 11:31 AM

Model bahasa besar (LLM) dan masalah halusinasi yang tidak dapat dielakkan Anda mungkin menggunakan model AI seperti ChatGPT, Claude, dan Gemini. Ini semua contoh model bahasa besar (LLM), sistem AI yang kuat yang dilatih dalam dataset teks besar -besaran ke

Masalah 60% - Bagaimana carian AI mengalir trafik andaMasalah 60% - Bagaimana carian AI mengalir trafik andaApr 15, 2025 am 11:28 AM

Penyelidikan baru-baru ini telah menunjukkan bahawa gambaran AI boleh menyebabkan penurunan 15-64% dalam trafik organik, berdasarkan jenis industri dan carian. Perubahan radikal ini menyebabkan pemasar untuk menimbang semula keseluruhan strategi mereka mengenai penglihatan digital. Yang baru

Makmal Media MIT untuk meletakkan manusia berkembang di tengah -tengah AI R & DMakmal Media MIT untuk meletakkan manusia berkembang di tengah -tengah AI R & DApr 15, 2025 am 11:26 AM

Laporan baru -baru ini dari Elon University Imagining the Digital Future Centre meninjau hampir 300 pakar teknologi global. Laporan yang dihasilkan, 'Menjadi Manusia pada tahun 2035', menyimpulkan bahawa kebanyakannya bimbang bahawa penggunaan sistem AI yang mendalam lebih daripada t

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Arahan sembang dan cara menggunakannya
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

PhpStorm versi Mac

PhpStorm versi Mac

Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual