Gemini Embedding: Model Embedding Teks Berbilang Bahasa di bawah Rangka Kerja Google Gemini
Penyembuhan perkataan adalah penting untuk tugas pemprosesan bahasa semulajadi (NLP) dalam bahasa Hindi, seperti terjemahan mesin, soalan dan jawapan, dan pengambilan maklumat. Lembaran ini menangkap sifat-sifat semantik kata-kata, membolehkan aplikasi NLP yang lebih tepat dan berorientasikan konteks. Memandangkan sejumlah besar penceramah Hindi dan jumlah kandungan bahasa Hindi yang semakin meningkat, embedding berkualiti tinggi adalah penting untuk meningkatkan prestasi NLP dalam bahasa-bahasa ini. Penyembuhan yang disesuaikan secara khusus dapat menyelesaikan ciri -ciri bahasa yang unik dan batasan sumber keluarga bahasa India. Model Embedding Gemini yang baru dikeluarkan mewakili kemajuan yang signifikan dalam membenamkan teks berbilang bahasa, memanfaatkan rangka kerja Gemini AI yang kuat untuk mencapai prestasi terkini dalam lebih dari 100 bahasa.
Model penyembuhan Gemini adalah baik pada tugas -tugas seperti klasifikasi, pengambilan semula dan carian semantik, memberikan kecekapan dan ketepatan yang lebih besar. Dengan menyokong skala input yang lebih besar dan output dimensi yang lebih tinggi, embedding Gemini menyediakan perwakilan teks yang lebih kaya, membolehkannya digunakan secara meluas dalam pelbagai aplikasi.
Objektif pembelajaran
- Ketahui mengenai penyembuhan Gemini dan integrasinya dengan Gemini LLM.
- Tutorial praktikal untuk mendapatkan dokumen Hindi menggunakan Gemini Embed.
- Analisis perbandingan dengan Jina AI Embedding dan Multilingual-E5-besar.
- Wawasan mengenai keupayaan dan aplikasi pengambilan teks berbilang bahasa.
*Artikel ini diterbitkan sebagai sebahagian daripada *** Blog Sains Data Marathon . ***
Jadual Kandungan
- Apakah penyembuhan Gemini?
- Ciri -ciri utama penyembuhan Gemini
- Senibina Model Terbenam Gemini
- Perbandingan dengan model penyembuhan berbilang bahasa lain
- Pengambilan semula menggunakan Gemini Embedding dan dibandingkan dengan Jina Ai Embedding dan Multilingual-E5-Large
- Langkah 1. Pasang perpustakaan yang diperlukan
- Langkah 2. Muatkan data
- Langkah 3. Sekat data
- Langkah 4. Simpan data dalam pangkalan data vektor
- Langkah 5. Menanyakan pangkalan data
- Langkah 6. Bandingkan dengan Jina Ai Embedding
- Perbandingan output carian tertanam
- Jelaskan
- kesimpulannya
- Soalan yang sering ditanya
Apakah penyembuhan Gemini?
Pada bulan Mac 2025, Google mengeluarkan model teks Embedding Gemini yang baru (Gemini-Embedding-ExP-03-07) yang boleh digunakan dalam API Gemini.
Model embedding maju berasal dari model Gemini, yang dikatakan mewarisi pemahaman Gemini yang mendalam tentang nuansa bahasa dan konteks halus, membolehkannya digunakan secara meluas dalam pelbagai aplikasi. Ia menduduki tempat pertama dalam ranking berbilang bahasa MTEB.
Embedding Gemini mewakili teks sebagai vektor padat di mana input teks dengan semantik yang sama dipetakan ke vektor dalam ruang vektor yang berdekatan antara satu sama lain. Pada masa ini, ia menyokong lebih daripada 100 bahasa, dan embeddingnya boleh digunakan untuk pelbagai tugas seperti pengambilan dan klasifikasi.
Ciri -ciri utama penyembuhan Gemini
- Keupayaan berbilang bahasa yang kuat : Model ini menunjukkan prestasi cemerlang dalam lebih dari 100 bahasa, bukan sahaja dalam bahasa sumber tinggi seperti bahasa Inggeris, tetapi juga dalam bahasa sumber rendah seperti Assamese dan Macedonian.
- Memproses sehingga 8000 Tag Input : Keupayaan yang kuat ini membolehkan model untuk mengendalikan dokumen yang panjang atau pertanyaan kompleks tanpa pemotongan, dengan itu mengekalkan konteks dan makna dengan cara yang melampaui banyak model tertanam yang sedia ada.
- Dimensi output untuk dimensi 3K : Model ini menghasilkan dimensi tertanam sehingga 3072 dan menyokong sub-dimensi seperti 768 dan 1536 untuk pengoptimuman khusus tugas.
- Prestasi yang mengagumkan : Gemini Embedding menduduki tempat pertama dalam penanda aras embedding teks besar -besaran (MTEB), dengan skor tugas purata 68.32, dengan ketara melampaui pesaing terdekatnya.
Senibina Model Terbenam Gemini
Inti embedding Gemini didasarkan pada seni bina pengubah dan dimulakan dari Gemini LLM. Asas ini memberikan pemahaman yang mendalam tentang struktur bahasa dan semantik untuk model. Model ini menggunakan mekanisme perhatian dua arah untuk memproses urutan input supaya ia dapat mengambil kira konteks penuh perkataan atau frasa ketika menghasilkan embedding.
- Urutan input T diproses oleh M (pengubah dengan perhatian bidirectional, diasaskan dari Gemini), mengakibatkan urutan penanda penanda.
- Untuk menghasilkan satu penyembuhan yang mewakili semua maklumat dalam input, fungsi penyatuan digunakan.
- Akhirnya, unjuran linear digunakan untuk skala embedding ke dimensi sasaran, mengakibatkan penanaman output akhir.
Fungsi Kerugian : Model Embedding Gemini dilatih menggunakan kerugian anggaran perbandingan bunyi (NCE) dengan contoh negatif dalam batch. Kehilangan sebenar akan berbeza -beza sedikit bergantung pada fasa latihan. Secara umumnya, contoh latihan termasuk pertanyaan, sasaran positif, dan (pilihan) sasaran yang sukar.
Strategi latihan
- Pra-Penalaan : Pada peringkat ini, model dilatih pada dataset pelbagai pelbagai yang mengandungi pasangan sasaran pertanyaan. Pendedahan ini menyesuaikan parameter model bahasa besar untuk tugas pengekodan, meletakkan asas untuk penyesuaian mereka.
- Penalaan halus : Pada fasa kedua, model menggunakan dataset khusus tugas yang mengandungi tiga contoh pertanyaan-positif-dificult-negatif. Proses ini menggunakan saiz batch yang lebih kecil dan dataset yang dikendalikan dengan baik untuk meningkatkan prestasi tugas sasaran.
Baca Juga: Gemini Embedding: Universal Embedding dari Gemini
Perbandingan dengan model penyembuhan berbilang bahasa lain
Kami membandingkan pencarian dokumen Hindi dengan embedding Gemini yang baru dikeluarkan dan kemudian membandingkannya dengan embeddings Jina AI dan embeddings berbilang bahasa-E5-besar. Seperti yang ditunjukkan dalam jadual berikut, Gemini Embedding dan Jina Ai Embedding adalah tinggi dari segi bilangan maksimum tag, yang membolehkan model mengendalikan dokumen panjang atau pertanyaan kompleks. Tambahan pula, seperti yang ditunjukkan dalam jadual berikut, embeddings Gemini mempunyai dimensi embedding yang lebih tinggi yang menangkap hubungan semantik yang lebih terperinci dan bernuansa antara kata -kata, yang membolehkan model mewakili perbezaan nuanced dalam corak bahasa dan makna yang kompleks.
Bilangan parameter | Dimensi Embed | Tanda maksimum | Bilangan bahasa | Doll Embedding | |
Gemini-embedding-exp-03-07 | tidak diketahui | 3072 | 8192 | 100 | Menyokong pemotongan embeddings ke pelbagai saiz, seperti 2048, 1024, 512, 256, dan 128 dimensi, |
Jinaai/Jina-embeddings-V3 | 572 juta | 1024 | 8194 | 100 | Menyokong saiz embed fleksibel (32, 64, 128, 256, 512, 768, 1024), yang membolehkan embeds dipotong agar sesuai dengan aplikasi anda |
Multiple-e5-Large-Instruct | 560 juta | 1024 | 514 | 94 | Na |
Pengambilan semula menggunakan Gemini Embedding dan dibandingkan dengan Jina Ai Embedding dan Multilingual-E5-Large
Dalam tutorial praktikal berikut, kami membandingkan carian dokumen Hindi dengan embedding Gemini yang baru dikeluarkan dan kemudian membandingkannya dengan embeddings Jina AI dan embeddings berbilang bahasa-E5-besar.
Langkah 1. Pasang perpustakaan yang diperlukan
<code>!pip install langchain-community !pip install chromadb</code>
Langkah 2. Muatkan data
Kami menggunakan data Hindi dari laman web untuk menilai prestasi Gemini yang membenamkan dalam pengambilan bahasa Hindi.
<code>from langchain_community.document_loaders import WebBaseLoader loader = WebBaseLoader("https://ckbirlahospitals.com/rbh/blog/pregnancy-early-symptoms-in-hindi") data = loader.load()</code>
Langkah 3. Sekat data
Kod berikut menggunakan recursiveCharactertextsplitter untuk memecah dokumen teks besar ke dalam 500 aksara karakter tanpa pertindihan. Ia kemudian menggunakan perpecahan ini ke Datavariable dan menyimpan hasilnya dalam All_splits. Oleh kerana batas kadar API embedding Gemini, kami hanya menggunakan 10 pecahan.
<code>from langchain_text_splitters import RecursiveCharacterTextSplitter text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0) all_splits = text_splitter.split_documents(data) all_splits = all_splits[:10]</code>
Langkah 4. Simpan data dalam pangkalan data vektor
Kami mula -mula mencipta kelas yang dipanggil "GeminiembeddingFunction" yang membantu menanyakan API penyembuhan Gemini dan mengembalikan nilai tertanam pertanyaan input. Kami kemudian membuat fungsi yang dipanggil "create_chroma_db" untuk membuat koleksi di Chromadb yang akan menyimpan data serta dibenamkan.
<code>import chromadb from chromadb import Documents, EmbeddingFunction, Embeddings class GeminiEmbeddingFunction(EmbeddingFunction): def __call__(self, input: Documents) -> Embeddings: title = "Custom query" return client.models.embed_content( model="gemini-embedding-exp-03-07", contents=input).embeddings[0].values def create_chroma_db(documents, name): chroma_client = chromadb.Client() db = chroma_client.create_collection(name=name, embedding_function=GeminiEmbeddingFunction()) for i, d in enumerate(documents): db.add( documents=d.page_content, ids=str(i) ) return db db = create_chroma_db(all_splits, "datab")</code>
Langkah 5. Menanyakan pangkalan data
<code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("आपको प्रेगनेंसी टेस्ट कब करवाना चाहिए?", db) print(passage)</code>
Langkah 6. Bandingkan dengan Jina Ai Embedding
Kod berikut menggunakan model Transformer Face Hugging untuk menentukan fungsi penyembuhan tersuai, serta cara untuk memproses input teks untuk menghasilkan embeddings.
- Autotokenizer dan automodel dari Transformers digunakan untuk memuatkan model pretrained (Jinaai/Jina-embeddings-V3) dan import embeddingfunction dari ChromAdb untuk mewujudkan embeddings tersuai.
- Fungsi purata_pool: Fungsi ini mengagregatkan keadaan tersembunyi model dengan melakukan operasi pengumpulan pada model, purata panjang urutan sambil mengambil topeng perhatian (mengabaikan tanda mengisi).
- CustomHuggingFace Class: Ia memaksimumkan teks, memakannya ke dalam model, dan mengira embedding menggunakan fungsi purata_pool. Hasilnya dikembalikan sebagai senarai tertanam.
<code>from transformers import AutoTokenizer, AutoModel from chromadb import EmbeddingFunction tokenizer = AutoTokenizer.from_pretrained('jinaai/jina-embeddings-v3') model = AutoModel.from_pretrained('jinaai/jina-embeddings-v3') # the model returns many hidden states per document so we must aggregate them def average_pool(last_hidden_states, attention_mask): last_hidden = last_hidden_states.masked_fill(~attention_mask[...,None].bool(), 0.0) return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[...,None] class CustomHuggingFace(EmbeddingFunction): def __call__(self, texts): queries = [f'query: {text}' for text in texts] batch_dict = tokenizer(texts, max_length=512, padding=True, truncation=True, return_tensors='pt') outputs = model(**batch_dict) embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask']) return embeddings.tolist()</code>
Pertanyaan
<code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("आपको प्रेगनेंसी टेस्ट कब करवाना चाहिए?", db) print(passage)</code>
Untuk memilih Multiple-E5-Large Embed , kami hanya menggantikan Tokenizer dan Model dengan "Intfloat/Multilingual-E5-Large-Instruct".
Perbandingan output carian tertanam
Nombor soalan | Pertanyaan | Gemini Embed | Jinaai/Jina-embeddings-V3 | Intfloat/multilingual-e5-large-instruct |
1 | आपको प्रेगनेंसी टेस्ट कब करवाना चाहिए? | Jika anda ingin mengetahui lebih lanjut mengenai gejala awal kehamilan, catatan blog ini sesuai untuk anda. Bilakah anda mesti menjalani ujian kehamilan? -mistak | Jika anda ingin mengetahui lebih lanjut mengenai gejala awal kehamilan, catatan blog ini sesuai untuk anda. Bilakah anda mesti menjalani ujian kehamilan? -mistak | Jika anda ingin mengetahui lebih lanjut mengenai gejala awal kehamilan, catatan blog ini sesuai untuk anda. Bilakah anda mesti menjalani ujian kehamilan? -mistak |
2 | Kehamilan के Kuch Simbol क्या होते हैं? | Apakah gejala awal kehamilan? Semasa kehamilan, banyak perubahan hormon berlaku pada wanita. Gejala awal kehamilan termasuk loya, muntah, kencing kerap dan keletihan, yang akan kita bincangkan dalam catatan blog ini. -kecor | Tanda -tanda kehamilan: Maklumat lengkap mengenai gejala awal! Log Masuk Pesakit Perundingan Pantas Home Hubungi kami: 08062136530 Kecemasan Telefon: 07340054470 Buka menu utama untuk melayani pesakit dan pelawat pesakit antarabangsa tentang kami membuat temujanji untuk memanggil WhatsApp untuk mengetahui tentang gejala awal kehamilan. Obstetrik dan Ginekologi | Pengarang: Dr. CP Dadhich | Tarikh Siaran: 6 Februari 2025 Kandungan Bilakah anda harus menjalani ujian kehamilan? Apakah gejala awal kehamilan? Gejala awal kehamilan kehamilan - Kesalahan | Apakah gejala awal kehamilan? Semasa kehamilan, banyak perubahan hormon berlaku pada wanita. Gejala awal kehamilan termasuk loya, muntah, kencing kerap dan keletihan, yang akan kita bincangkan dalam catatan blog ini. -kecor |
3 | गर्भावस्था के दौरान एंटीबायोटिक दवा लेने से कब बचा हिए? | Semasa beberapa hari pertama kehamilan, telur dan sperma disenyawakan, menyebabkan gejala seperti pendarahan dan sakit perut. Dalam tempoh ini, untuk kehamilan yang sihat, wanita dinasihatkan untuk mengelakkan mengambil antibiotik, kerana ini boleh berbahaya kepada ibu dan bayi. Gejala awal kehamilan tidak selalu tertunda haid atau muntah. Di samping itu, gejala lain mungkin berlaku dan memerlukan perhatian khusus, seperti - betul | Semasa beberapa hari pertama kehamilan, telur dan sperma disenyawakan, menyebabkan gejala seperti pendarahan dan sakit perut. Dalam tempoh ini, untuk kehamilan yang sihat, wanita dinasihatkan untuk mengelakkan mengambil antibiotik, kerana ini boleh berbahaya kepada ibu dan bayi. Gejala awal kehamilan tidak selalu tertunda haid atau muntah. Di samping itu, gejala lain mungkin berlaku dan memerlukan perhatian khusus, seperti - betul | Apa yang harus diketahui oleh setiap wanita. Untuk sebarang soalan yang berkaitan dengan kehamilan, kami mengesyorkan agar anda menghubungi pakar sakit puan kami untuk menghapuskan semua komplikasi. -mistak |
4 | कब गर्भावस्था में एंटीबायोटिक दवा लेने से बचाया जाए? | Semasa beberapa hari pertama kehamilan, telur dan sperma disenyawakan, menyebabkan gejala seperti pendarahan dan sakit perut. Dalam tempoh ini, untuk kehamilan yang sihat, wanita dinasihatkan untuk mengelakkan mengambil antibiotik, kerana ini boleh berbahaya kepada ibu dan bayi. Gejala awal kehamilan tidak selalu tertunda haid atau muntah. Di samping itu, gejala lain mungkin berlaku dan memerlukan perhatian khusus, seperti - betul | Semasa beberapa hari pertama kehamilan, telur dan sperma disenyawakan, menyebabkan gejala seperti pendarahan dan sakit perut. Dalam tempoh ini, untuk kehamilan yang sihat, wanita dinasihatkan untuk mengelakkan mengambil antibiotik, kerana ini boleh berbahaya kepada ibu dan bayi. Gejala awal kehamilan tidak selalu tertunda haid atau muntah. Di samping itu, gejala lain mungkin berlaku dan memerlukan perhatian khusus, seperti - betul | Apa yang harus diketahui oleh setiap wanita. Untuk sebarang soalan yang berkaitan dengan kehamilan, kami mengesyorkan agar anda menghubungi pakar sakit puan kami untuk menghapuskan semua komplikasi. -mistak |
5 | गर्भधारण का सबसे पहला सामान्य लक्षण क्या है? | Haid yang ditangguhkan: Ini adalah gejala kehamilan yang paling awal dan paling biasa. Pengesahan kehamilan berdasarkan semata -mata pada gejala ini tidak sepenuhnya betul. Walau bagaimanapun, jika haid ditangguhkan selama satu minggu atau lebih, ujian kehamilan disyorkan. Perubahan payudara: Semasa kehamilan, payudara akan membengkak, menjadi lembut atau berubah warna. Ia terutamanya berubah dalam saiz dan warna puting (isola). -kecor | Dengan ini, bagaimana untuk mengesahkan kehamilan? Bagaimana untuk menjaga bulan pertama kehamilan? Bagaimana cara membuat pemeriksaan kehamilan? Bagaimana saya harus duduk semasa kehamilan? Sekiranya seks berlaku semasa kehamilan? Buah -buahan apa yang harus anda makan semasa mengandung? Berapa banyak air yang harus anda minum semasa kehamilan? Kegembiraan menjadi seorang ibu adalah kebahagiaan terbesar di dunia. Semasa kehamilan, terdapat banyak perubahan dalam perubahan fizikal dan psikologi wanita. Anda memanggil perubahan ini gejala awal kehamilan - kesilapan | Apakah gejala awal kehamilan? Semasa kehamilan, banyak perubahan hormon berlaku pada wanita. Gejala awal kehamilan termasuk loya, muntah, kencing kerap dan keletihan, yang akan kita bincangkan dalam catatan blog ini. -kecor |
6 | गर्भधारण के पहले क क्या होते हैं? | Tanda -tanda kehamilan: Maklumat lengkap mengenai gejala awal! Log Masuk Pesakit Perundingan Pantas Home Hubungi kami: 08062136530 Kecemasan Telefon: 07340054470 Buka menu utama untuk melayani pesakit dan pelawat pesakit antarabangsa tentang kami membuat temujanji untuk memanggil WhatsApp untuk mengetahui tentang gejala awal kehamilan. Obstetrik dan Ginekologi | Pengarang: Dr. CP Dadhich | Tarikh Siaran: 6 Februari 2025 Kandungan Bilakah anda harus menjalani ujian kehamilan? Apakah gejala awal kehamilan? Gejala awal kehamilan kehamilan - Kesalahan | Dengan ini, bagaimana untuk mengesahkan kehamilan? Bagaimana untuk menjaga bulan pertama kehamilan? Bagaimana cara membuat pemeriksaan kehamilan? Bagaimana saya harus duduk semasa kehamilan? Sekiranya seks berlaku semasa kehamilan? Buah -buahan apa yang harus anda makan semasa mengandung? Berapa banyak air yang harus anda minum semasa kehamilan? Kegembiraan menjadi seorang ibu adalah kebahagiaan terbesar di dunia. Semasa kehamilan, terdapat banyak perubahan dalam perubahan fizikal dan psikologi wanita. Anda memanggil perubahan ini gejala awal kehamilan - kesilapan | Apakah gejala awal kehamilan? Semasa kehamilan, banyak perubahan hormon berlaku pada wanita. Gejala awal kehamilan termasuk loya, muntah, kencing kerap dan keletihan, yang akan kita bincangkan dalam catatan blog ini. -kecor |
7 | गर्भावस्था की पुष्टि के लिए से ह हाlet का पता लगाना होता है? | Masa terbaik untuk menjalani ujian kehamilan adalah selepas haid ditangguhkan sekurang -kurangnya 7 hari. Anda boleh menggunakan alat ujian kehamilan rumah untuk mengesan tahap HCG di rumah. Semasa kehamilan, tahap hormon ini akan meningkat dengan ketara. Satu perkara yang perlu anda perhatikan ialah ujian pramatang juga boleh membawa kepada keputusan yang salah, jadi jika tempoh anda ditangguhkan dan ujiannya negatif, disarankan agar anda menunggu sekurang -kurangnya 3 hari lagi sebelum anda menguji lagi. -kecor | Terdapat juga cara yang betul untuk melakukan ini, yang boleh anda lihat pada manual alat ujian. Untuk mendapatkan hasil yang tepat, anda harus menggunakan air kencing pertama pada waktu pagi, kerana tahap hormon HCG yang betul dapat diukur. Juga, jika anda mengalami gejala awal kehamilan dan keputusan ujian negatif, lihat doktor anda untuk ujian darah dengan segera. Walau apa pun, anda mesti berunding dengan doktor jika anda mempunyai sebarang pertanyaan. -kecor | Apakah gejala awal kehamilan? Semasa kehamilan, banyak perubahan hormon berlaku pada wanita. Gejala awal kehamilan termasuk loya, muntah, kencing kerap dan keletihan, yang akan kita bincangkan dalam catatan blog ini. -mistak |
Jelaskan
Seperti yang dapat dilihat dari output Hindi di atas, dengan menggunakan Gemini Embedding, kami mendapat 5 output yang betul dari 7 pertanyaan, sambil menggunakan Jina Ai Embedding dan Multilingual-E5-Large, kami hanya mendapat 3 respons yang betul.
Ini menunjukkan bahawa, seperti yang ditunjukkan dalam penanda aras MTEB, embeddings Gemini berfungsi dengan baik dan mengendalikan pelbagai bahasa seperti Hindi lebih baik daripada model penyembuhan lain.
kesimpulannya
Singkatnya, penyembuhan Gemini mewakili kemajuan yang ketara dalam NLP berbilang bahasa, terutamanya untuk bahasa Hindi seperti Hindi. Dengan keupayaan berbilang bahasa yang kuat, sokongan untuk saiz input yang besar, dan prestasi unggul dalam tanda aras seperti MTEB, Gemini cemerlang dalam tugas -tugas seperti pengambilan, klasifikasi, dan carian semantik. Melalui perbandingan praktikal, prestasi Gemini lebih baik daripada model lain, memberikan ketepatan dan kecekapan yang lebih tinggi, menjadikannya alat yang berharga untuk mempromosikan NLP berbilang bahasa.
Keuntungan utama
- Kepentingan bahasa bahasa Hindi embedding : embedding berkualiti tinggi meningkatkan tugas NLP seperti terjemahan, soal jawab, dan pengambilan semula, menyelesaikan cabaran bahasa dan masalah jurang sumber.
- Model Embedding Gemini : Embedding Gemini Google menggunakan kerangka AInya untuk pemprosesan teks berbilang bahasa, yang meliputi lebih daripada 100 bahasa, termasuk bahasa sumber rendah.
- Ciri-ciri utama : Menyokong 8000 penanda dan embeddings 3072 dimensi, membolehkan pemprosesan dokumen panjang dan pertanyaan yang kompleks.
- Prestasi yang mengagumkan : Peringkat No. 1 dalam ranking berbilang bahasa MTEB dengan skor tugas purata 68.32, menunjukkan kuasa dalam NLP berbilang bahasa.
Media yang ditunjukkan dalam artikel ini tidak dimiliki oleh Analytics Vidhya dan boleh digunakan mengikut budi bicara penulis.
Soalan yang sering ditanya
Q1. Apakah model penyembuhan Gemini? A: Model Embedding Gemini didasarkan pada Gemini AI Google dan menyediakan embedding teks berbilang bahasa yang paling tinggi untuk lebih daripada 100 bahasa termasuk Hindi.
S2. Apa yang unik mengenai penyembuhan Gemini berbanding dengan model lain? A: Gemini Embedding Excels dalam sokongan berbilang bahasa, boleh memproses 8000 penanda dan output 3072 dimensi, memastikan kecekapan dalam klasifikasi, pengambilan semula dan carian semantik.
Q3. Bagaimanakah penyembuhan Gemini melaksanakan tugas berbilang bahasa? Jawapan: Embedding Gemini berfungsi dengan baik dalam bahasa sumber tinggi seperti bahasa Inggeris dan bahasa rendah seperti Assamese dan Macedonian. Ia menduduki tempat nombor satu pada ranking berbilang bahasa MTEB, menunjukkan keupayaan berbilang bahasa yang kuat.
Q4. Apakah seni bina model penyembuhan Gemini? A: Model ini dimulakan dari Gemini LLM dan menggunakan seni bina pengubah dengan perhatian bidirectional untuk menjana embedding teks berkualiti tinggi yang menangkap konteks dan makna.
S5. Bagaimanakah model penyembuhan Gemini dilatih? A: Gemini Embedding menggunakan kerugian anggaran perbandingan bunyi (NCE) dengan contoh negatif dalam latihan untuk latihan. Ia melalui dua fasa latihan: pra-penalaan pada dataset besar dan dataset khusus tugas untuk meningkatkan prestasi NLP.
Atas ialah kandungan terperinci Perbandingan Gemini Embedding dengan Multilingual-E5-Large & Jina. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Sejak tahun 2008, saya telah memperjuangkan van yang dikongsi bersama-pada masa yang digelar "Robotjitney," kemudian "Vansit" -dan masa depan pengangkutan bandar. Saya meramalkan kenderaan ini sebagai penyelesaian transit generasi akan datang abad ke-21, Surpas

Merevolusikan pengalaman checkout Sistem "Just Go" inovatif Sam Club membina teknologi "imbasan & pergi" yang sedia ada AI yang sedia ada, yang membolehkan ahli mengimbas pembelian melalui aplikasi Sam's Club semasa perjalanan membeli-belah mereka.

Predictability dan barisan produk baru NVIDIA di GTC 2025 Nvidia, pemain utama dalam infrastruktur AI, memberi tumpuan kepada peningkatan ramalan untuk pelanggannya. Ini melibatkan penghantaran produk yang konsisten, memenuhi jangkaan prestasi, dan

Google's Gemma 2: Model bahasa yang kuat dan cekap Model Bahasa Gemma Google, yang disambut untuk kecekapan dan prestasi, telah berkembang dengan kedatangan Gemma 2. Siaran terbaru ini terdiri daripada dua model: parameter 27 bilion ver

Ini memimpin dengan episod data yang menampilkan Dr Kirk Borne, seorang saintis data terkemuka, astrofizik, dan pembesar suara TEDX. Pakar terkenal dalam Big Data, AI, dan Pembelajaran Mesin, Dr. Borne menawarkan pandangan yang tidak ternilai ke dalam keadaan semasa dan masa depan Traje

Terdapat beberapa perspektif yang sangat berwawasan dalam maklumat ini mengenai maklumat mengenai kejuruteraan yang menunjukkan kepada kita mengapa kecerdasan buatan sangat baik untuk menyokong latihan fizikal orang. Saya akan menggariskan idea teras dari setiap perspektif penyumbang untuk menunjukkan tiga aspek reka bentuk yang merupakan bahagian penting dalam penerokaan penerokaan kecerdasan buatan dalam sukan. Peranti tepi dan data peribadi mentah Idea ini mengenai kecerdasan buatan sebenarnya mengandungi dua komponen -satu yang berkaitan dengan di mana kita meletakkan model bahasa yang besar dan yang lain berkaitan dengan perbezaan antara bahasa manusia dan bahasa yang kita tanda -tanda penting kita "menyatakan" apabila diukur dalam masa nyata. Alexander Amini tahu banyak tentang berlari dan tenis, tetapi dia masih

Ketua Pegawai Maklumat Caterpillar dan Naib Presiden Kanan IT, Jamie Engstrom, mengetuai pasukan global lebih dari 2,200 profesional IT di 28 negara. Dengan 26 tahun di Caterpillar, termasuk empat setengah tahun dalam peranannya sekarang, Engst

Alat HDR Ultra baru Google Photos: Panduan Cepat Tingkatkan foto anda dengan alat Ultra HDR baru Google Photos, mengubah imej standard ke dalam karya-karya bertenaga, tinggi dinamik. Sesuai untuk media sosial, alat ini meningkatkan kesan foto,


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

SublimeText3 Linux versi baharu
SublimeText3 Linux versi terkini

mPDF
mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

SecLists
SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.