suchen
HeimTechnologie-PeripheriegeräteKIVergleich der Gemini-Einbettung in mehrsprachige E5-Large & Jina

Gemini -Einbettung: Mehrsprachiger Texteinbettungsmodell unter Google Gemini AI Framework

Die Worteinbettung ist für Aufgaben (natürliche Sprachverarbeitung) in Hindi von entscheidender Bedeutung, wie z. B. maschinelle Übersetzung, Frage und Beantwortung sowie das Abrufen von Informationen. Diese Einbettungen erfassen die semantischen Eigenschaften von Wörtern und ermöglichen eine genauere und kontextorientierte NLP-Anwendungen. Angesichts der großen Anzahl von Hindi-Sprechern und dem wachsenden Zahleninhalt der Hindi-Sprache ist eine hochwertige Einbettung von entscheidender Bedeutung, um die NLP-Leistung in diesen Sprachen zu verbessern. Eine individuelle Einbettung kann speziell die einzigartigen Sprachmerkmale und Ressourcenbeschränkungen der indischen Sprachfamilie lösen. Das neu veröffentlichte Gemini-Einbettungsmodell stellt einen signifikanten Fortschritt bei der Einbettung von mehrsprachigen Text dar und nutzt Googles leistungsstarke Gemini-AI-Framework von Google, um eine modernste Leistung in über 100 Sprachen zu erzielen.

Das Gemini -Einbettungsmodell ist bei Aufgaben wie Klassifizierung, Abruf und semantischer Suche gut und bietet eine größere Effizienz und Genauigkeit. Durch die Unterstützung größerer Eingangsskalen und höherdimensionalen Ausgänge bietet Gemini -Einbettung reichhaltigere Textdarstellungen, sodass sie in einer Vielzahl von Anwendungen häufig verwendet werden können.

Lernziele

  • Erfahren Sie mehr über die Gemini -Einbettung und seine Integration mit Gemini LLM.
  • Praktische Tutorials zum Abrufen von Hindi -Dokumenten unter Verwendung von Gemini Embed.
  • Vergleichende Analyse mit Jina AI Einbettung und mehrsprachiger E5-Large.
  • Erkenntnisse über mehrsprachige Funktionen und Anwendungen von Textbereichen.

*Dieser Artikel wird als Teil des *** Data Science Blog Marathon veröffentlicht . ***

Inhaltsverzeichnis

  • Was ist Gemini eingebettet?
  • Schlüsselmerkmale der Gemini -Einbettung
  • Gemini Embedded Model Architecture
  • Vergleich mit anderen mehrsprachigen Einbettungsmodellen
  • Abrufen mit Gemini-Einbettung und Vergleich zu Jina AI Einbettung und mehrsprachiger E5-Large
    • Schritt 1. Installieren Sie die erforderlichen Bibliotheken
    • Schritt 2. Laden Sie die Daten
    • Schritt 3. Blockieren Sie die Daten
    • Schritt 4. Speichern Sie die Daten in der Vektor -Datenbank
    • Schritt 5. Abfragen Sie die Datenbank ab
    • Schritt 6. Vergleiche mit Jina AI Einbettung
  • Vergleich der Einbett -Suchausgabe
    • erklären
  • abschließend
  • Häufig gestellte Fragen

Was ist Gemini eingebettet?

Im März 2025 veröffentlichte Google ein neues experimentelles Gemini-Einbettungstextmodell (Gemini-Embedding-EXP-03-07), das in der Gemini-API verwendet werden kann.

Das erweiterte Einbettungsmodell stammt aus dem Gemini -Modell, das das tiefgreifende Verständnis von Nuancen von Sprache und subtilen Kontexten von Gemini erben und es ermöglicht, in einer Vielzahl von Anwendungen weit verbreitet zu sein. Es steht in der MTEB -mehrsprachigen Rangliste an erster Stelle.

Vergleich der Gemini-Einbettung in mehrsprachige E5-Large & Jina

Die Gemini -Einbettung repräsentiert Text als dichte Vektoren, bei denen Texteingaben mit ähnlicher Semantik Vektoren im Vektorraum zugeordnet werden, die nahe beieinander liegen. Derzeit unterstützt es über 100 Sprachen, und seine Einbettung kann für eine Vielzahl von Aufgaben wie Abruf und Klassifizierung verwendet werden.

Schlüsselmerkmale der Gemini -Einbettung

  • Starke mehrsprachige Fähigkeiten : Dieses Modell zeigt eine herausragende Leistung in über 100 Sprachen, nicht nur in hochressourcen-Sprachen wie Englisch, sondern auch in Sprachen mit niedrigem Ressourcen wie Assamesen und Mazedonier.
  • Verarbeitung von bis zu 8000 Eingabetags : Mit dieser leistungsstarken Fähigkeit können Modelle ohne Kürzung nahtlos lange Dokumente oder komplexe Abfragen verarbeiten und so den Kontext und die Bedeutung auf eine Weise aufrechterhalten, die über viele vorhandene eingebettete Modelle hinausgeht.
  • Ausgangsabmessungen für 3K-Dimensionen : Dieses Modell erzeugt eine Einbettungsdimension bis zu 3072 und unterstützt die subdimensionale Abmessung wie 768 und 1536 für die aufgabenspezifische Optimierung.
  • Beeindruckende Leistung : Gemini -Einbettung in der massiven Texteinbettungsbenchmark (MTEB) mit einem durchschnittlichen Aufgabenwert von 68,32, der seinen engsten Konkurrenten erheblich übertrifft.

Gemini Embedded Model Architecture

Vergleich der Gemini-Einbettung in mehrsprachige E5-Large & Jina

Der Kern der Gemini -Einbettung basiert auf der Transformatorarchitektur und aus Gemini LLM initialisiert. Diese Grundlage bietet ein tiefes Verständnis der Sprachstruktur und der Semantik für das Modell. Das Modell verwendet einen bidirektionalen Aufmerksamkeitsmechanismus, um Eingangssequenzen so zu verarbeiten, dass es den vollständigen Kontext eines Wortes oder einer Phrase beim Erstellen einer Einbettung berücksichtigen kann.

  1. Die Eingangssequenz T wird durch M (ein Transformator mit bidirektionaler Aufmerksamkeit, initialisiert aus Gemini) verarbeitet, was zu einer Marker -Einbettungssequenz führt.
  2. Um eine einzelne Einbettung zu generieren, die alle Informationen in der Eingabe darstellt, wird eine Pooling -Funktion angewendet.
  3. Schließlich wird eine lineare Projektion angewendet, um die Einbettung in die Zieldimension zu skalieren, was zur endgültigen Ausgangsbettung führt.

Verlustfunktion : Das Gemini-Einbettungsmodell wird unter Verwendung von NCCE-Verlusten (Rauschenvergleichsschätzungen) mit negativen Beispielen in den Batch trainiert. Der genaue Verlust variiert je nach Trainingsphase geringfügig. Im Allgemeinen umfasst ein Trainingsbeispiel eine Abfrage, ein positives Ziel und (optional) ein schwieriges Ziel.

Trainingsstrategien

  1. Vorabstimmung : In diesem Stadium wird das Modell auf einem großen diversifizierten Datensatz mit Abfragestellpaaren trainiert. Diese Belichtung passt die Parameter großer Sprachmodelle für die Codierung von Aufgaben an und legt den Grundstein für ihre Anpassungsfähigkeit.
  2. Feinabstimmung : In der zweiten Phase verwendet das Modell einen aufgabenspezifischen Datensatz mit einem dreifachen Abfrage-positiv-difficult-negativen Beispielen. Dieser Prozess verwendet kleinere Chargengrößen und gut kuratierte Datensätze, um die Leistung von Zielaufgaben zu verbessern.

Lesen Sie auch: Gemini Einbettung: Universelle Einbettung aus Gemini

Vergleich mit anderen mehrsprachigen Einbettungsmodellen

Wir vergleichen die Suche nach Hindi-Dokumenten mit den neuesten neu veröffentlichten Gemini-Einbettungen und vergleichen sie dann mit Jina AI-Einbettungen und mehrsprachigen E-E5-Large-Einbettungen. Wie in der folgenden Tabelle gezeigt, sind die Einbettung von Gemini und die Einbettung von Jina AI hinsichtlich der maximalen Anzahl von Tags hoch, sodass das Modell lange Dokumente oder komplexe Abfragen verarbeiten kann. Darüber hinaus weisen Gemini -Einbettungen, wie in der folgenden Tabelle gezeigt, eine höhere Einbettungsdimension auf, die detailliertere und differenziertere semantische Beziehungen zwischen Wörtern erfasst, sodass Modelle nuancierte Unterschiede in komplexen Sprachmustern und -bedeutungen darstellen können.

Anzahl der Parameter Dimensionen einbetten Maximale Marke Anzahl der Sprachen Puppenbettung
Gemini-Embedding-EXP-03-07 unbekannt 3072 8192 100 Unterstützt die Abschneidung von Einbettungen in verschiedenen Größen, wie beispielsweise 2048, 1024, 512, 256 und 128 Dimensionen,
Jinaai/Jina-Embeddings-V3 572 Millionen 1024 8194 100 Unterstützt flexible Einbettungsgrößen (32, 64, 128, 256, 512, 768, 1024), sodass verkürzte Einbettungen zu Ihrer Anwendung passen können
Mehrsprachiger-e5-large-instruct 560 Millionen 1024 514 94 N / A

Abrufen mit Gemini-Einbettung und Vergleich zu Jina AI Einbettung und mehrsprachiger E5-Large

Im folgenden praktischen Tutorial vergleichen wir die Suche nach Hindi-Dokumenten mit den neuesten neu veröffentlichten Gemini-Einbettungen und vergleichen sie dann mit Jina AI-Einbettungen und mehrsprachigen E5-Large-Einbettungen.

Schritt 1. Installieren Sie die erforderlichen Bibliotheken

 <code>!pip install langchain-community !pip install chromadb</code>

Schritt 2. Laden Sie die Daten

Wir haben Hindi -Daten von der Website verwendet, um die Leistung von Gemini -Einbetten in das Abrufen von Hindi -Sprachen zu bewerten.

 <code>from langchain_community.document_loaders import WebBaseLoader loader = WebBaseLoader("https://ckbirlahospitals.com/rbh/blog/pregnancy-early-symptoms-in-hindi") data = loader.load()</code>

Schritt 3. Blockieren Sie die Daten

Der folgende Code verwendet recursivecharactertextSplitter, um ein großes Textdokument ohne Überlappung in 500-Charakter-Stücke aufzuteilen. Anschließend wird diese Aufteilung auf den Datavariable angewendet und das Ergebnis in All_Splits gespeichert. Aufgrund der Ratengrenzen der Gemini -Einbettungs -API verwenden wir nur 10 Spaltungen.

 <code>from langchain_text_splitters import RecursiveCharacterTextSplitter text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0) all_splits = text_splitter.split_documents(data) all_splits = all_splits[:10]</code>

Schritt 4. Speichern Sie die Daten in der Vektor -Datenbank

Wir erstellen zunächst eine Klasse namens "Geminiembeddingfunction", mit der die Gemini -Einbettung der API abfragt und den eingebetteten Wert der Eingabebestand zurückgibt. Wir erstellen dann eine Funktion namens "create_chroma_db", um eine Sammlung in Chromadb zu erstellen, die sowohl Daten als auch einbettet.

 <code>import chromadb from chromadb import Documents, EmbeddingFunction, Embeddings class GeminiEmbeddingFunction(EmbeddingFunction): def __call__(self, input: Documents) -> Embeddings: title = "Custom query" return client.models.embed_content( model="gemini-embedding-exp-03-07", contents=input).embeddings[0].values def create_chroma_db(documents, name): chroma_client = chromadb.Client() db = chroma_client.create_collection(name=name, embedding_function=GeminiEmbeddingFunction()) for i, d in enumerate(documents): db.add( documents=d.page_content, ids=str(i) ) return db db = create_chroma_db(all_splits, "datab")</code>

Schritt 5. Abfragen Sie die Datenbank ab

 <code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("आपको प्रेगनेंसी टेस्ट कब करवाना चाहिए?", db) print(passage)</code>

Schritt 6. Vergleiche mit Jina AI Einbettung

Der folgende Code verwendet das Umarmungsgesichts -Transformatormodell, um eine benutzerdefinierte Einbettungsfunktion zu definieren, sowie eine Möglichkeit, die Texteingaben zu verarbeiten, um Einbettungsdings zu generieren.

  1. Autotokenizer und Automodel von Transformatoren werden verwendet, um vorbereitete Modelle (Jinaai/Jina-Embeddings-V3) zu laden und eine Einbettdingfunktion von Chromadb zur Erstellung von benutzerdefinierten Einbettungen zu importieren.
  2. Durchschnittsfunktion: Diese Funktion aggregiert die verborgenen Zustände des Modells, indem sie Pooling -Operationen auf dem Modell ausführen, durchschnittlich die Sequenzlänge, während die Aufmerksamkeitsmaske aufgenommen wird (ignoriert die Füllmarke).
  3. CustomHuggingFace -Klasse: IT tokenisiert Text, füttert ihn in das Modell und berechnet die Einbettung mit der Funktion AVIDE_POOL. Das Ergebnis wird als eingebettete Liste zurückgegeben.
 <code>from transformers import AutoTokenizer, AutoModel from chromadb import EmbeddingFunction tokenizer = AutoTokenizer.from_pretrained('jinaai/jina-embeddings-v3') model = AutoModel.from_pretrained('jinaai/jina-embeddings-v3') # the model returns many hidden states per document so we must aggregate them def average_pool(last_hidden_states, attention_mask): last_hidden = last_hidden_states.masked_fill(~attention_mask[...,None].bool(), 0.0) return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[...,None] class CustomHuggingFace(EmbeddingFunction): def __call__(self, texts): queries = [f'query: {text}' for text in texts] batch_dict = tokenizer(texts, max_length=512, padding=True, truncation=True, return_tensors='pt') outputs = model(**batch_dict) embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask']) return embeddings.tolist()</code>

Abfrage

 <code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("आपको प्रेगनेंसी टेस्ट कब करवाना चाहिए?", db) print(passage)</code>

Bei der Auswahl der mehrsprachigen Einbettung von mehrsprachigen E5-Largen ersetzen wir einfach den Tokenizer und das Modell durch "Intfloat/mehrsprachige E5-Large-Instruction".

Vergleich der Einbett -Suchausgabe

Frage Nummer Abfrage Gemini einbettet Jinaai/Jina-Embeddings-V3 intfloat/mehrsprachig-e5-large-struktur
1 आपको प्ेगनेंसी टेस्ट कब ककवाना चाहिए? Wenn Sie mehr über die frühen Schwangerschaftssymptome erfahren möchten, ist dieser Blog -Beitrag perfekt für Sie. Wann sollten Sie einen Schwangerschaftstest haben? -Fehler Wenn Sie mehr über die frühen Schwangerschaftssymptome erfahren möchten, ist dieser Blog -Beitrag perfekt für Sie. Wann sollten Sie einen Schwangerschaftstest haben? -Fehler Wenn Sie mehr über die frühen Schwangerschaftssymptome erfahren möchten, ist dieser Blog -Beitrag perfekt für Sie. Wann sollten Sie einen Schwangerschaftstest haben? -Fehler
2 Schwangerschaft के Kuch -Symbole क्या होते हैं? Was sind die frühen Symptome einer Schwangerschaft? Während der Schwangerschaft treten bei Frauen viele hormonelle Veränderungen auf. Frühe Schwangerschaftssymptome sind Übelkeit, Erbrechen, häufiges Wasserlassen und Müdigkeit, die wir in diesem Blog -Beitrag diskutieren werden. -richtig Anzeichen einer Schwangerschaft: Vollständige Informationen zu frühen Symptomen! Home Quick Consultation Patient Anmeldeanmeldung Kontaktieren Sie uns: 08062136530 Notfall Telefon: 07340054470 Öffnen Sie das Hauptmenü, um Patienten und Besucher internationale Patienten über uns zu bedienen, um einen Termin zu vereinbaren, um WhatsApp zurückzurufen, um mehr über die frühen Symptome einer Schwangerschaft zu erfahren. Geburtshilfe und Gynäkologie | Autor: Dr. CP Dadhich Was sind die frühen Symptome einer Schwangerschaft? Frühe Symptome einer Schwangerschaftsschwangerschaft - Fehler Was sind die frühen Symptome einer Schwangerschaft? Während der Schwangerschaft treten bei Frauen viele hormonelle Veränderungen auf. Frühe Schwangerschaftssymptome sind Übelkeit, Erbrechen, häufiges Wasserlassen und Müdigkeit, die wir in diesem Blog -Beitrag diskutieren werden. -richtig
3 गग्भावस्था के दौदौान एंटीबायोटिक दवा लेने से कब बचा हिए? In den ersten Tagen der Schwangerschaft werden Eier und Spermien befruchtet, was Symptome wie Blutungen und Bauchschmerzen verursacht. In dieser Zeit wird Frauen für eine gesunde Schwangerschaft empfohlen, Antibiotika zu vermeiden, da dies für Mütter und Babys gefährlich sein kann. Frühe Schwangerschaftssymptome sind nicht immer eine verzögerte Menstruation oder Erbrechen. Darüber hinaus können andere Symptome auftreten und besondere Aufmerksamkeit erfordern, z . In den ersten Tagen der Schwangerschaft werden Eier und Spermien befruchtet, was Symptome wie Blutungen und Bauchschmerzen verursacht. In dieser Zeit wird Frauen für eine gesunde Schwangerschaft empfohlen, Antibiotika zu vermeiden, da dies für Mütter und Babys gefährlich sein kann. Frühe Schwangerschaftssymptome sind nicht immer eine verzögerte Menstruation oder Erbrechen. Darüber hinaus können andere Symptome auftreten und besondere Aufmerksamkeit erfordern, z . Was jede Frau wissen sollte. Bei Fragen im Zusammenhang mit schwangerschaftsbezogenen Fragen empfehlen wir Ihnen, sich an unseren Gynäkologen zu wenden, um alle Komplikationen zu beseitigen. -Fehler
4 " In den ersten Tagen der Schwangerschaft werden Eier und Spermien befruchtet, was Symptome wie Blutungen und Bauchschmerzen verursacht. In dieser Zeit wird Frauen für eine gesunde Schwangerschaft empfohlen, Antibiotika zu vermeiden, da dies für Mütter und Babys gefährlich sein kann. Frühe Schwangerschaftssymptome sind nicht immer eine verzögerte Menstruation oder Erbrechen. Darüber hinaus können andere Symptome auftreten und besondere Aufmerksamkeit erfordern, z . In den ersten Tagen der Schwangerschaft werden Eier und Spermien befruchtet, was Symptome wie Blutungen und Bauchschmerzen verursacht. In dieser Zeit wird Frauen für eine gesunde Schwangerschaft empfohlen, Antibiotika zu vermeiden, da dies für Mütter und Babys gefährlich sein kann. Frühe Schwangerschaftssymptome sind nicht immer eine verzögerte Menstruation oder Erbrechen. Darüber hinaus können andere Symptome auftreten und besondere Aufmerksamkeit erfordern, z . Was jede Frau wissen sollte. Bei Fragen im Zusammenhang mit schwangerschaftsbezogenen Fragen empfehlen wir Ihnen, sich an unseren Gynäkologen zu wenden, um alle Komplikationen zu beseitigen. -Fehler
5 " Verzögerte Menstruation: Dies ist das früheste und häufigste Symptom einer Schwangerschaft. Die Bestätigung der Schwangerschaft, die ausschließlich auf diesem Symptom beruht, ist nicht vollständig korrekt. Wenn die Menstruation jedoch eine Woche oder länger verzögert wird, werden Schwangerschaftstests empfohlen. Brustveränderungen: Während der Schwangerschaft schwellen die Brüste an, werden zart oder verändern sich in der Farbe. Es ändert sich hauptsächlich in der Größe und Farbe der Brustwarze (Areola). -richtig Wie kann man in diesem Sinne die Schwangerschaft bestätigen? Wie kümmere ich mich um den ersten Monat der Schwangerschaft? Wie mache ich Schwangerschaftsuntersuchungen? Wie soll ich während der Schwangerschaft sitzen? Sollte Sex während der Schwangerschaft auftreten? Welche Früchte sollten Sie während der Schwangerschaft essen? Wie viel Wasser sollten Sie während der Schwangerschaft trinken? Die Freude, Mutter zu werden, ist das größte Glück der Welt. Während der Schwangerschaft gibt es viele Veränderungen in den physischen und psychischen Veränderungen von Frauen. Sie nennen diese Veränderungen frühzeitige Schwangerschaftssymptome - Fehler Was sind die frühen Symptome einer Schwangerschaft? Während der Schwangerschaft treten bei Frauen viele hormonelle Veränderungen auf. Frühe Schwangerschaftssymptome sind Übelkeit, Erbrechen, häufiges Wasserlassen und Müdigkeit, die wir in diesem Blog -Beitrag diskutieren werden. -richtig
6 गग्भधाण के पहले संकेत क्या होते हैं? Anzeichen einer Schwangerschaft: Vollständige Informationen zu frühen Symptomen! Home Quick Consultation Patient Anmeldeanmeldung Kontaktieren Sie uns: 08062136530 Notfall Telefon: 07340054470 Öffnen Sie das Hauptmenü, um Patienten und Besucher internationale Patienten über uns zu bedienen, um einen Termin zu vereinbaren, um WhatsApp zurückzurufen, um mehr über die frühen Symptome einer Schwangerschaft zu erfahren. Geburtshilfe und Gynäkologie | Autor: Dr. CP Dadhich Was sind die frühen Symptome einer Schwangerschaft? Frühe Symptome einer Schwangerschaftsschwangerschaft - Fehler Wie kann man in diesem Sinne die Schwangerschaft bestätigen? Wie kümmere ich mich um den ersten Monat der Schwangerschaft? Wie mache ich Schwangerschaftsuntersuchungen? Wie soll ich während der Schwangerschaft sitzen? Sollte Sex während der Schwangerschaft auftreten? Welche Früchte sollten Sie während der Schwangerschaft essen? Wie viel Wasser sollten Sie während der Schwangerschaft trinken? Die Freude, Mutter zu werden, ist das größte Glück der Welt. Während der Schwangerschaft gibt es viele Veränderungen in den physischen und psychischen Veränderungen von Frauen. Sie nennen diese Veränderungen frühzeitige Schwangerschaftssymptome - Fehler Was sind die frühen Symptome einer Schwangerschaft? Während der Schwangerschaft treten bei Frauen viele hormonelle Veränderungen auf. Frühe Schwangerschaftssymptome sind Übelkeit, Erbrechen, häufiges Wasserlassen und Müdigkeit, die wir in diesem Blog -Beitrag diskutieren werden. -richtig
7 " Die beste Zeit für einen Schwangerschaftstest ist, dass die Menstruation um mindestens 7 Tage verzögert wird. Sie können das Home -Schwangerschaftstest -Tool verwenden, um HCG -Werte zu Hause zu erkennen. Während der Schwangerschaft steigt die Spiegel dieses Hormons erheblich an. Eine Sache, die Sie beachten müssen, ist, dass vorzeitige Tests auch zu falschen Ergebnissen führen können. Wenn sich Ihre Periode verzögert und der Test negativ ist, wird empfohlen, mindestens 3 weitere Tage zu warten, bevor Sie erneut testen. -richtig Es gibt auch eine korrekte Möglichkeit, dies zu tun, die Sie auch im Testwerkzeughandbuch sehen können. Um genaue Ergebnisse zu erzielen, sollten Sie morgens den ersten Urin verwenden, da das korrekte HCG -Hormon gemessen werden kann. Wenn Sie frühe Schwangerschaftssymptome aufweisen und die Testergebnisse negativ sind, sehen Sie Ihren Arzt sofort für einen Bluttest. In jedem Fall müssen Sie einen Arzt konsultieren, wenn Sie Fragen haben. -richtig Was sind die frühen Symptome einer Schwangerschaft? Während der Schwangerschaft treten bei Frauen viele hormonelle Veränderungen auf. Frühe Schwangerschaftssymptome sind Übelkeit, Erbrechen, häufiges Wasserlassen und Müdigkeit, die wir in diesem Blog -Beitrag diskutieren werden. -Fehler

erklären

Wie aus der obigen Hindi-Ausgabe ersichtlich ist, erhalten wir unter Verwendung von Gemini-Einbettung 5 korrekte Ausgänge aus 7 Abfragen, während wir Jina AI-Einbettung und mehrsprachige E5-Large verwenden, nur 3 korrekte Antworten erhalten.

Dies zeigt, dass Gemini -Einbettungen, wie sich in der MTEB -Benchmark widerspiegelt, gut abschneiden und mehrsprachige wie Hindi besser abwickeln als andere Einbettungsmodelle.

abschließend

Kurz gesagt, Gemini -Einbettung stellt einen signifikanten Fortschritt bei mehrsprachiger NLP dar, insbesondere für Hindi -Sprachen wie Hindi. Mit seinen starken mehrsprachigen Fähigkeiten, der Unterstützung großer Eingangsgrößen und der überlegenen Leistung in Benchmarks wie MTEB Excels in Aufgaben wie Abruf, Klassifizierung und semantische Suche. Durch praktische Vergleiche ist die Leistung von Gemini besser als andere Modelle, was eine höhere Genauigkeit und Effizienz bietet, was es zu einem wertvollen Instrument zur Förderung mehrsprachiger NLP macht.

Hauptgewinne

  • Bedeutung der Hindi-Sprachwort-Einbettung : Eine hochwertige Einbettung verbessert NLP-Aufgaben wie Übersetzung, Frage-und-Antwort und Abruf, Lösung von Sprachherausforderungen und Ressourcenlückenproblemen.
  • Gemini-Einbettungsmodell : Googles Gemini-Einbettung verwendet sein KI-Framework für die mehrsprachige Textverarbeitung und deckt mehr als 100 Sprachen ab, einschließlich Sprachen mit niedrigem Ressourcen.
  • Schlüsselmerkmale : Unterstützt 8000 Markierungen und 3072-dimensionale Einbettungen, wodurch eine effiziente Verarbeitung langer Dokumente und komplexer Abfragen ermöglicht wird.
  • Beeindruckende Leistung : Rang 1 in der MTEB -mehrsprachigen Rangliste mit einem durchschnittlichen Aufgabenwert von 68,32, der seine Leistung in mehrsprachiger NLP demonstriert.

Die in diesem Artikel gezeigten Medien sind nicht im Besitz von Analytics Vidhya und können nach Ermessen des Autors verwendet werden.

Häufig gestellte Fragen

Q1. A: Das Gemini-Einbettungsmodell basiert auf Googles Gemini AI und bietet erstklassige mehrsprachige Texteinbettungen für mehr als 100 Sprachen, einschließlich Hindi.

F2. A: Gemini einbettet Excels in mehrsprachige Unterstützung ein, kann 8000 Marker verarbeiten und 3072 Dimensionen ausgeben, um die Effizienz bei der Klassifizierung, Abruf und semantischer Suche zu gewährleisten.

F3. Antwort: Gemini Einbettung ist in hochressourcen-Sprachen wie englischen und ressourcenarmen Sprachen wie Assamesisch und Mazedonier gut ab. Es ist die Nummer eins in der MTEB -mehrsprachigen Rangliste und demonstriert die leistungsstarken mehrsprachigen Fähigkeiten.

F4. Was ist die Architektur des Gemini -Einbettungsmodells? A: Das Modell wird aus Gemini LLM initialisiert und verwendet eine Transformatorarchitektur mit bidirektionaler Aufmerksamkeit, um hochwertige Texteinbettungen zu erzeugen, die Kontext und Bedeutung erfassen.

F5. Wie wird das Gemini -Einbettungsmodell trainiert? A: Gemini-Einbettung verwendet Verlust (Rauschvergleichsschätzung) mit negativen Beispielen für das Training. Es durchläuft zwei Trainingsphasen: Vor-Fine-Einstellung auf einem großen Datensatz und aufgabenspezifischen Datensätzen zur Verbesserung der NLP-Leistung.

Das obige ist der detaillierte Inhalt vonVergleich der Gemini-Einbettung in mehrsprachige E5-Large & Jina. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Kann Chatgpt nicht verwenden! Erklären Sie die Ursachen und Lösungen, die sofort getestet werden können [die neueste 2025]Kann Chatgpt nicht verwenden! Erklären Sie die Ursachen und Lösungen, die sofort getestet werden können [die neueste 2025]May 14, 2025 am 05:04 AM

Chatgpt ist nicht zugänglich? Dieser Artikel bietet eine Vielzahl von praktischen Lösungen! Viele Benutzer können auf Probleme wie Unzugänglichkeit oder langsame Reaktion stoßen, wenn sie täglich ChatGPT verwenden. In diesem Artikel werden Sie geführt, diese Probleme Schritt für Schritt basierend auf verschiedenen Situationen zu lösen. Ursachen für Chatgpts Unzugänglichkeit und vorläufige Fehlerbehebung Zunächst müssen wir feststellen, ob sich das Problem auf der OpenAI -Serverseite oder auf dem eigenen Netzwerk- oder Geräteproblemen des Benutzers befindet. Bitte befolgen Sie die folgenden Schritte, um Fehler zu beheben: Schritt 1: Überprüfen Sie den offiziellen Status von OpenAI Besuchen Sie die OpenAI -Statusseite (status.openai.com), um festzustellen, ob der ChatGPT -Dienst normal ausgeführt wird. Wenn ein roter oder gelber Alarm angezeigt wird, bedeutet dies offen

Die Berechnung des Risikos des ASI beginnt mit dem menschlichen GeistDie Berechnung des Risikos des ASI beginnt mit dem menschlichen GeistMay 14, 2025 am 05:02 AM

Am 10. Mai 2025 teilte der MIT-Physiker Max Tegmark dem Guardian mit, dass AI Labs Oppenheimers Dreifaltigkeitstestkalkül emulieren sollten, bevor sie künstliche Super-Intelligence veröffentlichen. „Meine Einschätzung ist, dass die 'Compton Constant', die Wahrscheinlichkeit, dass ein Rennen ums Rasse

Eine leicht verständliche Erklärung zum Schreiben und Komponieren von Texten und empfohlenen Tools in ChatgptEine leicht verständliche Erklärung zum Schreiben und Komponieren von Texten und empfohlenen Tools in ChatgptMay 14, 2025 am 05:01 AM

Die KI -Musikkreationstechnologie verändert sich mit jedem Tag. In diesem Artikel werden AI -Modelle wie ChatGPT als Beispiel verwendet, um ausführlich zu erklären, wie mit AI die Erstellung der Musik unterstützt und sie mit tatsächlichen Fällen erklärt. Wir werden vorstellen, wie man Musik durch Sunoai, Ai Jukebox auf Umarmung und Pythons Music21 -Bibliothek kreiert. Mit diesen Technologien kann jeder problemlos Originalmusik erstellen. Es ist jedoch zu beachten, dass das Urheberrechtsproblem von AI-generierten Inhalten nicht ignoriert werden kann, und Sie müssen bei der Verwendung vorsichtig sein. Lassen Sie uns die unendlichen Möglichkeiten der KI im Musikfeld zusammen erkunden! OpenAIs neuester AI -Agent "Openai Deep Research" führt vor: [CHATGPT] ope

Was ist Chatgpt-4? Eine gründliche Erklärung für das, was Sie tun können, die Preisgestaltung und die Unterschiede von GPT-3.5!Was ist Chatgpt-4? Eine gründliche Erklärung für das, was Sie tun können, die Preisgestaltung und die Unterschiede von GPT-3.5!May 14, 2025 am 05:00 AM

Die Entstehung von Chatgpt-4 hat die Möglichkeit von AI-Anwendungen erheblich erweitert. Im Vergleich zu GPT-3,5 hat sich ChatGPT-4 erheblich verbessert. Es verfügt über leistungsstarke Kontextverständnisfunktionen und kann auch Bilder erkennen und generieren. Es ist ein universeller AI -Assistent. Es hat in vielen Bereichen ein großes Potenzial gezeigt, z. B. die Verbesserung der Geschäftseffizienz und die Unterstützung der Schaffung. Gleichzeitig müssen wir jedoch auch auf die Vorsichtsmaßnahmen ihrer Verwendung achten. In diesem Artikel werden die Eigenschaften von ChatGPT-4 im Detail erläutert und effektive Verwendungsmethoden für verschiedene Szenarien einführt. Der Artikel enthält Fähigkeiten, um die neuesten KI -Technologien voll auszunutzen. Weitere Informationen finden Sie darauf. OpenAIs neueste AI -Agentin, klicken Sie auf den Link unten, um Einzelheiten zu "OpenAI Deep Research" zu erhalten.

Erklären Sie, wie Sie die Chatgpt -App verwenden! Japanische Unterstützung und SprachkonversationsfunktionErklären Sie, wie Sie die Chatgpt -App verwenden! Japanische Unterstützung und SprachkonversationsfunktionMay 14, 2025 am 04:59 AM

CHATGPT -App: Entfesselt Ihre Kreativität mit dem AI -Assistenten! Anfängerführer Die ChatGPT -App ist ein innovativer KI -Assistent, der eine breite Palette von Aufgaben erledigt, einschließlich Schreiben, Übersetzung und Beantwortung von Fragen. Es ist ein Werkzeug mit endlosen Möglichkeiten, die für kreative Aktivitäten und Informationssammeln nützlich sind. In diesem Artikel werden wir für Anfänger eine leicht verständliche Weise von der Installation der ChatGPT-Smartphone-App bis hin zu den Funktionen für Apps wie Spracheingangsfunktionen und Plugins sowie die Punkte erklären, die Sie bei der Verwendung der App berücksichtigen sollten. Wir werden auch die Pluginbeschränkungen und die Konfiguration der Geräte-zu-Device-Konfiguration genauer betrachten

Wie benutze ich die chinesische Version von Chatgpt? Erläuterung der Registrierungsverfahren und GebührenWie benutze ich die chinesische Version von Chatgpt? Erläuterung der Registrierungsverfahren und GebührenMay 14, 2025 am 04:56 AM

Chatgpt Chinesische Version: Schalte neue Erfahrung des chinesischen KI -Dialogs frei Chatgpt ist weltweit beliebt. Wussten Sie, dass es auch eine chinesische Version bietet? Dieses leistungsstarke KI -Tool unterstützt nicht nur tägliche Gespräche, sondern behandelt auch professionelle Inhalte und ist mit vereinfachtem und traditionellem Chinesisch kompatibel. Egal, ob es sich um einen Benutzer in China oder ein Freund, der Chinesisch lernt, Sie können davon profitieren. In diesem Artikel wird detailliert eingeführt, wie die chinesische ChatGPT -Version verwendet wird, einschließlich der Kontoeinstellungen, der Eingabeaufgabe der chinesischen Eingabeaufforderung, der Filtergebrauch und der Auswahl verschiedener Pakete sowie potenziellen Risiken und Antwortstrategien. Darüber hinaus werden wir die chinesische Chatgpt -Version mit anderen chinesischen KI -Tools vergleichen, um die Vorteile und Anwendungsszenarien besser zu verstehen. Openais neueste KI -Intelligenz

5 KI -Agent -Mythen, die Sie jetzt aufhören müssen, zu glauben5 KI -Agent -Mythen, die Sie jetzt aufhören müssen, zu glaubenMay 14, 2025 am 04:54 AM

Diese können als der nächste Sprung nach vorne im Bereich der generativen KI angesehen werden, was uns Chatgpt und andere Chatbots mit großer Sprache modellierte. Anstatt nur Fragen zu beantworten oder Informationen zu generieren, können sie in unserem Namen Maßnahmen ergreifen, Inter

Eine leicht verständliche Erklärung für die Illegalität des Erstellens und Verwalten mehrerer Konten mit ChatGPTEine leicht verständliche Erklärung für die Illegalität des Erstellens und Verwalten mehrerer Konten mit ChatGPTMay 14, 2025 am 04:50 AM

Effiziente Mehrfachkontoverwaltungstechniken mit Chatgpt | Eine gründliche Erklärung, wie man Geschäft und Privatleben nutzt! Chatgpt wird in verschiedenen Situationen verwendet, aber einige Leute machen sich möglicherweise Sorgen über die Verwaltung mehrerer Konten. In diesem Artikel wird ausführlich erläutert, wie mehrere Konten für ChatGPT, was zu tun ist, wenn Sie es verwenden und wie Sie es sicher und effizient bedienen. Wir decken auch wichtige Punkte wie den Unterschied in der Geschäfts- und Privatnutzung sowie die Einhaltung der Nutzungsbedingungen von OpenAI ab und bieten einen Leitfaden zur Verfügung, mit dem Sie mehrere Konten sicher verwenden können. Openai

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Nordhold: Fusionssystem, erklärt
4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
Mandragora: Flüstern des Hexenbaum
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

SublimeText3 Linux neue Version

SublimeText3 Linux neue Version

SublimeText3 Linux neueste Version

MantisBT

MantisBT

Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

SAP NetWeaver Server-Adapter für Eclipse

SAP NetWeaver Server-Adapter für Eclipse

Integrieren Sie Eclipse mit dem SAP NetWeaver-Anwendungsserver.

VSCode Windows 64-Bit-Download

VSCode Windows 64-Bit-Download

Ein kostenloser und leistungsstarker IDE-Editor von Microsoft