Heim >Technologie-Peripheriegeräte >KI >Marco-O1 gegen Lama 3.2: Was ist besser?
Das O1 -Modell von OpenAI hat aufgrund seiner fortgeschrittenen Fähigkeiten bei der Bekämpfung komplexer Probleme erhebliche Aufregung auf dem Gebiet der großen Argumentationsmodelle (LRMs) erzeugt. Marco-O1emerges als neues LRM, der nicht nur traditionelle Disziplinen wie Mathematik und Codierung betont, sondern auch die offene Problemlösung in verschiedenen Bereichen priorisiert, baut Marco-O1emergen als neuer LRM hervor. Ein wesentlicher Schwerpunkt von Marco-O1 liegt in der Untersuchung des Ausmaßes, in dem das O1-Modell seine Argumentationsfähigkeiten auf Bereiche verallgemeinern kann, denen klare Standards und quantifizierbare Belohnungen fehlen. Diese Untersuchung ist entscheidend, um die potenziellen Anwendungen von LRMs in realen Szenarien zu verstehen, in denen konventionelle Metriken möglicherweise nicht gelten, und dadurch die Grenzen dieser Modelle überschreiten.
Dieser Artikel wurde als Teil des Data Science -Blogathons veröffentlicht.
Marco-O1 ist ein fortschrittliches Argumentationsmodell, das vom Marcopolo-Team des Alibaba International Digital Commerce entwickelt wurde und auf die offene Aufgaben zur Problemlösung in Angriff genommen werden soll.
Es basiert auf der QWEN2-Architektur und verwendet eine ausgefeilte Kombination aus dem Gedanke (COT) -Fine-Tuningandmonte-Carlo-Baumsuche (MCTS), um seine Argumentationsfunktionen zu verbessern
Durch die Feinabstimmung von QWEN2-7B-Instruktur mit einer Kombination aus filtriertem Open-O1-COT-Datensatz, Marco-O1-COT-Datensatz und Marco-O1-Befehlsdatensatz verbesserte Marco-O1 die Handhabung komplexer Aufgaben.
Das folgende Bild zeigt den Inferenzprozess für Marco-01, in dem die Verwendung von Datensätzen wie Open-01 COT und Marco-01 COT detailliert werden. Der Prozess umfasst die Auswahl von Umlaufpfaden, die Durchführung von MCTs und die Anwendung einer beaufsichtigten Feinabstimmung für eine bessere Genauigkeit. Dies führt zur Erzeugung einer endgültigen Antwort mit Vertrauenswerten.
Dies konzentriert sich auf ausgefeilte Methoden, die es KI-Modellen ermöglichen, komplexe Aufgaben zu erledigen, z. B. das Denken durch mehrere Schritte, die Optimierung der Entscheidungsfindung und die Einbeziehung von Unsicherheiten für genauere Vorhersagen und Antworten.
MCTS wird verwendet, um die beste Antwort auf eine Benutzerabfrage zu ermitteln, indem alle möglichen Antworten durch zufällige Stichproben untersucht werden. Wie in der obigen Abbildung gezeigt, werden in MCTs Knoten unterschiedliche Argumentationspfade und gelbe Knotenspezifikum zur weiteren Untersuchung ausgewählt. Green Knode Represents die endgültigen Antworten, während Pfeile wie "Select" und "Backup" zeigen, wie das System die Auswahlmöglichkeiten bewertet und verfeinert.
Das System berechnet eine Konfidenzbewertung, nachdem er eine Antwort unter Verwendung der Wahrscheinlichkeiten (in der Formel gezeigt) zur Verfeinerung der endgültigen Ausgabe erstellt hat.
Das Modell kann auf zwei Ebenen funktionieren: Argumentation (Schrittebene ) und Multi-Stufen-Argumentation (Mini-Schritt-Ebene).
Bei der MCTS -Suche wurden verschiedene Granularitätsniveaus untersucht. Um den Suchraum des Modells zu erweitern und seine Fähigkeiten zur Problemlösung zu verbessern, wurden die Schritte in kleinere Einheiten von 64 oder 32 Token unterteilt, die als „Mini-Schritt“ bezeichnet werden. Diese feinere Granularität ermöglichte es dem Modell, die Argumentationspfade genauer zu untersuchen.
Ein Reflexionsmechanismus ist im Modell vorhanden, indem der Ausdruck „Warten Sie! Vielleicht habe ich ein paar Fehler gemacht! Ich muss von Grund auf neu überdenken. “ am Ende jedes Denkprozesses. Dies veranlasst das Modell, seine Argumentationsschritte selbst zu reflektieren und neu zu bewerten. Diese Reflexion hat zu erheblichen Verbesserungen für das Modell geführt, insbesondere bei schwierigen Problemen, die das ursprüngliche Modell anfänglich falsch gelöst hat.
Marco-O1 ist besonders effektiv für:
Das Lama 3.2 -Modell umfasst Parameter -Textmodelle von 1 Milliarde (1B) und 3 Milliarden (3B), die für mobile und Kantengeräte ausgelegt sind und sich auf die effiziente Leistung für Anwendungen wie die folgende Zusammenfassung und Anweisung konzentrieren.
Lama 3.2 wurde von öffentlich verfügbaren Quellen von bis zu 9 Billionen Billionen vorgelegt, wobei Wissensdestillationstechniken aus größeren Modellen (wie LAMA 3.1) zur Verbesserung der Leistung gleichzeitig eine geringere Größe aufrechterhalten wurden.
LAMA 3.2 3B zeigte in bestimmten Bereichen eine bemerkenswerte Leistung, insbesondere bei Argumentationsaufgaben. In der ARC-Herausforderung erzielte es eine Punktzahl von 78,6 und übertraf die 76,7 von Gemmas, während er knapp hinter Phi-3,5-Mini stand und 87,4 erzielte. Ebenso erzielte Lama 3.2 3b in der Hellawag -Benchmark 69,8, übertriffte Gemma und blieb mit PHI wettbewerbsfähig.
Daher führen wir in den nächsten Hand in der Python-Implementierung eine vergleichende Bewertung der argumentationsbasierten Frage an den beiden Modellen vor-Marco-O1 und Lama 3.2 3b. Diese vergleichende Bewertung wird in erster Linie durchgeführt, um zu überprüfen, ob die Ausgaben von Marco-O1 in argumentationsbasierten Fragen wirklich hervorragend sind.
Ollama ist ein fortschrittliches KI -Tool, mit dem Benutzer große Sprachmodelle lokal einrichten und ausführen können (in CPU- und GPU -Modi). Wir werden untersuchen, wie diese Modelle in den folgenden Schritten mit Ollama auf Google Colab ausführen.
Im Folgenden werden wir alle benötigten Bibliotheken installieren:
! sudo APT Update ! sudo apt install -y pciutils ! ! curl -fssl https://ollama.com/install.sh | Sh ! PIP Installieren Sie Ollama == 0.4.2
In diesem Schritt richten wir Threading ein, damit Ollama effizient auf Google Colab ausgeführt werden kann. Das Threading ermöglicht eine parallele Ausführung von Aufgaben, wodurch eine reibungslose Leistung und eine schnellere Verarbeitung ohne Verzögerungen gewährleistet wird. Dieses Setup ist entscheidend, um ressourcenintensive Operationen in der Colab-Umgebung nahtlos auszuführen.
Threading importieren Subprozess importieren Importzeit Def Run_ollama_Serve (): subprocess.popen (["Ollama", "Serve"]) thread = threading.thread (target = run_ollama_serve) thread.start () time.sleep (5)
! Ollama Pull Marco-O1
Wir können den gleichen Code verwenden, um das Lama3.2-Modell zu ziehen, indem wir Marco-O1 durch LLAMA3.2 ersetzen.
In diesem Schritt werden Abfragen an das Modell gesendet, um Antworten oder Erkenntnisse basierend auf der Eingabe zu erhalten. Es hilft bei der Interaktion mit dem Modell für Aufgaben wie das Generieren von Text oder die Beantwortung von Fragen.
von Langchain_core.prompts importieren Sie ChatpromptTemplate von Langchain_ollama.llms import oolamallm von ipython.display import markdown template = "" "Frage: {Frage}" "" fordert = chatpromptTemplate.from_template (Vorlage) Modell = ollamallm (modell = "marco-o1") Kette = Eingabeaufforderung | Modell # Eingabe für den Aufruf vorbereiten input_data = { "Frage": 'Ich habe 2 Äpfel, dann kaufe ich 2 weitere. Ich backe einen Kuchen mit 2 der Äpfel. Nachdem ich die Hälfte des Kuchens gegessen habe, wie viele Äpfel habe ich noch übrig? '} # Rufen Sie die Kette mit Eingabedaten auf und zeigen Sie die Antwort im Markdown -Format an response = chain.invoke (input_data) Anzeige (Markdown (Antwort))
In diesem Abschnitt werden wir die Ausgaben von Marco-O1 und Lama 3.2 vergleichen und ihre Stärken und Unterschiede in der Umstellung komplexer Argumentationsaufgaben und Echtzeitanwendungen hervorheben. Durch die Untersuchung ihrer Antworten können wir besser verstehen, wie jedes Modell die Problemlösung nähert und sich an verschiedene Anwendungsfälle anpasst.
„Ich habe 2 Äpfel, dann kaufe ich 2 weitere. Ich backe einen Kuchen mit 2 der Äpfel. Nach dem Essen<br> Die Hälfte des Kuchens Wie viele Äpfel habe ich noch übrig? “
Beide Modelle bieten genaue Antworten, aber Marco-O1 bietet detailliertere Erklärungen im Vergleich zu Lama 3.2.
"Wie viele R in Strawberry?"
Wie aus den obigen Ausgängen hervorgeht, ist die Reaktion aus dem Lama 3.2-Modell ungenau, während die Reaktion vom Marco-O1-Modell genau ist.
"Wie hoch ist der Bereich eines Dreiecks mit einer Basis von 10 Einheiten und einer Höhe von 5 Einheiten?"
Wie aus den obigen Ausgängen hervorgeht, geben beide Modelle genaue Antworten an, aber die Reaktion des Marco-O1-Modells wird im Vergleich zu Lama 3.2 etwas mehr erklärt.
"Wenn ein Auto 20.000 US -Dollar kostet und jedes Jahr um 1.000 US -Dollar abgeschrieben wird, wie viel wird es sein<br> Nach drei Jahren wert? "
Wie aus den obigen Ausgängen hervorgeht, geben beide Modelle genaue Antworten an, aber die Reaktion des Marco-O1-Modells wird im Vergleich zu Lama 3.2 etwas mehr erklärt.
„Alle Vögel können fliegen. Pinguine sind Vögel. Können Pinguine fliegen? "
Wie aus den oben genannten Ausgängen hervorgeht, obwohl beide Modelle genaue Antworten liefern, wird die Reaktion des Marco-O1-Modells weitaus erklärt und aufwändig viele Argumente und doppelte Überprüfungen vorlegen, um die Antwort im Vergleich zu Lama 3.2 zu erreichen.
„Oliver wählt am Freitag 44 Kiwis, dann am Samstag 58. Am Sonntag wählt er das Doppelte, was er am Freitag getan hat, aber fünf waren kleiner als der Durchschnitt. Wie viele Kiwis hat Oliver? “
Wie aus den oben genannten Ausgängen hervorgeht, obwohl beide Modelle genaue Antworten liefern, ist die Antwort von Lama 3.2 ungenau, da sie mit den zusätzlichen Informationen verwechselt wird (aber fünf davon waren kleiner als der Durchschnitt), der in der Abfrage bereitgestellt wird, und subtrahiert daher 5 von der tatsächlichen Antwort. Die Ausgabe von Marco-O1 ist jedoch mit detaillierter Erklärung genau.
John ist allergisch gegen Erdnüsse. Er aß ein Erdnussbutter -Sandwich und fühlte sich gut. Was<br> Können wir über Johns Allergie schließen? “
Wie aus der Antwort des Marco-O1-Modells hervorgeht, wird viel erklärt und aufwändig viele Argumente und doppelte Überprüfungen vorgestellt, um die Antwort zu erreichen. Die Reaktion von Lama 3.2 scheint nicht völlig genau zu sein, da die Informationen „einfach eine Magenverstimmung oder eine Intoleranz gegenüber der Erdnussbutter“ ungenau und widersprüchlich gegenüber den in der Abfrage angegebenen Informationen sind.
Aufgabe | Marco-O1-Leistung | Lama 3.2 (3B -Modell) Leistung | Gewinner |
---|---|---|---|
Aufgabe 1: Logisches Denken | Genau mit detaillierten Erklärungen | Genau, aber weniger detailliert | Marco-O1 |
Aufgabe 2: Erdbeertest | Genau | Ungenau | Marco-O1 |
Aufgabe 3: Geometrie -Argumentation | Genau mit detaillierten Erklärungen | Genau, aber weniger detailliert | Marco-O1 |
Aufgabe 4: Schritt-für-Schritt-Argumentation | Genau mit detaillierten Erklärungen | Genau, aber weniger detailliert | Marco-O1 |
Aufgabe 5: Syllogismus mit Mehrdeutigkeit | Genau mit ausführlichen Erklärungen und Doppelprüfung | Genau, aber weniger detailliert | Marco-O1 |
Aufgabe 6: fragiler mathematischer Kontext | Genau mit detaillierten Erklärungen | Ungenau (verwirrt durch zusätzliche Informationen) | Marco-O1 |
Aufgabe 7: widersprüchliche Informationen | Genau mit ausführlichen Erklärungen und Doppelprüfung | Ungenau (vorausgesetzt widersprüchliche Informationen) | Marco-O1 |
Das Marco-O1-Modell stellt einen signifikanten Fortschritt in der Fähigkeit der KI dar, komplexe Argumentationsaufgaben zu erledigen, insbesondere durch den innovativen Einsatz von Monte-Carlo-Baumsuche und feiner Kette. Die Vielseitigkeit in verschiedenen Bereichen wie Mathematik, Physik und mehrsprachige Aufgaben unterscheidet sie von herkömmlichen Modellen. In der Zwischenzeit bietet das Lama 3.2-Modell eine effiziente Leistung für Edge-Geräte und zeichnet sich in Aufgaben wie Summarisierung und Anweisungsverfolgung aus. Beide Modelle zeigen die kontinuierliche Entwicklung von KI, die jede in ihrer eigenen Domäne hervorragend ist, und unterstreichen zusammen das breite Potenzial fortschrittlicher Sprachmodelle bei der Lösung realer Herausforderungen.
A. Marco-O1 passt seine Argumentationsstrategien an, basierend auf der Komplexität der jeweiligen Aufgabe, die Herausforderungen in überschaubare Schritte aufzuteilen und verschiedene Lösungswege mithilfe der Monte-Carlo-Baumsuche zu untersuchen, um den optimalen Ansatz zu finden.
Q2. Wie verstärkt Monte Carlo Tree Search (MCTS) die Argumentationsfähigkeiten von Marco-O1?A. MCTs ermöglicht es Marco-O1, mehrere potenzielle Lösungen für ein bestimmtes Problem zu untersuchen, wodurch die vielversprechendsten Pfade durch zufällige Stichproben auswählt, was zu einer genaueren und effizienteren Problemlösung führt.
Q3. Was ist der Zweck des Reflexionsmechanismus in Marco-O1?A. Der Reflexionsmechanismus ermöglicht es Marco-O1, seine Argumentationsschritte am Ende jedes Prozesses neu zu bewerten, wodurch das Modell die Genauigkeit verbessert und seine Antworten verfeinert, insbesondere für hochkomplexe Abfragen.
Q4. Wie vergleichen sich Marco-O1 und Lama 3.2 in Bezug auf die Umgang mit komplexen Argumentationsaufgaben?A. Marco-O1 ist spezialisiert, um komplexe Argumentationsaufgaben anhand fortschrittlicher Techniken wie der Gedanken-Feinabstimmung und MCTs anzugehen. LAMA 3.2 zeichnet sich in effizienten Echtzeitanwendungen auf mobilen und Edge-Geräten mit erweiterter Kontextbearbeitung aus.
Q5. Welche Bedeutung hat das leichte Design des Lama 3.2 -Modells?A. Das leichte Design von LLAMA 3.2 macht es ideal für die Bereitstellung auf Mobil- und Kantengeräten und bietet eine effiziente Leistung und die Fähigkeit, verschiedene Aufgaben wie Zusammenfassung und mehrsprachige Interaktionen zu erfüllen.
Die in diesem Artikel gezeigten Medien sind nicht im Besitz von Analytics Vidhya und werden nach Ermessen des Autors verwendet.
Das obige ist der detaillierte Inhalt vonMarco-O1 gegen Lama 3.2: Was ist besser?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!