Rumah >Peranti teknologi >AI >Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

William Shakespeare
William Shakespeareasal
2025-03-13 10:27:10535semak imbas

Model Openai O1 telah menghasilkan kegembiraan yang besar dalam bidang model penalaran besar (LRMS) kerana keupayaan lanjutannya dalam menangani masalah yang kompleks. Membina asas ini, Marco-O1emerges sebagai LRM baru yang bukan sahaja menekankan disiplin tradisional seperti matematik dan pengekodan tetapi juga mengutamakan penyelesaian masalah terbuka di pelbagai domain. Fokus utama Marco-O1 adalah untuk meneroka sejauh mana model O1 dapat menyebarkan kebolehannya ke kawasan yang tidak mempunyai piawaian yang jelas dan ganjaran yang dapat diukur. Eksplorasi ini adalah penting untuk memahami potensi aplikasi LRM dalam senario dunia sebenar di mana metrik konvensional mungkin tidak terpakai, dengan itu mendorong sempadan apa yang dapat dicapai oleh model-model ini.

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Objektif pembelajaran

  • Memahami seni bina dan teknik utama di belakang model Marco-O1, termasuk carian pokok halus dan carian Monte Carlo.
  • Terokai bagaimana Marco-O1 menyesuaikan strategi penalarannya untuk tugas-tugas penyelesaian masalah yang rumit dan terbuka di pelbagai domain.
  • Menganalisis peranan mekanisme refleksi dalam meningkatkan ketepatan penalaran dengan mendorong penilaian diri terhadap output model.
  • Bandingkan keupayaan penalaran Marco-O1 dan Llama 3.2, memberi tumpuan kepada kedalaman dan penjelasan output mereka dalam senario penalaran maju.
  • Periksa aplikasi praktikal Marco-O1 dalam penyelesaian masalah dunia sebenar, termasuk tugas matematik, logik, dan berbilang bahasa.

Artikel ini diterbitkan sebagai sebahagian daripada Blogathon Sains Data.

Jadual Kandungan

  • Apa itu Marco-O1?
  • Teknik untuk penalaran lanjutan
  • Apa itu llama 3.2?
  • Model berjalan di google colab menggunakan ollama
  • Mari Mulakan Perbandingan: Marco-O1 vs Llama 3.2
  • Tugas 1: Penaakulan Logik
  • Tugas 2: Ujian Strawberry
  • Tugas 3: Penaakulan berasaskan geometri
  • Tugas 4: Langkah demi langkah penalaran
  • Tugas 5: Konteks matematik yang rapuh
  • Tugas 6: Maklumat yang bercanggah
  • Keputusan: Marco-O1 vs Llama 3.2
  • Kesimpulan
  • Soalan yang sering ditanya

Apa itu Marco-O1?

Marco-O1 adalah model pemikiran maju yang dibangunkan oleh pasukan Marcopolo di Alibaba International Digital Commerce, yang direka untuk menangani tugas penyelesaian masalah terbuka.

Ia dibina di atas seni bina Qwen2 dan menggunakan kombinasi yang canggih dari teknik carian pokok carian (COT)

Dataset latihan

Dengan penalaan QWEN2-7B-penyusun dengan gabungan dataset Open-O1 COT yang ditapis, dataset Marco-O1 COT, dan dataset arahan Marco-O1, Marco-O1 meningkatkan pengendalian tugas kompleksnya.

  • Open-O1 Cot Dataset: Disempurnakan melalui penapisan heuristik untuk mempromosikan corak penalaran berstruktur.
  • MARCO-O1 COT Dataset: Dihasilkan menggunakan MCTS untuk merumuskan laluan penalaran kompleks.
  • Dataset Arahan Marco: memberi tumpuan kepada peningkatan keupayaan mengikuti arahan di seluruh tugas yang pelbagai.

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Di bawah Imej menggambarkan proses kesimpulan untuk MARCO-01, memperincikan penggunaan dataset seperti Open-01 Cot dan Marco-01 Cot. Proses ini melibatkan memilih laluan segera, melaksanakan MCT, dan memohon penalaan yang diselia untuk ketepatan yang lebih baik. Ini membawa kepada penjanaan jawapan terakhir dengan skor keyakinan.

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Teknik untuk penalaran lanjutan

Ini memberi tumpuan kepada kaedah yang canggih yang membolehkan model AI mengendalikan tugas-tugas yang kompleks, seperti penalaran melalui pelbagai langkah, mengoptimumkan pengambilan keputusan, dan menggabungkan ketidakpastian untuk ramalan dan tindak balas yang lebih tepat.

Penyelesaian Ruang Pengembangan Viamonte Carlo Carian Pokok

MCTS digunakan untuk menentukan jawapan yang terbaik untuk pertanyaan pengguna dengan meneroka semua jawapan yang mungkin melalui persampelan rawak. Seperti yang ditunjukkan dalam angka di atas, dalam MCTS, nodesrepresent laluan penalaran yang berbeza dan nodesspecifically kuning dipilih untuk penjelajahan lanjut. Green NodesRepresents Jawapan akhir manakala anak panah seperti "pilih" dan "sandaran" menunjukkan bagaimana sistem menilai dan menyempurnakan pilihan.

Skor keyakinan

Sistem ini mengira skor keyakinan selepas menghasilkan jawapan menggunakan kebarangkalian (ditunjukkan dalam formula) untuk memperbaiki output akhir.

Strategi Tindakan

Model ini boleh berfungsi pada dua peringkat-penalaran tahap yang luas (tahap langkah ) dan penalaran langkah multi (tahap mini langkah).

Tahap granulariti yang berbeza telah diterokai dalam carian MCTS. Untuk memperluaskan ruang carian model dan meningkatkan keupayaan menyelesaikan masalahnya, langkah-langkah dibahagikan kepada unit yang lebih kecil daripada 64 atau 32 token, yang disebut sebagai "mini langkah." Granulariti yang lebih halus ini membolehkan model untuk meneroka laluan penalaran dengan lebih terperinci.

Refleksi selepas berfikir

Mekanisme refleksi hadir dalam model dengan menambahkan frasa "Tunggu! Mungkin saya membuat beberapa kesilapan! Saya perlu memikirkan semula dari awal. " Pada akhir setiap proses pemikiran. Ini mendorong model untuk mencerminkan diri dan menilai semula langkah-langkah penalarannya. Refleksi ini telah menghasilkan penambahbaikan yang ketara untuk model, terutamanya pada masalah yang sukar yang model asalnya pada mulanya diselesaikan dengan tidak betul.

Ciri -ciri utama

  • Penalaran terbuka: Tidak seperti model tradisional yang cemerlang dalam domain jawapan standard (seperti matematik atau pengekodan), Marco-O1 menekankan resolusi terbuka, menjadikannya sesuai untuk pelbagai aplikasi yang lebih luas di mana piawaian yang jelas tidak hadir.
  • Eksplorasi Penyelesaian: Pelaksanaan MCTS membolehkan model untuk meneroka pelbagai laluan penyelesaian, sama dengan pemain catur memandangkan pelbagai langkah sebelum membuat keputusan. Pendekatan ini membantu dalam mengenal pasti strategi yang paling menjanjikan untuk menyelesaikan masalah.
  • Strategi Penaakulan Fleksibel: Marco-O1 menyesuaikan strategi penalarannya berdasarkan jenis masalah yang ditemui, dengan berkesan memecahkan tugas-tugas yang kompleks ke dalam langkah-langkah yang boleh diurus.

Aplikasi

Marco-O1 sangat berkesan untuk:

  • Senario penyelesaian masalah kompleks di mana jawapan tradisional mungkin tidak mencukupi.
  • Tugas Penalaran Matematik.
  • Tugas terjemahan yang canggih yang memerlukan pemahaman yang bernuansa.

Apa itu llama 3.2?

Model Llama 3.2 termasuk model teks parameter 1 bilion (1b) dan 3 bilion (3b) yang direka untuk peranti mudah alih dan kelebihan, memberi tumpuan kepada prestasi yang cekap untuk aplikasi seperti ringkasan dan arahan berikut.

Senibina model

Llama 3.2 telah pretrained pada sehingga 9 trilion tokens dari sumber yang tersedia secara terbuka, menggabungkan teknik penyulingan pengetahuan dari model yang lebih besar (seperti Llama 3.1) untuk meningkatkan prestasi sambil mengekalkan saiz yang lebih kecil.

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Ciri -ciri utama

  • Dioptimumkan untuk peranti Edge: Model ini direka untuk menjadi ringan, menjadikannya sesuai untuk digunakan pada peranti mudah alih dan tepi.
  • Panjang konteks yang dilanjutkan: Llama 3.2 menyokong panjang konteks sehingga token hingga128k (~ 96,240 perkataan), yang memudahkan pengendalian input yang panjang dan mengekalkan konteks ke atas interaksi lanjutan.
  • Sokongan untuk dialog berbilang bahasa: Model ini dioptimumkan untuk kes -kes penggunaan berbilang bahasa, menjadikannya berkesan dalam aplikasi yang memerlukan interaksi dalam pelbagai bahasa.

Aplikasi

Llama 3.2 3B menunjukkan prestasi yang ketara di kawasan tertentu, terutamanya dalam tugas -tugas pemikiran. Dalam Cabaran ARC, ia mencapai skor 78.6, melepasi Gemma 76.7, sementara berada di belakang Phi-3.5-mini, yang menjaringkan 87.4. Begitu juga, dalam penanda aras Hellawag, Llama 3.2 3B menjaringkan 69.8, mengatasi Gemma dan kekal berdaya saing dengan PHI.

Oleh itu, di tangan seterusnya pada pelaksanaan Python kita melakukan penilaian perbandingan soalan berasaskan pemikiran mengenai kedua-dua model-Marco-O1 dan Llama 3.2 3b. Penilaian perbandingan ini terutama dilakukan untuk memeriksa sama ada output dari Marco-O1 benar-benar cemerlang dalam soalan berasaskan pemikiran.

Model berjalan di google colab menggunakan ollama

Ollama adalah alat AI yang canggih yang membolehkan pengguna dengan mudah menubuhkan dan menjalankan model bahasa yang besar secara tempatan (dalam mod CPU dan GPU). Kami akan meneroka cara menjalankan model ini di Google Colab menggunakan Ollama dalam langkah -langkah berikut.

Langkah1: Pemasangan perpustakaan

Di bawah ini kami akan memasang semua perpustakaan yang diperlukan:

 ! Sudo apt update
! sudo apt install -y pciutils
! Pip memasang Langchain-ollama
! curl -fssl https://ollama.com/install.sh | sh
! Pip memasang ollama == 0.4.2

Langkah2: Membolehkan proses threading untuk menjalankan Ollama di Google Colab

Dalam langkah ini, kami menyediakan threading untuk membolehkan Ollama berjalan dengan cekap di Google Colab. Threading membolehkan pelaksanaan tugas selari, memastikan prestasi lancar dan pemprosesan yang lebih cepat tanpa kelewatan. Persediaan ini sangat penting untuk menjalankan operasi intensif sumber secara lancar dalam persekitaran Colab.

 import threading
Import subprocess
masa import

def run_ollama_serve ():
  subprocess.popen (["Ollama", "Serve"])

Thread = threading.Thread (sasaran = run_ollama_serve)
thread.start ()
Time.Sleep (5)

Langkah3: Menarik Model Ollama

 ! Ollama tarik Marco-O1

Kita boleh menggunakan kod yang sama untuk menarik model Llama3.2 dengan menggantikan Marco-O1 dengan Llama3.2.

Langkah4: Menanyakan model

Langkah ini melibatkan menghantar pertanyaan kepada model untuk mendapatkan respons atau pandangan berdasarkan input. Ia membantu dalam berinteraksi dengan model untuk tugas seperti menghasilkan teks atau menjawab soalan.

 dari langchain_core.prompts import chatpromptplate
dari langchain_ollama.llms Import Ollamallm
dari ipython.display import markdown

Template = "" "Soalan: {Soalan}" ""

prompt = chatPromptTemplate.from_template (templat)

Model = Olamallm (Model = "Marco-O1")

rantai = prompt | model

# Sediakan input untuk penyerahan
input_data = {
    "Soalan": 'Saya mempunyai 2 epal, maka saya membeli 2 lagi. Saya membakar pai dengan 2 epal. Setelah makan separuh pai berapa banyak epal yang saya tinggalkan? '}

# Memohon rantai dengan data input dan paparkan respons dalam format markdown
respons = chain.invoke (input_data)
paparan (markdown (respons))

Mari Mulakan Perbandingan: Marco-O1 vs Llama 3.2

Dalam bahagian ini, kami akan membandingkan output Marco-O1 dan Llama 3.2, yang menonjolkan kekuatan dan perbezaan mereka dalam mengendalikan tugas-tugas penalaran yang kompleks dan aplikasi masa nyata. Dengan mengkaji respons mereka, kita dapat lebih memahami bagaimana setiap model mendekati penyelesaian masalah dan menyesuaikan diri dengan kes penggunaan yang berbeza.

Tugas 1: Penaakulan Logik

 "Saya mempunyai 2 epal, maka saya membeli 2 lagi. Saya membakar pai dengan 2 epal. Selepas makan<br> Separuh pai berapa epal yang saya tinggalkan? "

Output dari Marco-O1

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Output dari Llama 3.2 (model 3b)

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Kedua-dua model memberikan respons yang tepat, tetapi Marco-O1 menawarkan penjelasan yang lebih terperinci berbanding Llama 3.2.

Tugas 2: Ujian Strawberry

 "Berapa banyak R di Strawberry?"

Output dari Marco-O1

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Output dari Llama 3.2 (model 3b)

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Seperti yang dapat dilihat dari output di atas, tindak balas dari model Llama 3.2 tidak tepat manakala tindak balas dari model Marco-O1 adalah tepat.

Tugas 3: Penaakulan berasaskan geometri

 "Apakah kawasan segitiga dengan pangkalan 10 unit dan ketinggian 5 unit?"

Output dari Marco-O1

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Output dari Llama 3.2 (model 3b)

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Seperti yang dapat dilihat dari output di atas, kedua-dua model memberikan respons yang tepat tetapi tindak balas dari model Marco-O1 sedikit lebih dijelaskan berbanding Llama 3.2.

Tugas 4: Langkah demi langkah penalaran

 "Sekiranya kereta berharga $ 20,000 dan menyusut sebanyak $ 1,000 setiap tahun, berapa banyak<br> bernilai selepas tiga tahun? "

Output dari Marco-O1

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Output dari Llama 3.2 (model 3b)

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Seperti yang dapat dilihat dari output di atas, kedua-dua model memberikan respons yang tepat tetapi tindak balas dari model Marco-O1 sedikit lebih dijelaskan berbanding Llama 3.2.

Syllogisme dengan kekaburan

 "Semua burung boleh terbang. Penguin adalah burung. Bolehkah penguin terbang? "

Output dari Marco-O1

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Output dari Llama 3.2 (model 3b)

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Seperti yang dapat dilihat dari output di atas walaupun kedua-dua model memberikan respons yang tepat, respons dari model Marco-O1 adalah cara yang lebih dijelaskan dan terperinci membentangkan banyak argumen dan pemeriksaan berganda untuk tiba di jawapan berbanding Llama 3.2.

Tugas 5: Konteks matematik yang rapuh

"Oliver memilih 44 Kiwis pada hari Jumaat, kemudian 58 pada hari Sabtu. Pada hari Ahad, dia memilih dua kali ganda apa yang dilakukannya pada hari Jumaat, tetapi lima daripadanya lebih kecil daripada purata. Berapa banyak kiwi yang dimiliki Oliver? "

Output dari Marco-O1

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Output dari Llama 3.2 (model 3B)

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Seperti yang dapat dilihat dari output di atas walaupun kedua -dua model memberikan respons yang tepat, respons dari Llama 3.2 tidak tepat kerana ia menjadi keliru dengan maklumat tambahan (tetapi lima daripadanya lebih kecil daripada purata) yang disediakan dalam pertanyaan dan oleh itu menolak 5 dari jawapan sebenar. Walau bagaimanapun, output dari Marco-O1 adalah tepat dengan penjelasan terperinci.

Tugas 6: Maklumat yang bercanggah

 "John alah kepada kacang tanah. Dia makan sandwic mentega kacang dan terasa baik. Apa<br> Bolehkah kita menyimpulkan tentang alahan John? "

Output dari Marco-O1

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Output dari Llama 3.2 (model 3B)

Marco-O1 vs Llama 3.2: Mana yang lebih baik?

Seperti yang dapat dilihat dari respons dari model Marco-O1, ia banyak dijelaskan dan terperinci membentangkan banyak hujah dan pemeriksaan berganda untuk tiba di jawapannya. Sambutan dari Llama 3.2 nampaknya tidak benar -benar tepat kerana maklumat "dia hanya mengalami kecewa perut atau sikap tidak bertoleransi terhadap mentega kacang" tidak tepat dan bercanggah dengan maklumat yang diberikan dalam pertanyaan.

Keputusan: Marco-O1 vs Llama 3.2

Tugas Prestasi Marco-O1 Llama 3.2 (3B Model) Prestasi Pemenang
Tugas 1: Penaakulan Logik Tepat dengan penjelasan terperinci Tepat tetapi kurang terperinci Marco-O1
Tugas 2: Ujian Strawberry Tepat Tidak tepat Marco-O1
Tugas 3: Penaakulan geometri Tepat dengan penjelasan terperinci Tepat tetapi kurang terperinci Marco-O1
Tugas 4: Penalaran Langkah demi Langkah Tepat dengan penjelasan terperinci Tepat tetapi kurang terperinci Marco-O1
Tugas 5: Syllogisme dengan kekaburan Tepat dengan penjelasan yang rumit dan pemeriksaan berganda Tepat tetapi kurang terperinci Marco-O1
Tugas 6: Konteks matematik yang rapuh Tepat dengan penjelasan terperinci Tidak tepat (keliru dengan maklumat tambahan) Marco-O1
Tugas 7: Maklumat yang bercanggah Tepat dengan penjelasan yang rumit dan pemeriksaan berganda Tidak tepat (disediakan maklumat bercanggah) Marco-O1

Kesimpulan

Model Marco-O1 mewakili kemajuan yang signifikan dalam keupayaan AI untuk mengendalikan tugas-tugas penalaran yang kompleks, terutamanya melalui penggunaan inovatif pencarian pokok Monte Carlo dan penalaan halus. Fleksibiliti di pelbagai domain seperti matematik, fizik, dan tugas berbilang bahasa membezakannya daripada model tradisional. Sementara itu, model Llama 3.2 menawarkan prestasi yang cekap untuk peranti kelebihan, cemerlang dalam tugas seperti ringkasan dan arahan-berikut. Kedua-dua model mempamerkan evolusi AI yang berterusan, masing-masing cemerlang dalam domainnya sendiri, dan bersama-sama mereka menyerlahkan potensi luas model bahasa canggih dalam menyelesaikan cabaran dunia sebenar.

Takeaways utama

  • Marco-O1 menggunakan penalaan halus dan pencarian pokok Monte Carlo untuk penyelesaian masalah lanjutan.
  • Ia menyesuaikan strategi penalaran, memecahkan cabaran, dan meneroka pelbagai penyelesaian.
  • Mekanisme refleksi meningkatkan ketepatan dengan menilai semula langkah -langkah penalaran.
  • Llama 3.2 dioptimumkan untuk peranti mudah alih/kelebihan, cemerlang dalam ringkasan dan pengajaran-berikut.
  • Ia menyokong input panjang dengan konteks token 128k untuk interaksi lanjutan.
  • Marco-O1 menyampaikan respons terperinci, penjelasan dengan cek menyeluruh untuk pertanyaan kompleks.

Soalan yang sering ditanya

Q1. Bagaimanakah Marco-O1 menyesuaikan strategi penalarannya kepada tugas yang berbeza?

A. Marco-O1 menyesuaikan strategi penalarannya berdasarkan kerumitan tugas di tangan, memecahkan cabaran ke dalam langkah-langkah yang boleh diurus dan meneroka pelbagai laluan penyelesaian menggunakan Monte Carlo Tree Search untuk mencari pendekatan yang optimum.

S2. Bagaimanakah pencarian pokok Monte Carlo (MCTS) meningkatkan kebolehan penalaran Marco-O1?

A. MCTS membolehkan Marco-O1 untuk meneroka pelbagai penyelesaian yang berpotensi untuk masalah tertentu, memilih laluan yang paling menjanjikan melalui persampelan rawak, yang membawa kepada penyelesaian masalah yang lebih tepat dan cekap.

Q3. Apakah tujuan mekanisme refleksi di Marco-O1?

A. Mekanisme refleksi membolehkan Marco-O1 untuk menilai semula langkah-langkah penalarannya pada akhir setiap proses, membantu model meningkatkan ketepatan dan memperbaiki jawapannya, terutama untuk pertanyaan yang sangat kompleks.

Q4. Bagaimanakah Marco-O1 dan Llama 3.2 membandingkan dari segi mengendalikan tugas penalaran kompleks?

A. Marco-O1 khusus untuk menangani tugas-tugas penalaran yang kompleks menggunakan teknik canggih seperti penalaan halus dan MCT. Llama 3.2 cemerlang dalam aplikasi yang cekap, masa nyata pada peranti mudah alih dan kelebihan, dengan pengendalian konteks lanjutan.

S5. Apakah yang dimaksudkan dengan reka bentuk ringan model Llama 3.2?

A. Reka bentuk ringan Llama 3.2 menjadikannya ideal untuk penempatan pada peranti mudah alih dan kelebihan, menawarkan prestasi yang cekap sambil mengekalkan keupayaan untuk mengendalikan pelbagai tugas seperti ringkasan dan interaksi berbilang bahasa.

Media yang ditunjukkan dalam artikel ini tidak dimiliki oleh Analytics Vidhya dan digunakan atas budi bicara penulis.

Atas ialah kandungan terperinci Marco-O1 vs Llama 3.2: Mana yang lebih baik?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn