Rumah >Peranti teknologi >AI >Marco-O1 vs Llama 3.2: Mana yang lebih baik?
Model Openai O1 telah menghasilkan kegembiraan yang besar dalam bidang model penalaran besar (LRMS) kerana keupayaan lanjutannya dalam menangani masalah yang kompleks. Membina asas ini, Marco-O1emerges sebagai LRM baru yang bukan sahaja menekankan disiplin tradisional seperti matematik dan pengekodan tetapi juga mengutamakan penyelesaian masalah terbuka di pelbagai domain. Fokus utama Marco-O1 adalah untuk meneroka sejauh mana model O1 dapat menyebarkan kebolehannya ke kawasan yang tidak mempunyai piawaian yang jelas dan ganjaran yang dapat diukur. Eksplorasi ini adalah penting untuk memahami potensi aplikasi LRM dalam senario dunia sebenar di mana metrik konvensional mungkin tidak terpakai, dengan itu mendorong sempadan apa yang dapat dicapai oleh model-model ini.
Artikel ini diterbitkan sebagai sebahagian daripada Blogathon Sains Data.
Marco-O1 adalah model pemikiran maju yang dibangunkan oleh pasukan Marcopolo di Alibaba International Digital Commerce, yang direka untuk menangani tugas penyelesaian masalah terbuka.
Ia dibina di atas seni bina Qwen2 dan menggunakan kombinasi yang canggih dari teknik carian pokok carian (COT)
Dengan penalaan QWEN2-7B-penyusun dengan gabungan dataset Open-O1 COT yang ditapis, dataset Marco-O1 COT, dan dataset arahan Marco-O1, Marco-O1 meningkatkan pengendalian tugas kompleksnya.
Di bawah Imej menggambarkan proses kesimpulan untuk MARCO-01, memperincikan penggunaan dataset seperti Open-01 Cot dan Marco-01 Cot. Proses ini melibatkan memilih laluan segera, melaksanakan MCT, dan memohon penalaan yang diselia untuk ketepatan yang lebih baik. Ini membawa kepada penjanaan jawapan terakhir dengan skor keyakinan.
Ini memberi tumpuan kepada kaedah yang canggih yang membolehkan model AI mengendalikan tugas-tugas yang kompleks, seperti penalaran melalui pelbagai langkah, mengoptimumkan pengambilan keputusan, dan menggabungkan ketidakpastian untuk ramalan dan tindak balas yang lebih tepat.
MCTS digunakan untuk menentukan jawapan yang terbaik untuk pertanyaan pengguna dengan meneroka semua jawapan yang mungkin melalui persampelan rawak. Seperti yang ditunjukkan dalam angka di atas, dalam MCTS, nodesrepresent laluan penalaran yang berbeza dan nodesspecifically kuning dipilih untuk penjelajahan lanjut. Green NodesRepresents Jawapan akhir manakala anak panah seperti "pilih" dan "sandaran" menunjukkan bagaimana sistem menilai dan menyempurnakan pilihan.
Sistem ini mengira skor keyakinan selepas menghasilkan jawapan menggunakan kebarangkalian (ditunjukkan dalam formula) untuk memperbaiki output akhir.
Model ini boleh berfungsi pada dua peringkat-penalaran tahap yang luas (tahap langkah ) dan penalaran langkah multi (tahap mini langkah).
Tahap granulariti yang berbeza telah diterokai dalam carian MCTS. Untuk memperluaskan ruang carian model dan meningkatkan keupayaan menyelesaikan masalahnya, langkah-langkah dibahagikan kepada unit yang lebih kecil daripada 64 atau 32 token, yang disebut sebagai "mini langkah." Granulariti yang lebih halus ini membolehkan model untuk meneroka laluan penalaran dengan lebih terperinci.
Mekanisme refleksi hadir dalam model dengan menambahkan frasa "Tunggu! Mungkin saya membuat beberapa kesilapan! Saya perlu memikirkan semula dari awal. " Pada akhir setiap proses pemikiran. Ini mendorong model untuk mencerminkan diri dan menilai semula langkah-langkah penalarannya. Refleksi ini telah menghasilkan penambahbaikan yang ketara untuk model, terutamanya pada masalah yang sukar yang model asalnya pada mulanya diselesaikan dengan tidak betul.
Marco-O1 sangat berkesan untuk:
Model Llama 3.2 termasuk model teks parameter 1 bilion (1b) dan 3 bilion (3b) yang direka untuk peranti mudah alih dan kelebihan, memberi tumpuan kepada prestasi yang cekap untuk aplikasi seperti ringkasan dan arahan berikut.
Llama 3.2 telah pretrained pada sehingga 9 trilion tokens dari sumber yang tersedia secara terbuka, menggabungkan teknik penyulingan pengetahuan dari model yang lebih besar (seperti Llama 3.1) untuk meningkatkan prestasi sambil mengekalkan saiz yang lebih kecil.
Llama 3.2 3B menunjukkan prestasi yang ketara di kawasan tertentu, terutamanya dalam tugas -tugas pemikiran. Dalam Cabaran ARC, ia mencapai skor 78.6, melepasi Gemma 76.7, sementara berada di belakang Phi-3.5-mini, yang menjaringkan 87.4. Begitu juga, dalam penanda aras Hellawag, Llama 3.2 3B menjaringkan 69.8, mengatasi Gemma dan kekal berdaya saing dengan PHI.
Oleh itu, di tangan seterusnya pada pelaksanaan Python kita melakukan penilaian perbandingan soalan berasaskan pemikiran mengenai kedua-dua model-Marco-O1 dan Llama 3.2 3b. Penilaian perbandingan ini terutama dilakukan untuk memeriksa sama ada output dari Marco-O1 benar-benar cemerlang dalam soalan berasaskan pemikiran.
Ollama adalah alat AI yang canggih yang membolehkan pengguna dengan mudah menubuhkan dan menjalankan model bahasa yang besar secara tempatan (dalam mod CPU dan GPU). Kami akan meneroka cara menjalankan model ini di Google Colab menggunakan Ollama dalam langkah -langkah berikut.
Di bawah ini kami akan memasang semua perpustakaan yang diperlukan:
! Sudo apt update ! sudo apt install -y pciutils ! Pip memasang Langchain-ollama ! curl -fssl https://ollama.com/install.sh | sh ! Pip memasang ollama == 0.4.2
Dalam langkah ini, kami menyediakan threading untuk membolehkan Ollama berjalan dengan cekap di Google Colab. Threading membolehkan pelaksanaan tugas selari, memastikan prestasi lancar dan pemprosesan yang lebih cepat tanpa kelewatan. Persediaan ini sangat penting untuk menjalankan operasi intensif sumber secara lancar dalam persekitaran Colab.
import threading Import subprocess masa import def run_ollama_serve (): subprocess.popen (["Ollama", "Serve"]) Thread = threading.Thread (sasaran = run_ollama_serve) thread.start () Time.Sleep (5)
! Ollama tarik Marco-O1
Kita boleh menggunakan kod yang sama untuk menarik model Llama3.2 dengan menggantikan Marco-O1 dengan Llama3.2.
Langkah ini melibatkan menghantar pertanyaan kepada model untuk mendapatkan respons atau pandangan berdasarkan input. Ia membantu dalam berinteraksi dengan model untuk tugas seperti menghasilkan teks atau menjawab soalan.
dari langchain_core.prompts import chatpromptplate dari langchain_ollama.llms Import Ollamallm dari ipython.display import markdown Template = "" "Soalan: {Soalan}" "" prompt = chatPromptTemplate.from_template (templat) Model = Olamallm (Model = "Marco-O1") rantai = prompt | model # Sediakan input untuk penyerahan input_data = { "Soalan": 'Saya mempunyai 2 epal, maka saya membeli 2 lagi. Saya membakar pai dengan 2 epal. Setelah makan separuh pai berapa banyak epal yang saya tinggalkan? '} # Memohon rantai dengan data input dan paparkan respons dalam format markdown respons = chain.invoke (input_data) paparan (markdown (respons))
Dalam bahagian ini, kami akan membandingkan output Marco-O1 dan Llama 3.2, yang menonjolkan kekuatan dan perbezaan mereka dalam mengendalikan tugas-tugas penalaran yang kompleks dan aplikasi masa nyata. Dengan mengkaji respons mereka, kita dapat lebih memahami bagaimana setiap model mendekati penyelesaian masalah dan menyesuaikan diri dengan kes penggunaan yang berbeza.
"Saya mempunyai 2 epal, maka saya membeli 2 lagi. Saya membakar pai dengan 2 epal. Selepas makan<br> Separuh pai berapa epal yang saya tinggalkan? "
Kedua-dua model memberikan respons yang tepat, tetapi Marco-O1 menawarkan penjelasan yang lebih terperinci berbanding Llama 3.2.
"Berapa banyak R di Strawberry?"
Seperti yang dapat dilihat dari output di atas, tindak balas dari model Llama 3.2 tidak tepat manakala tindak balas dari model Marco-O1 adalah tepat.
"Apakah kawasan segitiga dengan pangkalan 10 unit dan ketinggian 5 unit?"
Seperti yang dapat dilihat dari output di atas, kedua-dua model memberikan respons yang tepat tetapi tindak balas dari model Marco-O1 sedikit lebih dijelaskan berbanding Llama 3.2.
"Sekiranya kereta berharga $ 20,000 dan menyusut sebanyak $ 1,000 setiap tahun, berapa banyak<br> bernilai selepas tiga tahun? "
Seperti yang dapat dilihat dari output di atas, kedua-dua model memberikan respons yang tepat tetapi tindak balas dari model Marco-O1 sedikit lebih dijelaskan berbanding Llama 3.2.
"Semua burung boleh terbang. Penguin adalah burung. Bolehkah penguin terbang? "
Seperti yang dapat dilihat dari output di atas walaupun kedua-dua model memberikan respons yang tepat, respons dari model Marco-O1 adalah cara yang lebih dijelaskan dan terperinci membentangkan banyak argumen dan pemeriksaan berganda untuk tiba di jawapan berbanding Llama 3.2.
"Oliver memilih 44 Kiwis pada hari Jumaat, kemudian 58 pada hari Sabtu. Pada hari Ahad, dia memilih dua kali ganda apa yang dilakukannya pada hari Jumaat, tetapi lima daripadanya lebih kecil daripada purata. Berapa banyak kiwi yang dimiliki Oliver? "
Seperti yang dapat dilihat dari output di atas walaupun kedua -dua model memberikan respons yang tepat, respons dari Llama 3.2 tidak tepat kerana ia menjadi keliru dengan maklumat tambahan (tetapi lima daripadanya lebih kecil daripada purata) yang disediakan dalam pertanyaan dan oleh itu menolak 5 dari jawapan sebenar. Walau bagaimanapun, output dari Marco-O1 adalah tepat dengan penjelasan terperinci.
"John alah kepada kacang tanah. Dia makan sandwic mentega kacang dan terasa baik. Apa<br> Bolehkah kita menyimpulkan tentang alahan John? "
Seperti yang dapat dilihat dari respons dari model Marco-O1, ia banyak dijelaskan dan terperinci membentangkan banyak hujah dan pemeriksaan berganda untuk tiba di jawapannya. Sambutan dari Llama 3.2 nampaknya tidak benar -benar tepat kerana maklumat "dia hanya mengalami kecewa perut atau sikap tidak bertoleransi terhadap mentega kacang" tidak tepat dan bercanggah dengan maklumat yang diberikan dalam pertanyaan.
Tugas | Prestasi Marco-O1 | Llama 3.2 (3B Model) Prestasi | Pemenang |
---|---|---|---|
Tugas 1: Penaakulan Logik | Tepat dengan penjelasan terperinci | Tepat tetapi kurang terperinci | Marco-O1 |
Tugas 2: Ujian Strawberry | Tepat | Tidak tepat | Marco-O1 |
Tugas 3: Penaakulan geometri | Tepat dengan penjelasan terperinci | Tepat tetapi kurang terperinci | Marco-O1 |
Tugas 4: Penalaran Langkah demi Langkah | Tepat dengan penjelasan terperinci | Tepat tetapi kurang terperinci | Marco-O1 |
Tugas 5: Syllogisme dengan kekaburan | Tepat dengan penjelasan yang rumit dan pemeriksaan berganda | Tepat tetapi kurang terperinci | Marco-O1 |
Tugas 6: Konteks matematik yang rapuh | Tepat dengan penjelasan terperinci | Tidak tepat (keliru dengan maklumat tambahan) | Marco-O1 |
Tugas 7: Maklumat yang bercanggah | Tepat dengan penjelasan yang rumit dan pemeriksaan berganda | Tidak tepat (disediakan maklumat bercanggah) | Marco-O1 |
Model Marco-O1 mewakili kemajuan yang signifikan dalam keupayaan AI untuk mengendalikan tugas-tugas penalaran yang kompleks, terutamanya melalui penggunaan inovatif pencarian pokok Monte Carlo dan penalaan halus. Fleksibiliti di pelbagai domain seperti matematik, fizik, dan tugas berbilang bahasa membezakannya daripada model tradisional. Sementara itu, model Llama 3.2 menawarkan prestasi yang cekap untuk peranti kelebihan, cemerlang dalam tugas seperti ringkasan dan arahan-berikut. Kedua-dua model mempamerkan evolusi AI yang berterusan, masing-masing cemerlang dalam domainnya sendiri, dan bersama-sama mereka menyerlahkan potensi luas model bahasa canggih dalam menyelesaikan cabaran dunia sebenar.
A. Marco-O1 menyesuaikan strategi penalarannya berdasarkan kerumitan tugas di tangan, memecahkan cabaran ke dalam langkah-langkah yang boleh diurus dan meneroka pelbagai laluan penyelesaian menggunakan Monte Carlo Tree Search untuk mencari pendekatan yang optimum.
S2. Bagaimanakah pencarian pokok Monte Carlo (MCTS) meningkatkan kebolehan penalaran Marco-O1?A. MCTS membolehkan Marco-O1 untuk meneroka pelbagai penyelesaian yang berpotensi untuk masalah tertentu, memilih laluan yang paling menjanjikan melalui persampelan rawak, yang membawa kepada penyelesaian masalah yang lebih tepat dan cekap.
Q3. Apakah tujuan mekanisme refleksi di Marco-O1?A. Mekanisme refleksi membolehkan Marco-O1 untuk menilai semula langkah-langkah penalarannya pada akhir setiap proses, membantu model meningkatkan ketepatan dan memperbaiki jawapannya, terutama untuk pertanyaan yang sangat kompleks.
Q4. Bagaimanakah Marco-O1 dan Llama 3.2 membandingkan dari segi mengendalikan tugas penalaran kompleks?A. Marco-O1 khusus untuk menangani tugas-tugas penalaran yang kompleks menggunakan teknik canggih seperti penalaan halus dan MCT. Llama 3.2 cemerlang dalam aplikasi yang cekap, masa nyata pada peranti mudah alih dan kelebihan, dengan pengendalian konteks lanjutan.
S5. Apakah yang dimaksudkan dengan reka bentuk ringan model Llama 3.2?A. Reka bentuk ringan Llama 3.2 menjadikannya ideal untuk penempatan pada peranti mudah alih dan kelebihan, menawarkan prestasi yang cekap sambil mengekalkan keupayaan untuk mengendalikan pelbagai tugas seperti ringkasan dan interaksi berbilang bahasa.
Media yang ditunjukkan dalam artikel ini tidak dimiliki oleh Analytics Vidhya dan digunakan atas budi bicara penulis.
Atas ialah kandungan terperinci Marco-O1 vs Llama 3.2: Mana yang lebih baik?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!