cari
RumahPeranti teknologiAIOpenai O1: Model baru yang 'berfikir' sebelum menjawab masalah

Pernahkah anda mendengar berita besar? OpenAI hanya melancarkan pratonton siri baru model AI - OpenAI O1 (juga dikenali sebagai Projek Strawberry/Q*). Model -model ini istimewa kerana mereka menghabiskan lebih banyak masa "berfikir" sebelum mereka memberi anda jawapan. Ini bermakna mereka lebih baik menangani masalah yang sangat sukar di kawasan seperti sains, pengekodan, dan matematik berbanding dengan model terdahulu, sebahagian besarnya terima kasih kepada parameter Openai O1 yang maju.

Openai mengambil moto "berfikir sebelum anda bercakap" dengan hati dengan siri O1!

Gambaran Keseluruhan

  • Siri model O1 Openai yang baru cemerlang dalam alasan melalui masalah yang sukar dalam matematik, sains, dan pengekodan, mengatasi versi terdahulu.
  • Model O1-Preview menangani tugas-tugas lanjutan, menyelesaikan 93% masalah matematik AIME dan melampaui pakar manusia dalam penanda aras saintifik. Kebanyakan kejayaan ini datang kepada bagaimana parameter Openai O1 yang berkesan ditetapkan untuk mengendalikan tugas -tugas yang kompleks.
  • Openai's O1-Mini menawarkan keupayaan pengekodan yang kuat pada 80% daripada kos, menjadikannya alat yang boleh diakses untuk pemaju.
  • Dengan langkah-langkah keselamatan yang lebih baik, model O1 memastikan penggunaan AI yang bertanggungjawab semasa menyediakan penyelesaian masalah yang dipertingkatkan untuk penyelidik, pemaju, dan pendidik.

Jadual Kandungan

  • Apa masalahnya?
  • Gunakan kes Openai O1
  • Hasil ujian yang mengagumkan
    • Pertandingan Matematik Lanjutan
    • Kepakaran sains
    • Pengekodan
    • Penanda aras lain dan pemahaman visual
  • Bertemu O1-Mini
  • Matematik dengan O1 Mini
  • Siapa yang boleh menggunakan O1-Preview?
  • Bagaimana untuk mengakses O1-Preview?
  • Keselamatan juga penting
  • Apa yang seterusnya?
  • Pemikiran terakhir

Apa masalahnya?

Model O1-Preview dilatih untuk mengambil langkah mundur dan benar-benar berfikir perkara-perkara melalui, seperti manusia ketika menghadapi masalah yang sukar. Mereka menganggap pendekatan yang berbeza, memperbaiki pemikiran mereka, dan juga menangkap kesilapan mereka sendiri di sepanjang jalan. Tahap pemikiran yang lebih mendalam ini membolehkan mereka menyelesaikan masalah yang tidak dapat dikendalikan oleh model -model yang lebih tua.

Gunakan kes Openai O1

Pengekodan dengan Openai O1

Menulis teka -teki dengan Openai O1

Ular HTML dengan Openai O1

Hasil ujian yang mengagumkan

Untuk melihat betapa lebih baik O1 dibandingkan dengan model GPT-4O yang terdahulu, OpenAI meletakkan mereka melalui satu siri ujian sukar, termasuk peperiksaan manusia dan penanda aras pembelajaran mesin. Dan teka apa? O1 mengatasi GPT-4O pada kebanyakan tugas-tugas yang berat!

Mari merosakkan beberapa hasil:

Pertandingan Matematik Lanjutan

Mereka menguji model AIME (Peperiksaan Matematik Undangan Amerika) , yang merupakan peperiksaan matematik yang sangat mencabar untuk pelajar sekolah menengah teratas di AS

  • GPT-4O : Menyelesaikan kira-kira 12% daripada masalah (kira-kira 1.8 daripada 15 soalan).
  • Openai O1 : Diselesaikan 74% dengan hanya satu percubaan setiap masalah (sekitar 11.1 daripada 15). Apabila mereka membiarkan model cuba beberapa kali dan mengambil jawapan yang paling biasa, ia menjaringkan 83% . Menggunakan kaedah yang lebih maju, ia mencapai 93% , menyelesaikan kira -kira 13.9 daripada 15 masalah!

Untuk meletakkan perspektif itu, skor 13.9 akan meletakkan O1 di antara 500 pelajar teratas secara nasional dan di atas potongan untuk Olimpik Matematik Amerika Syarikat . Itu adalah kuasa otak yang serius!

Kepakaran sains

Mereka juga menilai O1 pada GPQA-Diamond , penanda aras yang sukar yang menguji pengetahuan dalam kimia, fizik, dan biologi. Openai juga membawa pakar dengan PhD untuk menjawab soalan -soalan ini.

  • Keputusan : O1 mengatasi pakar -pakar manusia ini, menjadi model AI pertama untuk melakukannya pada penanda aras ini! Ini menunjukkan bahawa O1 dapat menyelesaikan masalah saintifik yang kompleks pada tahap yang sangat tinggi.

Pengekodan

Dalam pertandingan pengekodan seperti Codeforces, model baru mencapai persentil ke -89 , menunjukkan mereka boleh menjana dan debug kod kompleks dengan mudah.

Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah

Penanda aras lain dan pemahaman visual

Tetapi itu bukan semua! Model O1 juga menunjukkan peningkatan yang ketara dalam bidang lain:

Memahami maklumat visual (persepsi penglihatan)

Model O1 kini boleh mentafsir dan memahami imej -keupayaan yang dikenali sebagai persepsi penglihatan . Ini bermakna ia boleh menganalisis data visual dan menjawab soalan mengenainya, yang merupakan langkah besar untuk AI.

Ujian Pencitraan Perubatan (penanda aras MMMU)

OpenAI diuji O1 pada penanda aras yang mencabar yang dipanggil MMMU (yang bermaksud pemahaman mesin perubatan multimodal ). Ujian ini menilai seberapa baik AI dapat memahami imej perubatan dan membuat penilaian yang tepat, sama seperti tugas yang dilakukan oleh profesional perubatan.

Keputusan : O1 menjaringkan 78.2% pada ujian ini, menjadikannya model AI pertama untuk melaksanakan pada tahap yang setanding dengan pakar manusia dalam pengimejan perubatan. Ini sangat besar kerana memahami dan menafsirkan imej perubatan memerlukan pengetahuan dan ketepatan yang mendalam.

Pelbagai pengetahuan (penanda aras mmlu)

Model O1 juga diuji pada penanda aras MMLU (pemahaman bahasa multitask) , yang meliputi 57 subjek yang berbeza dari sejarah dan kesusasteraan kepada matematik dan sains komputer.

Keputusan : O1 mengatasi GPT-4O dalam 54 daripada 57 subjek! Ini menunjukkan bahawa O1 bukan hanya khusus di satu kawasan -ia menunjukkan pemahaman yang lebih baik merentasi spektrum topik yang luas.

Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah

Dalam istilah yang lebih mudah, keupayaan O1 untuk memahami kedua -dua teks dan imej bermakna ia menjadi lebih serba boleh dan mampu. Sama ada ia menganalisis imej perubatan yang kompleks, menyelesaikan masalah matematik lanjutan, atau menjawab soalan di pelbagai subjek, O1 menetapkan piawaian baru untuk apa yang boleh dilakukan AI.

Bertemu O1-Mini

OpenAI juga telah memperkenalkan O1-Mini , versi yang lebih kecil, lebih cepat, dan lebih murah dari model O1-Preview yang sangat baik pada tugas pengekodan. Ia lebih murah 80% , menjadikannya pilihan yang baik untuk pemaju yang memerlukan kebolehan pemikiran yang kuat tanpa melanggar bank.

Kami juga melepaskan Openai O1-Mini, model penalaran kos yang cekap yang cemerlang di STEM, terutamanya matematik dan coding.https: //t.co/wfvczifev

- Openai (@openai) 12 September 2024

Matematik dengan O1 Mini

Juga Baca: Openai's O1-Mini: Model Permainan yang Mengubah Untuk STEM dengan Penalaran Kos yang Berkesan

Siapa yang boleh menggunakan O1-Preview?

Model-model baru ini adalah penukar permainan bagi sesiapa yang menghadapi masalah yang rumit:

  • Penyelidik dan saintis : Mereka boleh membantu menghidupkan data penjujukan sel atau menghasilkan formula kompleks yang diperlukan dalam bidang seperti fizik kuantum.
  • Pemaju : Membina dan melaksanakan aliran kerja pelbagai langkah menjadi lebih mudah dan lebih cekap.
  • Pelajar dan pendidik : Mereka menawarkan cara baru untuk meneroka konsep yang mencabar dalam matematik dan sains.

Bagaimana untuk mengakses O1-Preview?

CHATGPT Plus dan pengguna pasukan : Anda boleh mengakses model O1-Preview dan O1-Mini di CHATGPT bermula hari ini. Hanya pilih mereka dari pemetik model. Terdapat had mesej mingguan untuk sekarang (30 mesej untuk O1-Preview dan 50 untuk O1-Mini), tetapi OpenAI sedang berusaha untuk meningkatkan had ini tidak lama lagi.

Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah

  • CHATGPT Enterprise dan pengguna EDU : Anda akan mendapat akses kepada kedua -dua model bermula minggu depan.
  • Pemaju : Jika anda berada di API Penggunaan Tahap 5, anda boleh mula bereksperimen dengan model -model ini melalui API hari ini. Sesetengah ciri seperti fungsi panggilan dan streaming belum tersedia, tetapi mereka sedang dalam perjalanan.
  • Pengguna Percuma Chatgpt : Berita Hebat! Openai merancang untuk menjadikan O1-mini tersedia untuk semua pengguna percuma tidak lama lagi.

Keselamatan juga penting

Openai juga telah meningkatkan ciri keselamatan dengan model -model ini. Mereka telah dilatih untuk lebih memahami dan mengikuti garis panduan keselamatan dengan memikirkan peraturan semasa perbualan. Ini bermakna mereka kurang cenderung untuk ditipu untuk melakukan sesuatu yang tidak sepatutnya (anda mungkin pernah mendengar model "jailbreaking" AI).

Dalam ujian keselamatan yang sukar, model O1-Preview menjaringkan 84 daripada 100 , berbanding skor GPT-4O sebanyak 22 . Itulah peningkatan yang ketara, menunjukkan mereka lebih baik tinggal di dalam sempadan yang selamat dan sesuai.

Openai bekerjasama rapat dengan organisasi keselamatan di Amerika Syarikat dan UK, mereka bahkan telah memberikan institusi awal kepada model -model ini untuk membantu penyelidikan dan memastikan segala -galanya sampai par.

Apa yang seterusnya?

Ini hanya permulaan. Openai merancang kemas kini dan penambahbaikan secara tetap kepada model -model ini. Mereka ingin menambah ciri -ciri seperti melayari web, memuat naik fail dan imej, dan banyak lagi untuk menjadikannya lebih membantu.

Mereka juga terus membangunkan model dalam siri GPT bersama siri O1 baru ini, jadi banyak yang perlu diingini.

Pemikiran terakhir

Pelancaran model O1-Preview dan O1-Mini adalah masalah besar di dunia AI. Mereka mewakili langkah penting dalam bagaimana AI boleh membuat alasan melalui masalah yang rumit. Dengan prestasi yang lebih baik dan langkah-langkah keselamatan yang lebih baik, model-model ini ditetapkan untuk menjadi penukar permainan bagi ramai orang yang bekerja pada tugas yang mencabar.

Tinggal di Analytics Vidhya Blog untuk mengetahui lebih lanjut mengenai penggunaan O1 dan O1 Mini!

Atas ialah kandungan terperinci Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Panduan komprehensif untuk ekstrapolasiPanduan komprehensif untuk ekstrapolasiApr 15, 2025 am 11:38 AM

Pengenalan Katakan ada petani yang setiap hari memerhatikan kemajuan tanaman dalam beberapa minggu. Dia melihat kadar pertumbuhan dan mula merenungkan betapa lebih tinggi tumbuhannya dapat tumbuh dalam beberapa minggu lagi. Dari th

Kebangkitan AI lembut dan apa maksudnya untuk perniagaan hari iniKebangkitan AI lembut dan apa maksudnya untuk perniagaan hari iniApr 15, 2025 am 11:36 AM

Soft AI-yang ditakrifkan sebagai sistem AI yang direka untuk melaksanakan tugas-tugas tertentu yang sempit menggunakan penalaran, pengiktirafan corak, dan pengambilan keputusan yang fleksibel-bertujuan untuk meniru pemikiran seperti manusia dengan merangkul kekaburan. Tetapi apa maksudnya untuk busine

Rangka kerja keselamatan yang berkembang untuk sempadan AIRangka kerja keselamatan yang berkembang untuk sempadan AIApr 15, 2025 am 11:34 AM

Jawapannya jelas-seperti pengkomputeran awan memerlukan peralihan ke arah alat keselamatan awan asli, AI menuntut satu penyelesaian keselamatan baru yang direka khusus untuk keperluan unik AI. Kebangkitan pengkomputeran awan dan pelajaran keselamatan dipelajari Dalam th

3 cara AI Generatif menguatkan usahawan: berhati -hati dengan purata!3 cara AI Generatif menguatkan usahawan: berhati -hati dengan purata!Apr 15, 2025 am 11:33 AM

Usahawan dan menggunakan AI dan Generatif AI untuk menjadikan perniagaan mereka lebih baik. Pada masa yang sama, adalah penting untuk mengingati AI generatif, seperti semua teknologi, adalah penguat - menjadikan yang hebat dan yang biasa -biasa saja, lebih buruk. Kajian 2024 yang ketat o

Kursus Pendek Baru mengenai Model Embedding oleh Andrew NgKursus Pendek Baru mengenai Model Embedding oleh Andrew NgApr 15, 2025 am 11:32 AM

Buka kunci kekuatan model embedding: menyelam jauh ke kursus baru Andrew Ng Bayangkan masa depan di mana mesin memahami dan menjawab soalan anda dengan ketepatan yang sempurna. Ini bukan fiksyen sains; Terima kasih kepada kemajuan dalam AI, ia menjadi R

Adakah halusinasi dalam model bahasa besar (LLMS) tidak dapat dielakkan?Adakah halusinasi dalam model bahasa besar (LLMS) tidak dapat dielakkan?Apr 15, 2025 am 11:31 AM

Model bahasa besar (LLM) dan masalah halusinasi yang tidak dapat dielakkan Anda mungkin menggunakan model AI seperti ChatGPT, Claude, dan Gemini. Ini semua contoh model bahasa besar (LLM), sistem AI yang kuat yang dilatih dalam dataset teks besar -besaran ke

Masalah 60% - Bagaimana carian AI mengalir trafik andaMasalah 60% - Bagaimana carian AI mengalir trafik andaApr 15, 2025 am 11:28 AM

Penyelidikan baru-baru ini telah menunjukkan bahawa gambaran AI boleh menyebabkan penurunan 15-64% dalam trafik organik, berdasarkan jenis industri dan carian. Perubahan radikal ini menyebabkan pemasar untuk menimbang semula keseluruhan strategi mereka mengenai penglihatan digital. Yang baru

Makmal Media MIT untuk meletakkan manusia berkembang di tengah -tengah AI R & DMakmal Media MIT untuk meletakkan manusia berkembang di tengah -tengah AI R & DApr 15, 2025 am 11:26 AM

Laporan baru -baru ini dari Elon University Imagining the Digital Future Centre meninjau hampir 300 pakar teknologi global. Laporan yang dihasilkan, 'Menjadi Manusia pada tahun 2035', menyimpulkan bahawa kebanyakannya bimbang bahawa penggunaan sistem AI yang mendalam lebih daripada t

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Muat turun versi mac editor Atom

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini