Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah-AI-php.cn

Rumah

Peranti teknologi

Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah

Joseph Gordon-Levitt

Apr 13, 2025 am 09:26 AM

Pernahkah anda mendengar berita besar? OpenAI hanya melancarkan pratonton siri baru model AI - OpenAI O1 (juga dikenali sebagai Projek Strawberry/Q*). Model -model ini istimewa kerana mereka menghabiskan lebih banyak masa "berfikir" sebelum mereka memberi anda jawapan. Ini bermakna mereka lebih baik menangani masalah yang sangat sukar di kawasan seperti sains, pengekodan, dan matematik berbanding dengan model terdahulu, sebahagian besarnya terima kasih kepada parameter Openai O1 yang maju.

Openai mengambil moto "berfikir sebelum anda bercakap" dengan hati dengan siri O1!

Gambaran Keseluruhan

Siri model O1 Openai yang baru cemerlang dalam alasan melalui masalah yang sukar dalam matematik, sains, dan pengekodan, mengatasi versi terdahulu.
Model O1-Preview menangani tugas-tugas lanjutan, menyelesaikan 93% masalah matematik AIME dan melampaui pakar manusia dalam penanda aras saintifik. Kebanyakan kejayaan ini datang kepada bagaimana parameter Openai O1 yang berkesan ditetapkan untuk mengendalikan tugas -tugas yang kompleks.
Openai's O1-Mini menawarkan keupayaan pengekodan yang kuat pada 80% daripada kos, menjadikannya alat yang boleh diakses untuk pemaju.
Dengan langkah-langkah keselamatan yang lebih baik, model O1 memastikan penggunaan AI yang bertanggungjawab semasa menyediakan penyelesaian masalah yang dipertingkatkan untuk penyelidik, pemaju, dan pendidik.

Jadual Kandungan

Apa masalahnya?
Gunakan kes Openai O1
Hasil ujian yang mengagumkan
- Pertandingan Matematik Lanjutan
- Kepakaran sains
- Pengekodan
- Penanda aras lain dan pemahaman visual
Bertemu O1-Mini
Matematik dengan O1 Mini
Siapa yang boleh menggunakan O1-Preview?
Bagaimana untuk mengakses O1-Preview?
Keselamatan juga penting
Apa yang seterusnya?
Pemikiran terakhir

Apa masalahnya?

Model O1-Preview dilatih untuk mengambil langkah mundur dan benar-benar berfikir perkara-perkara melalui, seperti manusia ketika menghadapi masalah yang sukar. Mereka menganggap pendekatan yang berbeza, memperbaiki pemikiran mereka, dan juga menangkap kesilapan mereka sendiri di sepanjang jalan. Tahap pemikiran yang lebih mendalam ini membolehkan mereka menyelesaikan masalah yang tidak dapat dikendalikan oleh model -model yang lebih tua.

Gunakan kes Openai O1

Pengekodan dengan Openai O1

Menulis teka -teki dengan Openai O1

Ular HTML dengan Openai O1

Hasil ujian yang mengagumkan

Untuk melihat betapa lebih baik O1 dibandingkan dengan model GPT-4O yang terdahulu, OpenAI meletakkan mereka melalui satu siri ujian sukar, termasuk peperiksaan manusia dan penanda aras pembelajaran mesin. Dan teka apa? O1 mengatasi GPT-4O pada kebanyakan tugas-tugas yang berat!

Mari merosakkan beberapa hasil:

Pertandingan Matematik Lanjutan

Mereka menguji model AIME (Peperiksaan Matematik Undangan Amerika) , yang merupakan peperiksaan matematik yang sangat mencabar untuk pelajar sekolah menengah teratas di AS

GPT-4O : Menyelesaikan kira-kira 12% daripada masalah (kira-kira 1.8 daripada 15 soalan).
Openai O1 : Diselesaikan 74% dengan hanya satu percubaan setiap masalah (sekitar 11.1 daripada 15). Apabila mereka membiarkan model cuba beberapa kali dan mengambil jawapan yang paling biasa, ia menjaringkan 83% . Menggunakan kaedah yang lebih maju, ia mencapai 93% , menyelesaikan kira -kira 13.9 daripada 15 masalah!

Untuk meletakkan perspektif itu, skor 13.9 akan meletakkan O1 di antara 500 pelajar teratas secara nasional dan di atas potongan untuk Olimpik Matematik Amerika Syarikat . Itu adalah kuasa otak yang serius!

Kepakaran sains

Mereka juga menilai O1 pada GPQA-Diamond , penanda aras yang sukar yang menguji pengetahuan dalam kimia, fizik, dan biologi. Openai juga membawa pakar dengan PhD untuk menjawab soalan -soalan ini.

Keputusan : O1 mengatasi pakar -pakar manusia ini, menjadi model AI pertama untuk melakukannya pada penanda aras ini! Ini menunjukkan bahawa O1 dapat menyelesaikan masalah saintifik yang kompleks pada tahap yang sangat tinggi.

Pengekodan

Dalam pertandingan pengekodan seperti Codeforces, model baru mencapai persentil ke -89 , menunjukkan mereka boleh menjana dan debug kod kompleks dengan mudah.

Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah

Penanda aras lain dan pemahaman visual

Tetapi itu bukan semua! Model O1 juga menunjukkan peningkatan yang ketara dalam bidang lain:

Memahami maklumat visual (persepsi penglihatan)

Model O1 kini boleh mentafsir dan memahami imej -keupayaan yang dikenali sebagai persepsi penglihatan . Ini bermakna ia boleh menganalisis data visual dan menjawab soalan mengenainya, yang merupakan langkah besar untuk AI.

Ujian Pencitraan Perubatan (penanda aras MMMU)

OpenAI diuji O1 pada penanda aras yang mencabar yang dipanggil MMMU (yang bermaksud pemahaman mesin perubatan multimodal ). Ujian ini menilai seberapa baik AI dapat memahami imej perubatan dan membuat penilaian yang tepat, sama seperti tugas yang dilakukan oleh profesional perubatan.

Keputusan : O1 menjaringkan 78.2% pada ujian ini, menjadikannya model AI pertama untuk melaksanakan pada tahap yang setanding dengan pakar manusia dalam pengimejan perubatan. Ini sangat besar kerana memahami dan menafsirkan imej perubatan memerlukan pengetahuan dan ketepatan yang mendalam.

Pelbagai pengetahuan (penanda aras mmlu)

Model O1 juga diuji pada penanda aras MMLU (pemahaman bahasa multitask) , yang meliputi 57 subjek yang berbeza dari sejarah dan kesusasteraan kepada matematik dan sains komputer.

Keputusan : O1 mengatasi GPT-4O dalam 54 daripada 57 subjek! Ini menunjukkan bahawa O1 bukan hanya khusus di satu kawasan -ia menunjukkan pemahaman yang lebih baik merentasi spektrum topik yang luas.

Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah

Dalam istilah yang lebih mudah, keupayaan O1 untuk memahami kedua -dua teks dan imej bermakna ia menjadi lebih serba boleh dan mampu. Sama ada ia menganalisis imej perubatan yang kompleks, menyelesaikan masalah matematik lanjutan, atau menjawab soalan di pelbagai subjek, O1 menetapkan piawaian baru untuk apa yang boleh dilakukan AI.

Bertemu O1-Mini

OpenAI juga telah memperkenalkan O1-Mini , versi yang lebih kecil, lebih cepat, dan lebih murah dari model O1-Preview yang sangat baik pada tugas pengekodan. Ia lebih murah 80% , menjadikannya pilihan yang baik untuk pemaju yang memerlukan kebolehan pemikiran yang kuat tanpa melanggar bank.

Kami juga melepaskan Openai O1-Mini, model penalaran kos yang cekap yang cemerlang di STEM, terutamanya matematik dan coding.https: //t.co/wfvczifev
- Openai (@openai) 12 September 2024

Matematik dengan O1 Mini

Juga Baca: Openai's O1-Mini: Model Permainan yang Mengubah Untuk STEM dengan Penalaran Kos yang Berkesan

Siapa yang boleh menggunakan O1-Preview?

Model-model baru ini adalah penukar permainan bagi sesiapa yang menghadapi masalah yang rumit:

Penyelidik dan saintis : Mereka boleh membantu menghidupkan data penjujukan sel atau menghasilkan formula kompleks yang diperlukan dalam bidang seperti fizik kuantum.
Pemaju : Membina dan melaksanakan aliran kerja pelbagai langkah menjadi lebih mudah dan lebih cekap.
Pelajar dan pendidik : Mereka menawarkan cara baru untuk meneroka konsep yang mencabar dalam matematik dan sains.

Bagaimana untuk mengakses O1-Preview?

CHATGPT Plus dan pengguna pasukan : Anda boleh mengakses model O1-Preview dan O1-Mini di CHATGPT bermula hari ini. Hanya pilih mereka dari pemetik model. Terdapat had mesej mingguan untuk sekarang (30 mesej untuk O1-Preview dan 50 untuk O1-Mini), tetapi OpenAI sedang berusaha untuk meningkatkan had ini tidak lama lagi.

Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah

CHATGPT Enterprise dan pengguna EDU : Anda akan mendapat akses kepada kedua -dua model bermula minggu depan.
Pemaju : Jika anda berada di API Penggunaan Tahap 5, anda boleh mula bereksperimen dengan model -model ini melalui API hari ini. Sesetengah ciri seperti fungsi panggilan dan streaming belum tersedia, tetapi mereka sedang dalam perjalanan.
Pengguna Percuma Chatgpt : Berita Hebat! Openai merancang untuk menjadikan O1-mini tersedia untuk semua pengguna percuma tidak lama lagi.

Keselamatan juga penting

Openai juga telah meningkatkan ciri keselamatan dengan model -model ini. Mereka telah dilatih untuk lebih memahami dan mengikuti garis panduan keselamatan dengan memikirkan peraturan semasa perbualan. Ini bermakna mereka kurang cenderung untuk ditipu untuk melakukan sesuatu yang tidak sepatutnya (anda mungkin pernah mendengar model "jailbreaking" AI).

Dalam ujian keselamatan yang sukar, model O1-Preview menjaringkan 84 daripada 100 , berbanding skor GPT-4O sebanyak 22 . Itulah peningkatan yang ketara, menunjukkan mereka lebih baik tinggal di dalam sempadan yang selamat dan sesuai.

Openai bekerjasama rapat dengan organisasi keselamatan di Amerika Syarikat dan UK, mereka bahkan telah memberikan institusi awal kepada model -model ini untuk membantu penyelidikan dan memastikan segala -galanya sampai par.

Apa yang seterusnya?

Ini hanya permulaan. Openai merancang kemas kini dan penambahbaikan secara tetap kepada model -model ini. Mereka ingin menambah ciri -ciri seperti melayari web, memuat naik fail dan imej, dan banyak lagi untuk menjadikannya lebih membantu.

Mereka juga terus membangunkan model dalam siri GPT bersama siri O1 baru ini, jadi banyak yang perlu diingini.

Pemikiran terakhir

Pelancaran model O1-Preview dan O1-Mini adalah masalah besar di dunia AI. Mereka mewakili langkah penting dalam bagaimana AI boleh membuat alasan melalui masalah yang rumit. Dengan prestasi yang lebih baik dan langkah-langkah keselamatan yang lebih baik, model-model ini ditetapkan untuk menjadi penukar permainan bagi ramai orang yang bekerja pada tugas yang mencabar.

Tinggal di Analytics Vidhya Blog untuk mengetahui lebih lanjut mengenai penggunaan O1 dan O1 Mini!

Atas ialah kandungan terperinci Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

7 AI yang kuat meminta setiap pengurus projek perlu menguasai sekarangMay 08, 2025 am 11:39 AM

Generatif AI, yang dicontohkan oleh chatbots seperti ChatGPT, menawarkan alat -alat yang berkuasa pengurus projek untuk menyelaraskan aliran kerja dan memastikan projek tetap mengikut jadual dan dalam anggaran. Walau bagaimanapun, penggunaan berkesan bergantung pada kerajinan yang betul. Tepat, terperinci

Mendefinisikan makna AGI yang sukar ditentukan melalui bantuan AI yang bergunaMay 08, 2025 am 11:37 AM

Cabaran untuk menentukan kecerdasan umum buatan (AGI) adalah penting. Tuntutan kemajuan AGI sering tidak mempunyai penanda aras yang jelas, dengan definisi yang disesuaikan agar sesuai dengan arahan penyelidikan yang telah ditetapkan. Artikel ini meneroka pendekatan baru untuk ditentukan

IBM Think 2025 mempamerkan peranan Watsonx.data dalam generatif AIMay 08, 2025 am 11:32 AM

IBM Watsonx.Data: Memperkenalkan Stack Data AI Enterprise Posisi IBM Watsonx.data sebagai platform penting bagi perusahaan yang bertujuan untuk mempercepatkan penyampaian penyelesaian AI generasi yang tepat dan berskala. Ini dicapai dengan memudahkan pengadu

Kebangkitan mesin robot humanoid semakin hampir.May 08, 2025 am 11:29 AM

Kemajuan pesat dalam robotik, yang didorong oleh kejayaan dalam AI dan sains bahan, bersedia untuk menyambut era baru robot humanoid. Selama bertahun -tahun, automasi perindustrian menjadi tumpuan utama, tetapi keupayaan robot dengan cepat

Netflix Revamps Interface-Debut Alat Carian AI dan Reka Bentuk Seperti TiktokMay 08, 2025 am 11:25 AM

Kemas kini terbesar antara muka Netflix dalam satu dekad: lebih bijak, lebih diperibadikan, merangkumi pelbagai kandungan Netflix mengumumkan pembaikan terbesar antara muka penggunanya dalam satu dekad, bukan sahaja rupa baru, tetapi juga menambah lebih banyak maklumat mengenai setiap pertunjukan, dan memperkenalkan alat carian AI yang lebih bijak yang dapat memahami konsep samar -samar seperti "ambien" dan struktur yang lebih fleksibel untuk menunjukkan minat syarikat dalam permainan video yang baru muncul, acara langsung, acara sukan dan jenis kandungan baru. Untuk bersaing dengan trend, komponen video menegak baru di Mobile akan memudahkan peminat untuk menatal melalui treler dan klip, menonton pertunjukan penuh atau berkongsi kandungan dengan orang lain. Ini mengingatkan anda tentang Laman Web Video Short yang tidak terhingga dan sangat berjaya Ti

Jauh sebelum AGI: Tiga Pencapaian AI yang akan mencabar andaMay 08, 2025 am 11:24 AM

Perbincangan yang semakin meningkat tentang kecerdasan umum (AGI) dalam kecerdasan buatan telah mendorong ramai untuk berfikir tentang apa yang berlaku apabila kecerdasan buatan melebihi kecerdasan manusia. Sama ada momen ini dekat atau jauh bergantung kepada siapa yang anda minta, tetapi saya tidak fikir ia adalah peristiwa penting yang harus kita fokuskan. Pencapaian AI yang sebelum ini akan menjejaskan semua orang? Apa tonggak yang telah dicapai? Berikut adalah tiga perkara yang saya fikir telah berlaku. Kecerdasan buatan melepasi kelemahan manusia Dalam filem "Dilema Sosial" 2022, Tristan Harris dari Pusat Teknologi Humane menegaskan bahawa kecerdasan buatan telah melampaui kelemahan manusia. Apa maksudnya? Ini bermaksud kecerdasan buatan telah dapat menggunakan manusia

Venkat Achanta pada transformasi platform TransUnion dan cita -cita AIMay 08, 2025 am 11:23 AM

TransUnion's CTO, Ranganath Achanta, spearheaded a significant technological transformation since joining the company following its Neustar acquisition in late 2021. His leadership of over 7,000 associates across various departments has focused on u

Apabila kepercayaan AI melompat, produktiviti mengikutiMay 08, 2025 am 11:11 AM

Bangunan Amanah adalah yang paling penting untuk penggunaan AI yang berjaya dalam perniagaan. Hal ini terutama berlaku memandangkan elemen manusia dalam proses perniagaan. Pekerja, seperti orang lain, pelabuhan kebimbangan mengenai AI dan pelaksanaannya. Penyelidik Deloitte adalah SC

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

4 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

4 minggu yang laluByDDD

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

2 minggu yang laluByDDD

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Bagaimana untuk memperbaiki KB5055612 gagal dipasang di Windows 10?

3 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),