Pernahkah anda mendengar berita besar? OpenAI hanya melancarkan pratonton siri baru model AI - OpenAI O1 (juga dikenali sebagai Projek Strawberry/Q*). Model -model ini istimewa kerana mereka menghabiskan lebih banyak masa "berfikir" sebelum mereka memberi anda jawapan. Ini bermakna mereka lebih baik menangani masalah yang sangat sukar di kawasan seperti sains, pengekodan, dan matematik berbanding dengan model terdahulu, sebahagian besarnya terima kasih kepada parameter Openai O1 yang maju.
Openai mengambil moto "berfikir sebelum anda bercakap" dengan hati dengan siri O1!
Gambaran Keseluruhan
- Siri model O1 Openai yang baru cemerlang dalam alasan melalui masalah yang sukar dalam matematik, sains, dan pengekodan, mengatasi versi terdahulu.
- Model O1-Preview menangani tugas-tugas lanjutan, menyelesaikan 93% masalah matematik AIME dan melampaui pakar manusia dalam penanda aras saintifik. Kebanyakan kejayaan ini datang kepada bagaimana parameter Openai O1 yang berkesan ditetapkan untuk mengendalikan tugas -tugas yang kompleks.
- Openai's O1-Mini menawarkan keupayaan pengekodan yang kuat pada 80% daripada kos, menjadikannya alat yang boleh diakses untuk pemaju.
- Dengan langkah-langkah keselamatan yang lebih baik, model O1 memastikan penggunaan AI yang bertanggungjawab semasa menyediakan penyelesaian masalah yang dipertingkatkan untuk penyelidik, pemaju, dan pendidik.
Jadual Kandungan
- Apa masalahnya?
- Gunakan kes Openai O1
- Hasil ujian yang mengagumkan
- Pertandingan Matematik Lanjutan
- Kepakaran sains
- Pengekodan
- Penanda aras lain dan pemahaman visual
- Bertemu O1-Mini
- Matematik dengan O1 Mini
- Siapa yang boleh menggunakan O1-Preview?
- Bagaimana untuk mengakses O1-Preview?
- Keselamatan juga penting
- Apa yang seterusnya?
- Pemikiran terakhir
Apa masalahnya?
Model O1-Preview dilatih untuk mengambil langkah mundur dan benar-benar berfikir perkara-perkara melalui, seperti manusia ketika menghadapi masalah yang sukar. Mereka menganggap pendekatan yang berbeza, memperbaiki pemikiran mereka, dan juga menangkap kesilapan mereka sendiri di sepanjang jalan. Tahap pemikiran yang lebih mendalam ini membolehkan mereka menyelesaikan masalah yang tidak dapat dikendalikan oleh model -model yang lebih tua.
Gunakan kes Openai O1
Pengekodan dengan Openai O1
Menulis teka -teki dengan Openai O1
Ular HTML dengan Openai O1
Hasil ujian yang mengagumkan
Untuk melihat betapa lebih baik O1 dibandingkan dengan model GPT-4O yang terdahulu, OpenAI meletakkan mereka melalui satu siri ujian sukar, termasuk peperiksaan manusia dan penanda aras pembelajaran mesin. Dan teka apa? O1 mengatasi GPT-4O pada kebanyakan tugas-tugas yang berat!
Mari merosakkan beberapa hasil:
Pertandingan Matematik Lanjutan
Mereka menguji model AIME (Peperiksaan Matematik Undangan Amerika) , yang merupakan peperiksaan matematik yang sangat mencabar untuk pelajar sekolah menengah teratas di AS
- GPT-4O : Menyelesaikan kira-kira 12% daripada masalah (kira-kira 1.8 daripada 15 soalan).
- Openai O1 : Diselesaikan 74% dengan hanya satu percubaan setiap masalah (sekitar 11.1 daripada 15). Apabila mereka membiarkan model cuba beberapa kali dan mengambil jawapan yang paling biasa, ia menjaringkan 83% . Menggunakan kaedah yang lebih maju, ia mencapai 93% , menyelesaikan kira -kira 13.9 daripada 15 masalah!
Untuk meletakkan perspektif itu, skor 13.9 akan meletakkan O1 di antara 500 pelajar teratas secara nasional dan di atas potongan untuk Olimpik Matematik Amerika Syarikat . Itu adalah kuasa otak yang serius!
Kepakaran sains
Mereka juga menilai O1 pada GPQA-Diamond , penanda aras yang sukar yang menguji pengetahuan dalam kimia, fizik, dan biologi. Openai juga membawa pakar dengan PhD untuk menjawab soalan -soalan ini.
- Keputusan : O1 mengatasi pakar -pakar manusia ini, menjadi model AI pertama untuk melakukannya pada penanda aras ini! Ini menunjukkan bahawa O1 dapat menyelesaikan masalah saintifik yang kompleks pada tahap yang sangat tinggi.
Pengekodan
Dalam pertandingan pengekodan seperti Codeforces, model baru mencapai persentil ke -89 , menunjukkan mereka boleh menjana dan debug kod kompleks dengan mudah.
Penanda aras lain dan pemahaman visual
Tetapi itu bukan semua! Model O1 juga menunjukkan peningkatan yang ketara dalam bidang lain:
Memahami maklumat visual (persepsi penglihatan)
Model O1 kini boleh mentafsir dan memahami imej -keupayaan yang dikenali sebagai persepsi penglihatan . Ini bermakna ia boleh menganalisis data visual dan menjawab soalan mengenainya, yang merupakan langkah besar untuk AI.
Ujian Pencitraan Perubatan (penanda aras MMMU)
OpenAI diuji O1 pada penanda aras yang mencabar yang dipanggil MMMU (yang bermaksud pemahaman mesin perubatan multimodal ). Ujian ini menilai seberapa baik AI dapat memahami imej perubatan dan membuat penilaian yang tepat, sama seperti tugas yang dilakukan oleh profesional perubatan.
Keputusan : O1 menjaringkan 78.2% pada ujian ini, menjadikannya model AI pertama untuk melaksanakan pada tahap yang setanding dengan pakar manusia dalam pengimejan perubatan. Ini sangat besar kerana memahami dan menafsirkan imej perubatan memerlukan pengetahuan dan ketepatan yang mendalam.
Pelbagai pengetahuan (penanda aras mmlu)
Model O1 juga diuji pada penanda aras MMLU (pemahaman bahasa multitask) , yang meliputi 57 subjek yang berbeza dari sejarah dan kesusasteraan kepada matematik dan sains komputer.
Keputusan : O1 mengatasi GPT-4O dalam 54 daripada 57 subjek! Ini menunjukkan bahawa O1 bukan hanya khusus di satu kawasan -ia menunjukkan pemahaman yang lebih baik merentasi spektrum topik yang luas.
Dalam istilah yang lebih mudah, keupayaan O1 untuk memahami kedua -dua teks dan imej bermakna ia menjadi lebih serba boleh dan mampu. Sama ada ia menganalisis imej perubatan yang kompleks, menyelesaikan masalah matematik lanjutan, atau menjawab soalan di pelbagai subjek, O1 menetapkan piawaian baru untuk apa yang boleh dilakukan AI.
Bertemu O1-Mini
OpenAI juga telah memperkenalkan O1-Mini , versi yang lebih kecil, lebih cepat, dan lebih murah dari model O1-Preview yang sangat baik pada tugas pengekodan. Ia lebih murah 80% , menjadikannya pilihan yang baik untuk pemaju yang memerlukan kebolehan pemikiran yang kuat tanpa melanggar bank.
Kami juga melepaskan Openai O1-Mini, model penalaran kos yang cekap yang cemerlang di STEM, terutamanya matematik dan coding.https: //t.co/wfvczifev
- Openai (@openai) 12 September 2024
Matematik dengan O1 Mini
Juga Baca: Openai's O1-Mini: Model Permainan yang Mengubah Untuk STEM dengan Penalaran Kos yang Berkesan
Siapa yang boleh menggunakan O1-Preview?
Model-model baru ini adalah penukar permainan bagi sesiapa yang menghadapi masalah yang rumit:
- Penyelidik dan saintis : Mereka boleh membantu menghidupkan data penjujukan sel atau menghasilkan formula kompleks yang diperlukan dalam bidang seperti fizik kuantum.
- Pemaju : Membina dan melaksanakan aliran kerja pelbagai langkah menjadi lebih mudah dan lebih cekap.
- Pelajar dan pendidik : Mereka menawarkan cara baru untuk meneroka konsep yang mencabar dalam matematik dan sains.
Bagaimana untuk mengakses O1-Preview?
CHATGPT Plus dan pengguna pasukan : Anda boleh mengakses model O1-Preview dan O1-Mini di CHATGPT bermula hari ini. Hanya pilih mereka dari pemetik model. Terdapat had mesej mingguan untuk sekarang (30 mesej untuk O1-Preview dan 50 untuk O1-Mini), tetapi OpenAI sedang berusaha untuk meningkatkan had ini tidak lama lagi.
- CHATGPT Enterprise dan pengguna EDU : Anda akan mendapat akses kepada kedua -dua model bermula minggu depan.
- Pemaju : Jika anda berada di API Penggunaan Tahap 5, anda boleh mula bereksperimen dengan model -model ini melalui API hari ini. Sesetengah ciri seperti fungsi panggilan dan streaming belum tersedia, tetapi mereka sedang dalam perjalanan.
- Pengguna Percuma Chatgpt : Berita Hebat! Openai merancang untuk menjadikan O1-mini tersedia untuk semua pengguna percuma tidak lama lagi.
Keselamatan juga penting
Openai juga telah meningkatkan ciri keselamatan dengan model -model ini. Mereka telah dilatih untuk lebih memahami dan mengikuti garis panduan keselamatan dengan memikirkan peraturan semasa perbualan. Ini bermakna mereka kurang cenderung untuk ditipu untuk melakukan sesuatu yang tidak sepatutnya (anda mungkin pernah mendengar model "jailbreaking" AI).
Dalam ujian keselamatan yang sukar, model O1-Preview menjaringkan 84 daripada 100 , berbanding skor GPT-4O sebanyak 22 . Itulah peningkatan yang ketara, menunjukkan mereka lebih baik tinggal di dalam sempadan yang selamat dan sesuai.
Openai bekerjasama rapat dengan organisasi keselamatan di Amerika Syarikat dan UK, mereka bahkan telah memberikan institusi awal kepada model -model ini untuk membantu penyelidikan dan memastikan segala -galanya sampai par.
Apa yang seterusnya?
Ini hanya permulaan. Openai merancang kemas kini dan penambahbaikan secara tetap kepada model -model ini. Mereka ingin menambah ciri -ciri seperti melayari web, memuat naik fail dan imej, dan banyak lagi untuk menjadikannya lebih membantu.
Mereka juga terus membangunkan model dalam siri GPT bersama siri O1 baru ini, jadi banyak yang perlu diingini.
Pemikiran terakhir
Pelancaran model O1-Preview dan O1-Mini adalah masalah besar di dunia AI. Mereka mewakili langkah penting dalam bagaimana AI boleh membuat alasan melalui masalah yang rumit. Dengan prestasi yang lebih baik dan langkah-langkah keselamatan yang lebih baik, model-model ini ditetapkan untuk menjadi penukar permainan bagi ramai orang yang bekerja pada tugas yang mencabar.
Tinggal di Analytics Vidhya Blog untuk mengetahui lebih lanjut mengenai penggunaan O1 dan O1 Mini!
Atas ialah kandungan terperinci Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Pengenalan Katakan ada petani yang setiap hari memerhatikan kemajuan tanaman dalam beberapa minggu. Dia melihat kadar pertumbuhan dan mula merenungkan betapa lebih tinggi tumbuhannya dapat tumbuh dalam beberapa minggu lagi. Dari th

Soft AI-yang ditakrifkan sebagai sistem AI yang direka untuk melaksanakan tugas-tugas tertentu yang sempit menggunakan penalaran, pengiktirafan corak, dan pengambilan keputusan yang fleksibel-bertujuan untuk meniru pemikiran seperti manusia dengan merangkul kekaburan. Tetapi apa maksudnya untuk busine

Jawapannya jelas-seperti pengkomputeran awan memerlukan peralihan ke arah alat keselamatan awan asli, AI menuntut satu penyelesaian keselamatan baru yang direka khusus untuk keperluan unik AI. Kebangkitan pengkomputeran awan dan pelajaran keselamatan dipelajari Dalam th

Usahawan dan menggunakan AI dan Generatif AI untuk menjadikan perniagaan mereka lebih baik. Pada masa yang sama, adalah penting untuk mengingati AI generatif, seperti semua teknologi, adalah penguat - menjadikan yang hebat dan yang biasa -biasa saja, lebih buruk. Kajian 2024 yang ketat o

Buka kunci kekuatan model embedding: menyelam jauh ke kursus baru Andrew Ng Bayangkan masa depan di mana mesin memahami dan menjawab soalan anda dengan ketepatan yang sempurna. Ini bukan fiksyen sains; Terima kasih kepada kemajuan dalam AI, ia menjadi R

Model bahasa besar (LLM) dan masalah halusinasi yang tidak dapat dielakkan Anda mungkin menggunakan model AI seperti ChatGPT, Claude, dan Gemini. Ini semua contoh model bahasa besar (LLM), sistem AI yang kuat yang dilatih dalam dataset teks besar -besaran ke

Penyelidikan baru-baru ini telah menunjukkan bahawa gambaran AI boleh menyebabkan penurunan 15-64% dalam trafik organik, berdasarkan jenis industri dan carian. Perubahan radikal ini menyebabkan pemasar untuk menimbang semula keseluruhan strategi mereka mengenai penglihatan digital. Yang baru

Laporan baru -baru ini dari Elon University Imagining the Digital Future Centre meninjau hampir 300 pakar teknologi global. Laporan yang dihasilkan, 'Menjadi Manusia pada tahun 2035', menyimpulkan bahawa kebanyakannya bimbang bahawa penggunaan sistem AI yang mendalam lebih daripada t


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

DVWA
Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini