Rumah  >  Artikel  >  Claude3 dikeluarkan, adakah ia akan melepasi GPT-4 sepenuhnya?

Claude3 dikeluarkan, adakah ia akan melepasi GPT-4 sepenuhnya?

WBOY
WBOYke hadapan
2024-03-05 23:01:15452semak imbas

Sebentar tadi, Anthropic mengumumkan pelancaran siri model Claude 3, yang menetapkan penanda aras industri baharu merentas pelbagai tugas kognitif. Rangkaian ini termasuk tiga model terkini, disusun dalam susunan keupayaan yang semakin meningkat: Claude 3 Haiku, Claude 3 Sonnet dan Claude 3 Opus. Setiap model seterusnya menawarkan prestasi yang semakin berkuasa, membolehkan pengguna memilih keseimbangan kecerdasan, kelajuan dan kos terbaik untuk aplikasi khusus mereka.

Opus dan Sonnet kini tersedia dalam claude.ai dan Claude API, dengan yang kedua kini tersedia sepenuhnya di 159 negara. Haiku akan tersedia tidak lama lagi.

Siri model Claude 3

Claude3 发布,或将全面超越 GPT-4?

Standard baharu dalam kecerdasan

Opus, model paling pintar Anthropic, berprestasi baik pada kebanyakan tanda aras penilaian sistem AI biasa, termasuk pengetahuan pakar peringkat sarjana muda (GPQA), penaakulan Pakar peringkat siswazah ), matematik asas (GSM8K), dsb. Ia menunjukkan kefahaman dan kefasihan tahap hampir manusia dalam tugas yang kompleks, memimpin sempadan kecerdasan am.

Model Claude 3 menunjukkan keupayaan kukuh dalam analisis dan ramalan, perincian dalam penciptaan kandungan, penjanaan kod dan menjalankan perbualan dalam bahasa bukan Inggeris seperti Sepanyol, Jepun dan Perancis.

Begini cara model Claude 3 dibandingkan dengan rakan sejawat Anthropicnya pada pelbagai penanda aras keupayaan[1]:

Claude3 发布,或将全面超越 GPT-4?

Hasil hampir serta-merta

Model Claude 3 boleh menyokong sembang pelanggan segera, tugasan pengekstrakan dan autolengkap. segera dan masa nyata.

Dalam bidang kecerdasan, Haiku adalah model yang sangat menjimatkan kos dengan kelajuan terpantas di pasaran. Ia dapat mentafsir kertas penyelidikan arXiv padat maklumat (~10,000 token) yang mengandungi carta dan graf dalam masa kurang daripada tiga saat. Anthropic akan mengoptimumkan lagi prestasinya dalam masa terdekat, dan prestasi Haiku juga akan dipertingkatkan.

Sonnet lebih 2x lebih pantas daripada Claude 2 dan Claude 2.1 untuk sebahagian besar beban kerja, dan mempunyai tahap kecerdasan yang lebih tinggi. Ia cemerlang dalam tugas yang memerlukan respons pantas, seperti mendapatkan semula pengetahuan atau automasi jualan. Opus adalah serupa dalam kelajuan dengan Claude 2 dan 2.1, tetapi dengan tahap kecerdasan yang lebih tinggi.

Keupayaan Visual Berkuasa

Model Claude 3 mempunyai keupayaan visual yang canggih yang setanding dengan model terkemuka yang lain. Mereka boleh mengendalikan pelbagai format visual, termasuk foto, carta, graf dan gambar rajah teknikal. Anthropic amat teruja untuk menawarkan modaliti baharu ini kepada pelanggan perusahaan, sesetengah daripada mereka mempunyai sehingga 50% pangkalan pengetahuan mereka dikodkan dalam pelbagai format seperti PDF, carta alir atau slaid pembentangan.

Claude3 发布,或将全面超越 GPT-4?

Pengurangan penolakan

Model Claude sebelumnya sering membuat penolakan yang tidak perlu, menunjukkan kekurangan pemahaman kontekstual. Anthropic telah mencapai kemajuan yang besar dalam hal ini: Opus, Sonnet, dan Haiku secara ketara kurang berkemungkinan untuk menolak untuk menjawab gesaan yang mendekati garis amaran sistem, lebih kurang daripada model sebelumnya. Seperti yang ditunjukkan dalam rajah di bawah, model Claude 3 mempunyai pemahaman yang lebih bernuansa tentang permintaan, mengenal pasti bahaya sebenar dan enggan menjawab gesaan tidak berbahaya dengan ketara lebih jarang.

Claude3 发布,或将全面超越 GPT-4?

Meningkatkan Ketepatan

Perniagaan dari semua saiz bergantung pada model Anthropic untuk melayani pelanggan mereka, menjadikannya kritikal bahawa output model Anthropic kekal sangat tepat pada skala. Untuk menilai ini, Anthropic menggunakan satu set besar soalan faktual yang kompleks yang menyasarkan kelemahan yang diketahui dalam model semasa. Anthropic mengklasifikasikan respons kepada jawapan yang betul, jawapan yang salah (atau halusinasi), dan pengakuan ketidakpastian, di mana model menyatakan tidak mengetahui jawapan daripada memberikan maklumat palsu. Berbanding dengan Claude 2.1, Opus mencapai peningkatan dua kali ganda dalam ketepatan (atau jawapan yang betul) pada soalan terbuka yang mencabar ini sambil turut mengurangkan tahap jawapan yang salah.

Selain menghasilkan respons yang lebih boleh dipercayai, Anthropic akan mendayakan petikan dalam model Claude 3 Anthropic tidak lama lagi supaya mereka boleh menunjuk kepada ayat yang tepat dalam rujukan untuk mengesahkan jawapan mereka.

Claude3 发布,或将全面超越 GPT-4?

Konteks yang panjang dan ingatan yang hampir sempurna

Model siri Claude 3 akan menawarkan tetingkap konteks 200k markah semasa pelancaran. Walau bagaimanapun, ketiga-tiga model ini mampu menerima input lebih daripada 1 juta token, yang mungkin ditawarkan oleh Anthropic kepada pelanggan tertentu yang memerlukan peningkatan kuasa pemprosesan.

Untuk mengendalikan isyarat kontekstual yang panjang dengan berkesan, model memerlukan keupayaan mengingat yang kuat. "Needle In A Haystack" (NIAH) menilai keupayaan model pengukuran untuk mengingati maklumat dengan tepat daripada korpus data yang besar. Anthropic meningkatkan keteguhan penanda aras ini dengan menggunakan salah satu daripada 30 pasangan pin/soalan rawak untuk setiap gesaan dan ujian pada kumpulan dokumen sumber ramai yang pelbagai.

Claude 3 Opus bukan sahaja mencapai ingatan yang hampir sempurna, melebihi ketepatan 99%, tetapi dalam beberapa kes, ia juga mengenal pasti batasan dalam penilaian itu sendiri dengan mengenal pasti ayat "jarum" yang nampaknya telah dimasukkan secara buatan ke dalam jantina teks asal.

Claude3 发布,或将全面超越 GPT-4?

Reka Bentuk Bertanggungjawab

Anthropic membangunkan siri model Claude 3 untuk menyampaikan kebolehpercayaan bersama keupayaan. Anthropic mempunyai beberapa pasukan khusus yang menjejak dan mengurangkan risiko daripada maklumat salah dan CSAM kepada biopenyalahgunaan, gangguan pilihan raya dan kemahiran replikasi autonomi. Anthropic terus membangunkan kaedah, seperti AI Perlembagaan, untuk meningkatkan keselamatan dan ketelusan model Anthropic, dan untuk melaraskan model Anthropic untuk mengurangkan kebimbangan privasi yang mungkin timbul daripada modaliti baharu.

Mengatasi berat sebelah dalam model yang semakin kompleks merupakan usaha berterusan dan Anthropic sedang membuat kemajuan dengan versi baharu ini. Seperti yang ditunjukkan dalam kad model, Claude 3 menunjukkan kurang berat sebelah berbanding model Anthropic sebelum ini mengikut Penanda Aras Menjawab Soalan Bias (BBQ). Anthropic kekal komited untuk memajukan teknologi yang mengurangkan berat sebelah dan menggalakkan neutraliti yang lebih besar dalam model, memastikan mereka tidak berat sebelah terhadap mana-mana kedudukan partisan tertentu.

Walaupun siri model Claude 3 menawarkan peningkatan dalam pengetahuan biologi, pengetahuan berkaitan siber dan autonomi berbanding model sebelumnya, ia kekal pada Tahap Keselamatan AI 2 (ASL-2) selaras dengan Dasar Penskalaan Bertanggungjawab Anthropic. Penilaian pasukan merah Anthropic (dijalankan selaras dengan komitmen Rumah Putih Anthropic dan Perintah Eksekutif A.S. 2023) menyimpulkan bahawa model semasa mempunyai potensi yang boleh diabaikan untuk risiko bencana. Anthropic akan terus memantau model masa depan dengan teliti untuk menilai sejauh mana ia berada pada ambang ASL-3. Butiran keselamatan tambahan disediakan pada kad model Claude 3.

Lebih mudah digunakan

Model Claude 3 berprestasi lebih baik dalam mengikut arahan berbilang langkah yang kompleks. Mereka amat mahir dalam mengikuti suara jenama dan garis panduan tindak balas serta membangunkan pengalaman menghadapi pelanggan yang boleh dipercayai oleh pengguna. Selain itu, model Claude 3 berprestasi lebih baik dalam menjana output berstruktur yang popular, seperti format JSON—membuat lebih mudah untuk melatih Claude untuk kes penggunaan seperti klasifikasi bahasa semula jadi dan analisis sentimen.

Butiran Model

Claude 3 Opus ialah model paling bijak Anthropic, menunjukkan prestasi terbaik di pasaran untuk tugasan yang sangat kompleks. Ia mengalir dengan cemerlang dalam gesaan terbuka dan situasi yang tidak kelihatan, dengan pemahaman seperti manusia. Opus menunjukkan kepada Anthropic had apa yang mungkin dengan AI generatif.

Claude3 发布,或将全面超越 GPT-4?

Claude 3 Sonnet mencapai keseimbangan ideal antara kecerdasan dan kelajuan – terutamanya untuk beban kerja perusahaan. Ia memberikan prestasi yang berkuasa pada kos yang lebih rendah daripada yang setara dan direka bentuk untuk ketahanan yang tinggi untuk penggunaan AI berskala besar.

Claude3 发布,或将全面超越 GPT-4?

Claude 3 Haiku ialah model terpantas dan paling kompak milik Anthropic, membolehkan respons hampir serta-merta. Ia menjawab pertanyaan dan permintaan mudah dengan kelajuan yang tiada tandingan. Pengguna akan dapat membina pengalaman AI yang lancar yang mensimulasikan interaksi manusia.

Claude3 发布,或将全面超越 GPT-4?

Ketersediaan Model

Opus dan Sonnet tersedia hari ini dalam API Anthropic, yang kini tersedia secara umum dan pembangun boleh mendaftar dan mula menggunakan model ini dengan segera. Haiku akan tersedia tidak lama lagi. Sonnet memperkasakan pengalaman percuma di claude.ai, manakala Opus tersedia untuk pelanggan Claude Pro.

Sonnet juga tersedia melalui Batuan Dasar Amazon dan Taman Model AI Vertex Google Cloud, dengan Opus dan Haiku akan datang tidak lama lagi.

Lebih bijak, lebih pantas, lebih selamat

Anthropic percaya bahawa kecerdasan model masih jauh daripada mencapai hadnya, dan merancang untuk mengemas kini siri model Claude 3 dengan kerap dalam beberapa bulan akan datang. Anthropic juga berbesar hati untuk mengeluarkan satu siri ciri untuk meningkatkan keupayaan model Anthropic, terutamanya untuk kes penggunaan perusahaan dan penggunaan berskala besar. Ciri baharu ini akan termasuk penggunaan alat (juga dikenali sebagai panggilan fungsi), pengekodan interaktif (juga dikenali sebagai REPL), dan keupayaan ejen yang lebih maju.

Atas ialah kandungan terperinci Claude3 dikeluarkan, adakah ia akan melepasi GPT-4 sepenuhnya?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:chaincatcher.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam