Rumah  >  Artikel  >  Peranti teknologi  >  Jangan hanya mengkritik Google Bard, Bing Baharu Microsoft yang dikuasakan oleh ChatGPT juga mempunyai ralat yang kerap

Jangan hanya mengkritik Google Bard, Bing Baharu Microsoft yang dikuasakan oleh ChatGPT juga mempunyai ralat yang kerap

WBOY
WBOYke hadapan
2023-05-10 11:07:071378semak imbas

Pada 8:30 EST pada 8 Februari, sidang akhbar Google akan diadakan di Paris. Sehari sebelumnya, Microsoft secara rasmi melancarkan New Bing, generasi baharu enjin carian dipacu AI, menyepadukan model generatif berdasarkan teknologi ChatGPT dengan Bing. Naib Presiden Microsoft Yusuf Mehdi memberikan demonstrasi yang sempurna[0], dan nilai pasaran Microsoft melonjak sebanyak $80 bilion pada hari itu. Malah di China, di mana OpenAI tidak dibuka untuk pendaftaran, klip Yusuf menunjukkan bagaimana model generatif boleh meningkatkan pengalaman enjin carian Bing dan pelayar Edge menjadi tular dalam kumpulan Moments dan WeChat. Apa itu madu bagi anda adalah arsenik kepada orang lain Semua orang sedang menunggu untuk melihat bagaimana gergasi carian Google akan bertindak balas.

Pada sidang akhbar Google, semua orang menunggu kemunculan Bard, saingan legenda New Bing. Sebagai model bahasa besar yang disokong oleh enjin carian Google, semua orang penuh dengan lamunan tentang Bard. Walau bagaimanapun, tidak banyak tentang Bard pada sidang akhbar itu. Jadi semua orang mengalihkan perhatian mereka kepada video Bard yang disiarkan oleh Google di Twitter Selepas mengambilnya dengan teliti, semua orang tiba-tiba mendapati bahawa Bard membuat kesilapan fakta semasa menjawab soalan.

Apabila ditanya, "Apa yang boleh saya beritahu anak saya yang berumur sembilan tahun tentang penemuan baharu dari Teleskop James Webb Bard menjawab: "Foto pertama exoplanet. Ia telah diambil oleh Teleskop James Webb "Tetapi ia sebenarnya diambil oleh Teleskop Sangat Besar European Southern Observatory pada tahun 2004, 18 tahun sebelum Teleskop James Webb dilancarkan. Kesilapan ini menjadi pencetus kepada harga saham Google menjunam pada hari tersebut.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Rajah 1 Tangkapan skrin demonstrasi Teleskop James Webb oleh Bard

Pada sidang akhbar Paris, walaupun pembentangan Bard hanya kira-kira 4 minit, jawapannya tentang masa pemerhatian terbaik untuk buruj juga mempunyai penyelewengan fakta yang jelas. Seperti yang ditunjukkan di bawah, jawapan Bard menyebut bahawa masa terbaik untuk memerhati Orion adalah dari November hingga Februari.


别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Rajah 2 Demonstrasi Bard tentang masa pemerhatian galaksi Tangkapan skrin

Menurut sumber maklumat yang berbeza, masa pemerhatian terbaik Orion adalah berbeza, tetapi semuanya jelas menunjukkan bahawa tempoh pemerhatian terbaik bermula pada bulan Januari setiap tahun. Laman web Edtech BYJU'S memberikan masa terbaik dari Januari hingga Mac [1] dan Wikipedia memberikan masa terbaik dari Januari hingga April [2].

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Rajah 3 Jawapan BYJU'S kepada masa pemerhatian terbaik untuk Orion

Disebabkan oleh jurang antara sidang akhbar Bard dan sidang akhbar New Bing, serta kesilapan fakta yang diketahui, nilai pasaran Google menjunam hampir 100 bilion dolar AS pada hari itu, dan Bard juga diketepikan secara berseloroh dipanggil sidang akhbar paling mahal dalam sejarah. Kami tidak boleh tidak tertanya-tanya, adakah terdapat sebarang ralat fakta yang tersembunyi dalam sidang akhbar New Bing yang kelihatan sempurna ?

Kesilapan fakta Bing Baharu

Kami mendapati bahawa kandungan yang dijana oleh New Bing mengandungi banyak kesilapan fakta, termasuk maklumat identiti selebriti, angka laporan kewangan dan waktu buka kelab malam, dll.

Salah klasifikasi fakta model yang dijana

Untuk siri GPT (termasuk ChatGPT, InstructGPT, dll.), T5 Untuk model generatif yang diwakili oleh , ralat fakta boleh dibahagikan secara kasar kepada dua kategori berikut:

  • Kandungan yang dijana bercanggah dengan kandungan yang dirujuk . Apabila urutan itu berkembang semasa proses penjanaan kandungan, model bahasa yang besar terdedah kepada menyimpang daripada kandungan rujukan, mengakibatkan penambahan, pemadaman atau pengubahan teks asal.
  • Kandungan yang dijana tidak mempunyai asas fakta . Kesilapan seperti ini adalah karut semata-mata. Tanpa panduan fakta, bergantung semata-mata pada maklumat yang disimpan semasa pra-latihan model boleh menjadikan model keliru semasa proses penjanaan. Terdapat kebarangkalian tinggi bahawa kandungan akan dijana yang tidak konsisten dengan fakta atau tidak relevan dengan isu tersebut.

Sekarang mari kita semak contoh yang ditunjukkan dalam persidangan Bing Baharu [3] dan demo Bing Baharu [4] untuk melihat sama ada terdapat ralat fakta dan jenisnya. Untuk kemudahan menulis, kami merujuk kepada New Bing dan New Bing plug-in yang disepadukan dalam Edge sebagai New Bing.

Ralat dalam contoh penyair Jepun

Pada 29:57 dalam video persidangan New Bing, apabila New Bing Apabila ditanya tentang penyair Jepun yang terkenal, jawapannya termasuk "Eriko Kishida (1930-2004), penyair, penulis drama dan penulis esei."

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Rajah 4 Tangkapan skrin contoh penyair dalam demo Bing Baharu

Namun, menurut maklumat yang diberikan oleh Wikipedia dan IMDB [5, 6, 7], tahun kelahiran dan kematian Eriko Kishida masing-masing adalah 1929 dan 2011. Pada masa yang sama, dia bukan seorang penulis drama atau penulis esei, tetapi seorang penyair, penterjemah dan penulis dongeng. Keluarga Kishida mungkin tidak dapat menerima bahawa dia telah dipindahkan ke New Bing dan kehilangan lapan tahun hidupnya. Pada masa yang sama, rakan sekelas Gackt juga malangnya dipindahkan. Menurut maklumat yang diberikan oleh Wikipedia [8], Gackt memainkan muzik, menyanyi, mengarang, dan berlakon, tetapi tidak pernah mengarang puisi.

Ralat dalam contoh laporan kewangan

Pada 35:49 dalam video persidangan Bing Baharu, Yusuf menunjukkan penyepaduan daripada pelayar New In Bing's Edge, cara menjana perkara penting untuk laporan kewangan suku ketiga 2022 syarikat pakaian terbuka Gap. Pada pandangan pertama, ringkasan New Bing sangat praktikal Ia menggunakan perkara penting untuk menunjukkan perkara utama laporan suku ketiga Gap mungkin "terkejut" apabila dia melihatnya. Walau bagaimanapun, apabila kami menemui laporan suku ketiga Gap 2022 [9] dan membacanya dengan teliti, kami mendapati bahawa ringkasan New Bing penuh dengan ralat dan ketinggalan, yang tidak dapat ditanggung.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Rajah 5 Ringkasan Bing baharu bagi laporan kewangan suku ketiga 2022 Gap

Pertama sekali, New Bing memberikan margin operasi larasan Gap (margin operasi yang dilaporkan, diselaraskan untuk caj penjejasan dan kos penyekat semula) sebanyak 5.9%. Walau bagaimanapun, dalam laporan kewangan, margin keuntungan kasar operasi Gap ialah 4.6%, dan selepas pelarasan adalah 3.9%.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Rajah 6 Tangkapan skrin laporan kewangan suku ketiga Gap 2022

Rajah 7 Tangkapan skrin laporan kewangan suku ketiga Gap 2022

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Malah New Bing memberikan panduan jualan setahun penuh Gap kerana "kadar pertumbuhan jualan bersih dijangka dua digit rendah", tetapi sebenarnya, suku keempat "mungkin menunjukkan penurunan pertengahan satu digit." Ia adalah penurunan dan bukannya peningkatan Perbezaan antara kedua-dua perkataan akan mengelirukan secara serius tingkah laku pelaburan pengguna. Bing baharu juga muncul entah dari mana dan memberikan lebih banyak panduan kewangan setahun penuh: "Keuntungan kasar operasi ialah 7%, dan pendapatan sesaham dicairkan adalah antara AS$1.6 dan AS$1.75 Angka ini tidak disebut dalam laporan kewangan suku ketiga Gap .

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Rajah 8 Tangkapan skrin laporan kewangan suku ketiga Gap 2022

Pada 36:15 dalam video, Yusuf menunjukkan fungsi menggunakan Bing Baharu untuk membandingkan laporan kewangan Gap dan jenama pakaian kasual sukan Lululemon. Bahagian ini juga merupakan tempat yang hangat untuk maklumat salah.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Rajah 9 Fungsi perbandingan laporan kewangan Bing baharu untuk Gap dan Lululemon

Dalam jadual yang diberikan oleh New Bing di sebelah kanan, sebagai tambahan kepada keuntungan kasar operasi Gap yang disebutkan di atas sebanyak 5.9% hendaklah 4.6% (atau 3.9% selepas pelarasan) dan Gap bahagian dicairkan Pendapatan $0.42 sepatutnya $0.77 (atau $0.71 dilaraskan, Bing Baru juga memberikan tunai dan setara tunai Gap sebagai $1.4 bilion, tetapi sebenarnya ia adalah $679 juta dalam laporan kewangan.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Rajah 10 Lululemon 2022 tangkapan skrin laporan kewangan suku ketiga

Situasi yang sama juga muncul dalam data Lululemon yang diberikan oleh New Bing. Menurut data daripada laporan suku ketiga Lululemon 2022 [10], New Bing memberikan margin keuntungan kasar Lululemon sebagai 58.7%, yang sebenarnya sepatutnya 55.9%. Bing baharu menyebut margin kasar operasi Lululemon pada 20.6%, yang sepatutnya 19.0%. Bing Baharu meletakkan pendapatan sesaham Lululemon yang dicairkan pada $1.65, yang sepatutnya menjadi $2.00.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Rajah 11 Lululemon 2022 tangkapan skrin laporan kewangan suku ketiga

Kami tidak boleh tidak tertanya-tanya: Bagaimanakah New Bing membuat karut serius mengenai laporan kewangan Gap dan Lululemon? Inferens yang munasabah ialah data ralat yang dijana berkemungkinan datang daripada data analisis laporan kewangan yang dilihat semasa peringkat pra-latihan. Apabila menjana model bahasa berskala besar seperti ChatGPT, semakin panjang jujukan yang dijana, semakin mudah untuk melepaskan diri daripada data laporan kewangan Gap dan Lululemon yang diberikan, biarkan diri anda pergi dan menjana maklumat palsu yang tidak berkaitan.

Ralat dalam contoh kelab malam

Pada 29:17 dalam video persidangan New Bing, New Bing lebih kaya sekali lagi Pelancong di Mexico City menawarkan nasihat "tidak membina" tentang kehidupan malam. Untuk beberapa kelab malam yang dicadangkan, seperti Kelab Malam Primer Nivel, El Almacen dan El Marra, New Bing menyebut bahawa bar ini tidak mempunyai ulasan pelanggan, tiada maklumat hubungan dan tiada pengenalan kedai. Bagaimanapun maklumat ini boleh didapati di Peta Google atau di halaman Facebook kedai. Nampaknya New Bing tidak cukup melayari web .

Waktu perniagaan El Almacen di New Bing adalah dari jam 5 petang hingga 11 malam dari hari Selasa hingga Ahad Walau bagaimanapun, waktu perniagaan sebenar adalah dari jam 7 malam kecuali hari Isnin [11]. Ini menyebabkan pelancong yang pergi makan malam pada pukul lima masih lapar selama dua jam. Guadalajara de Noche sebaliknya Waktu perniagaan sebenar adalah dari 5:30 petang hingga 1:30 atau 12:30 pagi setiap hari [12], manakala waktu perniagaan yang diberikan oleh New Bing bermula pada 8 malam. Nampaknya pelancong bergantung pada cadangan New Bing untuk mencari restoran, dan sama ada mereka boleh mendapatkan makanan bergantung pada nasib mereka.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Rajah 12 Tangkapan skrin contoh kelab malam dalam demo Bing Baharu

Ralat lain

Selain ralat maklumat di atas, kami juga menemui satu siri ralat fakta yang tersebar di setiap sudut, seperti Ralat harga produk, ralat alamat kedai, masa ralatTunggu.

Ralat dalam contoh demonstrasi

Memandangkan New Bing belum dibuka sepenuhnya, kami tidak boleh terus mendapatkan hasil carian sidang akhbar di New Bing, tetapi Microsoft menyediakan Beberapa contoh ditunjukkan [13] untuk membolehkan pengguna mengalaminya. Dalam semangat meminta jawapan, kami juga meletakkan demonstrasi ini di bawah kaca pembesar untuk dikaji. Kami mendapati bahawa malah contoh yang dipilih dengan teliti ini masih mengandungi banyak maklumat yang salah.

Dalam "Apakah idea seni yang boleh saya lakukan dengan anak saya?", New Bing memberikan banyak cadangan untuk membuat kraftangan. Untuk setiap kraf, Bing Baharu meringkaskan bahan yang diperlukan untuk membuatnya. Walau bagaimanapun, ringkasan bahan untuk setiap kraftangan tidak lengkap. Sebagai contoh, New Bing merumuskan daripada tapak web yang dipetik [14] bahawa membuat gitar kertas memerlukan kotak kadbod, gelang getah, cat dan gam. Tetapi berus span, pita, dan manik kayu yang disebut dalam petikan telah ditinggalkan.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Rajah 13 Contoh Bing baharu menunjukkan "Apakah jenis kraf yang boleh saya lakukan dengan anak-anak saya " ?” Tangkapan skrin

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Rajah 14 Membuat gitar kertas daripada Tangkapan skrin laman web yang dipetik untuk bahan yang diperlukan

Terdapat juga kesilapan yang sangat jelas dan biasa dalam contoh demonstrasi Bing Baharu, iaitu, pautan rujukan yang diberikan Ia tiada kaitan dengan kandungan yang dijana, yang sama sekali berbeza .

Contohnya, dalam contoh "Saya perlukan kereta laju yang besar.", Kia Telluride 2022 tidak muncul dalam petikan 10 [15] yang diberikan. Pada masa yang sama, masalah "perjalanan masa" masih tidak dapat dielakkan dalam contoh ini, Bing Baru mendakwa bahawa Kia Telluride versi 2022 memenangi Anugerah Kereta Terbaik Dunia 2020 Malah, versi 2020 bagi Kia Telluride memenangi anugerah itu tahun itu. Pemenang Anugerah Kereta Terbaik Dunia 2022 ialah Hyundai IONIQ 5, dan petikan 7 [16] juga merupakan artikel yang tiada kaitan dengan "Anugerah Kereta Terbaik Dunia 2020". Kami mendapati sehingga 21 ralat serupa merentas semua tunjuk cara contoh.

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

Rajah 15 Contoh demo Bing baharu "Saya perlukan kereta api ekspres yang besar" tangkapan skrin

Ringkasan: Mencari kesilapan akan membimbing kita ke hadapan

Dari analisis di atas, dapat dilihat bahawa sama ada Bing Baharu atau Bard, jawapan mereka adalah mudah Ralat fakta telah berlaku. Apabila seluruh dunia kagum dengan keupayaan model bahasa berskala besar seperti ChatGPT, dan apabila ChatGPT menjadi aplikasi terpantas dalam sejarah untuk mencapai 100 juta pengguna, di satu pihak, kami bersorak untuk kemajuan AI, tetapi pada Sebaliknya, kita juga perlu berfikir dengan tenang Bagaimana untuk menyelesaikan banyak masalah yang dihadapi oleh AI pada masa ini.

Sejak kumpulan jenius yang berkumpul di Kolej Dartmouth pada tahun 1956 mula-mula mentakrifkan apa itu kecerdasan buatan, AI telah mengalami beberapa pasang surut. Terdapat banyak kegigihan yang menyentuh hati dalam proses pembangunan 70 tahun yang lalu: ia adalah penerokaan yang tidak matang bagi generasi pertama AI, ia adalah percubaan berani sistem pakar, ia adalah sarjana seperti Hinton, Bengio, dan Lecun yang duduk di atas. bangku rangkaian saraf, dan DeepMind menggunakan AlphaGo Untuk mengeluarkan AI daripada kalangan, adalah desakan institusi penyelidikan terkemuka seperti Google, Meta, CMU, Stanford dan Tsinghua pada sumber terbuka. Ia adalah OpenAI yang bertahan tekanan dan mengambil laluan GPT Ia adalah penyampai generasi penyelidik saintifik di seluruh dunia yang telah membawa kita ke tempat kita sekarang.

Walau bagaimanapun, Jika kami membenarkan AI menjana sejumlah besar maklumat tidak benar, tidak lama kemudian keyakinan orang ramai terhadap AI akan musnah, dan semua jenis maklumat palsu akan membanjiri Internet. Kami menunjukkan kesilapan model besar untuk tidak mengkritik mana-mana syarikat atau model Sebaliknya, kami mahu menjadikan AI lebih baik .

Seperti penyair Argentina Borges pernah berkata: Sebarang takdir, tidak kira betapa rumit dan panjangnya, sebenarnya hanya mencerminkan satu saat, iaitu apabila orang benar-benar sedar tentang diri mereka yang sebenarnya . Apabila model besar seperti ChatGPT sudah mempunyai keupayaan penulisan yang setanding dengan manusia, kami dengan jelas tahu bahawa langkah seterusnya adalah untuk mengintegrasikan pengetahuan dunia sebenar ke dalam model besar dengan lebih lengkap dan tepat, supaya model AI boleh digunakan dengan selamat, boleh dipercayai dan meluas kepada kehidupan seharian rakyat. Kami tidak pernah menantikan saat itu, dan kami tidak pernah begitu dekat dengan saat itu.

Atas ialah kandungan terperinci Jangan hanya mengkritik Google Bard, Bing Baharu Microsoft yang dikuasakan oleh ChatGPT juga mempunyai ralat yang kerap. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam