Rumah >Peranti teknologi >AI >Seorang profesor Amerika menggunakan anak perempuannya yang berusia 2 tahun untuk melatih model AI untuk muncul dalam Sains! Anak manusia menggunakan kamera yang dipasang di kepala untuk melatih AI baharu

Seorang profesor Amerika menggunakan anak perempuannya yang berusia 2 tahun untuk melatih model AI untuk muncul dalam Sains! Anak manusia menggunakan kamera yang dipasang di kepala untuk melatih AI baharu

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBasal: 2024-06-03 10:08:09836semak imbas

Hebat, untuk melatih model AI, seorang profesor dari Universiti Negeri New York mengikat kamera seperti GoPro ke kepala anak perempuannya!

Walaupun bunyinya luar biasa, gelagat profesor ini sebenarnya berasas.

Untuk melatih rangkaian saraf kompleks di belakang LLM, data besar diperlukan.

Adakah proses latihan LLM semasa kami semestinya cara yang paling mudah dan paling berkesan?

Sudah tentu tidak! Para saintis telah menemui bahawa pada kanak-kanak kecil manusia, otak menyerap air seperti span, dengan cepat membentuk pandangan dunia yang koheren. .

Bagaimana untuk melatih LLM dengan cara yang lebih baik?

Apabila saintis hairan, anak-anak manusia membuat mata mereka bercahaya -

Cara mereka belajar bahasa boleh dipanggil mahir dalam pemerolehan bahasa.

Kita semua tahu kisah ini: buang seorang anak kecil ke negara dengan bahasa dan budaya yang sama sekali berbeza Dalam masa beberapa bulan, penguasaannya terhadap bahasa tempatan mungkin hampir dengan tahap ibunda.

Dan model bahasa yang besar tidak dapat dibandingkan.

Pertama sekali, mereka terlalu intensif data!

Kini, syarikat utama yang melatih model hampir kehabisan semua data di dunia. Kerana pembelajaran LLM memerlukan jumlah astronomi teks yang dilombong dari Internet dan pelbagai tempat.

Untuk mereka menguasai bahasa, anda perlu memberi mereka makan trilion perkataan.

Brenden Lake dan para sarjana NYU yang menyertai kajian ini

Kedua, LLM mungkin tidak dapat belajar dengan tepat walaupun begitu banyak data dicurahkan dengan usaha yang gigih.

Keluaran banyak LLM adalah untuk meramal perkataan seterusnya dengan ketepatan tertentu. Dan ketepatan ini semakin mengganggu.

Sebaliknya, kanak-kanak tidak memerlukan banyak pengalaman untuk belajar bercakap bahasa dengan lancar.

Brenden Lake, ahli psikologi di State University of New York yang mengkaji manusia dan AI, telah memberi tumpuan kepada perkara ini.

Dia memutuskan untuk menjalankan eksperimen ke atas anak perempuannya Luna yang berusia 1 tahun dan 9 bulan.

Dalam tempoh 11 bulan yang lalu, Lake telah membenarkan anak perempuannya memakai kamera selama sejam setiap minggu untuk merakam video masa bermainnya daripada perspektifnya.

Dengan video yang dirakam oleh kamera Luna, Lake berharap dapat melatih model menggunakan data yang sama yang terdedah kepada kanak-kanak. . !

Oleh itu, Lake melancarkan projek penyelidikan sebegini: mengkaji rangsangan yang dialami kanak-kanak ketika mempelajari ayat pertama, untuk meningkatkan kecekapan latihan LLM.

Untuk melakukan ini, pasukan Lake perlu mengumpul data video dan audio daripada 25 kanak-kanak di seluruh Amerika Syarikat.

Ini adalah adegan di awal artikel - mereka mengikat kamera seperti GoPro pada kepala kanak-kanak ini, termasuk anak perempuan Lake, Luna.

Lake menjelaskan bahawa model mereka cuba menyambungkan klip video dan perkara yang dikatakan oleh penjaga kanak-kanak daripada perspektif kanak-kanak, sama seperti cara model OpenAI's Clip menghubungkan anotasi dan imej.

Klip boleh mengambil imej sebagai input dan output anotasi deskriptif sebagai cadangan berdasarkan data latihan pasangan anotasi imej.

Alamat kertas: https://openai.com/index/clip/

Selain itu, model pasukan Lake juga boleh menggabungkan imej adegan berdasarkan data latihan daripada rakaman GoPro dan audio daripada penjaga Sebagai input, ia kemudian mengeluarkan bahasa yang menerangkan tempat kejadian.

Selain itu, model ini juga boleh menukar penerangan kepada bingkai yang sebelum ini dilihat dalam latihan.

Pada pandangan pertama, ia kelihatan agak mudah, bukan? Iaitu, model belajar memadankan perkataan yang dituturkan dengan objek yang diperhatikan dalam bingkai video, sama seperti kanak-kanak manusia.

Tetapi dalam pelaksanaan sebenar, kita masih akan menghadapi banyak situasi yang kompleks.

Sebagai contoh, kanak-kanak tidak selalu melihat objek atau aksi yang diterangkan.

Malah ada situasi yang lebih abstrak, seperti kita memberi susu kepada anak-anak kita, tetapi susu berada dalam cawan legap, yang membawa kepada sambungan yang sangat longgar.

Oleh itu, Lake menjelaskan: Percubaan ini tidak bertujuan untuk membuktikan sama ada kita boleh melatih model untuk memadankan objek dalam imej dengan perkataan yang sepadan (OpenAI telah menunjukkan perkara ini).

Sebaliknya, apa yang pasukan mahu lakukan adalah untuk melihat sama ada model itu benar-benar boleh belajar mengenali objek hanya menggunakan tahap data yang jarang tersedia untuk kanak-kanak (yang sangat jarang).

Seperti yang anda lihat, ini bertentangan sama sekali dengan idea membina model oleh syarikat besar seperti OpenAI, Google dan Meta.

Anda tahu, Meta menggunakan 15 trilion token untuk melatih Llama 3.

Jika percubaan pasukan Lake berjaya, mungkin kekurangan data LLM yang dihadapi oleh seluruh dunia akan dapat diselesaikan - kerana itu, latihan LLM tidak akan memerlukan begitu banyak data sama sekali!

Dalam erti kata lain, idea baharu adalah untuk membiarkan model AI belajar daripada input terhad dan kemudian membuat generalisasi daripada data yang kita lihat.

Saya rasa tumpuan kita tidak seharusnya terhad kepada melatih LLM yang lebih besar dan lebih besar daripada lebih banyak data. Ya, anda boleh mendapatkan prestasi hebat dari LLM dengan cara ini, tetapi ia semakin jauh daripada keajaiban kecerdasan manusia yang kita tahu...

Eksperimen awal telah berjaya

Awal Keputusan eksperimen telah terbukti bahawa idea pasukan Lake mungkin betul.

Pada Februari tahun ini, mereka menggunakan 61 jam rakaman video untuk melatih rangkaian saraf bagi merakam pengalaman seorang kanak-kanak kecil.

Kajian mendapati model itu dapat menghubungkan pelbagai perkataan dan frasa yang dituturkan oleh subjek dengan pengalaman yang dirakam dalam bingkai video - selagi perkataan atau frasa itu dipersembahkan, model itu dapat mengingati imej yang berkaitan . Makalah ini telah diterbitkan dalam Sains.

Alamat kertas: https://www.science.org/doi/10.1126/science.adi1374

Tasik berkata bahawa perkara yang paling mengejutkan ialah model itu boleh menyamaratakan nama objek dalam imej yang tidak terlatih!

Sudah tentu, ketepatannya mungkin tidak hebat. Tetapi model itu pada asalnya hanya untuk mengesahkan sesuatu konsep.

Projek ini masih belum lengkap kerana model itu belum mempelajari semua yang kanak-kanak akan tahu.

Lagipun, hanya kira-kira 60 jam pertuturan beranotasi, iaitu hanya satu peratus daripada pengalaman yang diperoleh kanak-kanak dalam tempoh dua tahun. Dan pasukan memerlukan lebih banyak data untuk mengetahui perkara yang boleh dipelajari.

Dan Lake juga mengakui kaedah yang digunakan oleh model pertama masih mempunyai batasan -

Hanya menganalisis klip video yang berkaitan dengan kata-kata penjaga, hanya rakaman yang ditukar kepada imej pada kelajuan 5 bingkai sesaat , berdasarkan ini sahaja, AI tidak benar-benar mempelajari apa itu kata kerja dan apa itu perkataan abstrak. Ia hanya memperoleh kepingan statik tentang rupa dunia.

Oleh kerana ia tidak tahu apa-apa tentang apa yang berlaku sebelum, apa yang berlaku selepas, atau konteks perbualan, sukar untuk mengetahui apa itu "berjalan", "berlari" dan "melompat".

Tetapi pada masa hadapan, apabila teknologi di sebalik pemodelan video menjadi lebih matang, Lake percaya pasukan itu akan membina model yang lebih berkesan.

Jika kita boleh membina model bagaimana pemerolehan bahasa sebenarnya bermula, ia akan membuka aplikasi penting untuk memahami pembelajaran dan perkembangan manusia, mungkin membantu kita memahami gangguan perkembangan, atau cara kanak-kanak belajar bahasa.

Akhirnya, model sedemikian juga boleh digunakan untuk menguji berjuta-juta terapi pertuturan yang berbeza.

Bercakap mengenainya, bagaimanakah kanak-kanak menguasai bahasa dengan mantap melalui mata dan telinga mereka sendiri?

Mari kita lihat dengan lebih dekat artikel yang disiarkan oleh pasukan Lake dalam Sains ini.

Sambungkan perkataan dengan objek fizikal dan imej visual

Bagaimanakah anak manusia menghilangkan kejahilan mereka tentang dunia dan memperoleh pengetahuan? Misteri "kotak hitam" ini bukan sahaja menarik minat para pendidik yang berterusan, tetapi juga merupakan persoalan yang terperangkap dalam hati setiap daripada kita tentang asal usul kebijaksanaan individu.

Penulis fiksyen sains Korea Kim Cho Ye menulis andaian ini dalam "Symbiosis Hypothesis": Kebijaksanaan yang ditunjukkan oleh kanak-kanak manusia pada awal kanak-kanak mereka sebenarnya membawa tamadun asing yang hilang Mereka memilih untuk menggunakan kaedah ini untuk berkomunikasi dengan manusia Simbiosis, tetapi ia hanya bertahan selama lima tahun yang singkat Selepas manusia membesar dan mempunyai ingatan yang benar-benar kukuh, kenangan indah zaman kanak-kanak mereka terpadam.

Netizen sering berkongsi cerita dalam talian tentang anak manusia yang "terlupa minum sup Meng Po".

Mengenai zaman kanak-kanak yang penuh misteri, ia adalah tempat misteri yang sukar untuk kita jelaskan dan sukar untuk kembali. Seperti yang tertulis pada sehelai rumput emas, "Jangan pergi." Jangan ambil dunia yang indah itu. Apabila saya besar, sila tinggal bersama saya.

Bagaimanakah kanak-kanak kecil menyambung perkataan baharu dengan objek atau konsep visual tertentu?

Sebagai contoh, apabila mendengar perkataan "bola", bagaimanakah kanak-kanak berfikir tentang objek anjal dan bulat

Untuk tujuan ini, pasukan Lake meletakkan kamera yang dipasang di kepala pada seorang kanak-kanak, menjejakinya pertumbuhan dari 6 hingga 25 bulan, dan merekodkan aliran data bahasa visual 61 jam.

Pada set data klip kanak-kanak 1.5 tahun ini (termasuk 600,000 bingkai video dan 37,500 pasangan ujaran yang ditranskripsi), para penyelidik melatih model, model pembelajaran kontrastif perspektif kanak-kanak CVCL.

Model ini mewujudkan satu bentuk pembelajaran bersekutu merentas situasi, mengenal pasti pemetaan antara perkataan dan rujukan visual yang mungkin.

Model ini menyelaraskan objektif perbandingan dua rangkaian saraf, pengekod visual dan pengekod linguistik, dan dilatih dengan cara yang diselia sendiri (iaitu menggunakan rakaman perspektif kanak-kanak sahaja, tanpa label luaran), berbanding The matlamatnya adalah untuk menggabungkan pembenaman (vektor) bingkai video dan ujaran bahasa yang berlaku bersama secara sementara (memproses pembenaman bingkai video dan sebutan bahasa serentak)

Sudah tentu, set data yang dipanggil SAYCam-S ini terhad, kerana ia hanya menangkap kira-kira 1% daripada waktu terjaga kanak-kanak, kehilangan banyak pengalaman mereka.

Tetapi walaupun begitu, CVCL masih boleh mempelajari representasi pelbagai mod yang berkuasa daripada pengalaman kanak-kanak yang terhad!

Pasukan berjaya menunjukkan bahawa model itu memperoleh banyak pemetaan rujukan yang wujud dalam pengalaman harian kanak-kanak, dan oleh itu dapat membuat generalisasi rujukan visual baharu dengan sampel sifar dan melaraskan sistem konsep visual dan linguistik.

Menilai pemetaan makna perkataan yang dipelajari

Secara khusus, selepas latihan selesai, pasukan menilai kualiti pemetaan rujukan perkataan yang dipelajari oleh CVCL dan pelbagai model alternatif.

Keputusan menunjukkan ketepatan klasifikasi CVCL ialah 61.6%.

Dan Rajah 2D menunjukkan bahawa untuk 11 daripada 22 konsep, prestasi CVCL berada dalam 5% daripada ralat CLIP, tetapi data latihan CLIP adalah beberapa susunan magnitud yang lebih besar (400 juta daripada rangkaian imej- pasangan teks).

Hasil penyelidikan menunjukkan bahawa banyak pemetaan rujukan perkataan terawal boleh diperoleh daripada sekurang-kurangnya 10 hingga 100 pasangan rujukan perkataan yang wujud secara semula jadi.

Mengerti paradigma visual baharu

Selain itu, penyelidik juga menilai sama ada perkataan yang dipelajari oleh CVCL boleh digeneralisasikan kepada rangsangan visual di luar pengedaran.

Rajah 3A menunjukkan bahawa CVCL juga menunjukkan beberapa pemahaman tentang konsep visual ini, dengan ketepatan keseluruhan 34.7%.

Jelas sekali, tugasan ini memerlukan set konsep yang lebih besar, dan kesukaran tambahan dalam generalisasi luar pengedaran.

Di sebelah kiri adalah dua kes latihan yang dipilih secara rawak, dan di sebelah kanan adalah empat kes ujian Peratusan di bawah mewakili ketepatan dan prestasi model dalam mengenali imej ini dua nilai tertinggi, median dan nilai minimum. Dapat dilihat apabila kes ujian dan kes latihan lebih serupa dalam warna dan bentuk, ketepatan pengecaman model juga lebih tinggi

Konsistensi pelbagai mod sangat baik

Akhirnya, penyelidik menguji Kesepaduan sistem konsep visual dan linguistik CVCL.

Sebagai contoh, jika kedua-dua pembenaman visual dan perkataan pembenaman "kereta" lebih serupa dengan "jalan" daripada "bola", ini menunjukkan bahawa penjajaran berbilang modal berfungsi dengan baik.

Gambar di bawah menunjukkan penjajaran tinggi sistem visual dan bahasa CVCL.

Hubungan antara imej dan teks, garis putus-putus mewakili jarak antara centroid visual yang sepadan dengan setiap konsep dan perkataan embedding

Konsep visual yang berbeza berbeza mengikut ketepatan contoh mereka dikelompokkan. Kerana garis penglihatan bayi akan merayau di antara objek yang sangat dekat, model tidak membentuk pemetaan rujukan yang jelas apabila membezakan "tangan" dan "mainan" "Kereta" dan "buaian" mempunyai prestasi yang lebih baik

Dalam setiap satu. Rajah, kami menunjukkan secara visual perbandingan ramalan CVCL dengan contoh berlabel menggunakan t-SNE.

Titik biru di sebelah kiri sepadan dengan 100 bingkai yang tergolong dalam kategori tertentu, dan titik hijau di sebelah kanan sepadan dengan 100 bingkai yang diaktifkan tertinggi (berdasarkan persamaan kosinus dengan perkataan yang dibenamkan untuk setiap konsep dalam CVCL). Di bawah setiap rajah terdapat berbilang bingkai contoh kepunyaan satu atau lebih subkluster dalam setiap konsep, merakam cara benam perkataan berinteraksi dengan benam imej dalam ruang benam bersama. Sebagai contoh, untuk perkataan "tangga", kita melihat satu gugusan mewakili imej tangga kayu dalaman, manakala satu lagi gugusan utama mewakili imej set tangga biru di luar rumah. Semua graf t-SNE dalam rajah ini diperoleh daripada set gabungan imej dan teks yang sama.

Gambar di bawah menunjukkan bahawa model boleh mengesan sasaran dalam pandangan yang berbeza.

Dalam peta perhatian yang dinormalkan, kuning menunjukkan kawasan yang mendapat perhatian tertinggi. Dalam dua kategori pertama (bola dan benteng) kita dapat melihat bahawa model boleh mengesan sasaran dalam pandangan yang berbeza. Walau bagaimanapun, dalam dua kategori bawah (kucing dan kertas), peta perhatian kadangkala tidak sejajar dengan rujukan, menunjukkan bahawa keupayaan untuk mencari rujukan tidak konsisten merentas kategori.

Sudah tentu, masih terdapat banyak perbezaan dalam pembelajaran kanak-kanak dan model pembelajaran mesin.

Tetapi penyelidikan pasukan Lake sudah pasti banyak memberi inspirasi kepada kami.

Atas ialah kandungan terperinci Seorang profesor Amerika menggunakan anak perempuannya yang berusia 2 tahun untuk melatih model AI untuk muncul dalam Sains! Anak manusia menggunakan kamera yang dipasang di kepala untuk melatih AI baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Token 切片对象 https llama

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：ICML 2024 |. Sempadan baharu bagi pra-latihan model bahasa besar: "Pembungkusan Penyesuaian Terbaik" membentuk semula standard pemprosesan dokumenArtikel seterusnya：ICML 2024 |. Sempadan baharu bagi pra-latihan model bahasa besar: "Pembungkusan Penyesuaian Terbaik" membentuk semula standard pemprosesan dokumen

Artikel berkaitan

Lihat lagi