Rumah  >  Artikel  >  Peranti teknologi  >  Temu bual terbaru LeCun: Mengapakah dunia fizikal akhirnya akan menjadi "tumit Achilles" LLM?

Temu bual terbaru LeCun: Mengapakah dunia fizikal akhirnya akan menjadi "tumit Achilles" LLM?

WBOY
WBOYke hadapan
2024-03-11 12:52:09339semak imbas

Dalam bidang kecerdasan buatan, terdapat segelintir sarjana seperti Yann LeCun yang masih aktif di media sosial pada usia 65 tahun.

Yann LeCun dikenali sebagai pengkritik lantang dalam bidang kecerdasan buatan. Beliau telah menjadi penyokong aktif semangat sumber terbuka dan mengetuai pasukan Meta melancarkan model Llama 2 yang popular, menjadi peneraju dalam bidang model besar sumber terbuka. Walaupun ramai orang bimbang tentang masa depan kecerdasan buatan dan bimbang tentang kemungkinan senario kiamat, LeCun mempunyai pandangan yang berbeza dan yakin bahawa pembangunan kecerdasan buatan akan memberi kesan positif kepada masyarakat, terutamanya kedatangan kecerdasan super.

Baru-baru ini, LeCun sekali lagi datang ke podcast Lex Fridman dan mengadakan perbualan selama hampir tiga jam tentang kepentingan sumber terbuka, batasan LLM, dan sebab kecerdasan buatan adalah salah dan topik seperti laluan ke AGI .

Temu bual terbaru LeCun: Mengapakah dunia fizikal akhirnya akan menjadi tumit Achilles LLM?

Halaman tontonan: https://youtu.be/5t1vTLU7s40?feature=shared

Kami telah memilih beberapa perkara berharga daripada podcast ini Berikut ialah kandungan yang berkaitan:

. LLM

Lex Fridman: Anda berkata bahawa LLM autoregresif bukanlah cara kita akan membuat kemajuan ke arah kecerdasan manusia luar biasa. Mengapa mereka tidak boleh membawa kita sepanjang jalan?

Yann LeCun: Atas banyak sebab. Pertama, tingkah laku pintar mempunyai banyak ciri. Contohnya, kebolehan memahami dunia, kebolehan memahami dunia fizikal, kebolehan mengingat dan mendapatkan semula sesuatu, ingatan yang berterusan, kebolehan menaakul dan merancang. Ini adalah empat ciri asas sistem atau entiti pintar, manusia, haiwan. LLM tidak boleh melakukan ini, atau hanya boleh melakukannya dengan cara yang sangat primitif, dan tidak benar-benar memahami dunia fizikal. LLM tidak mempunyai ingatan kekal sebenar, tidak boleh membuat alasan, dan pastinya tidak boleh merancang. Jadi, jika anda menjangkakan sistem menjadi pintar tetapi tidak dapat melakukan perkara ini, anda membuat kesilapan. Ini bukan untuk mengatakan bahawa LLM autoregresif tidak berguna. Ia sememangnya berguna, tetapi ia tidak menarik dan kami tidak boleh membina keseluruhan ekosistem apl di sekelilingnya. Tetapi sebagai pasport kepada perisikan peringkat manusia, mereka tidak mempunyai blok bangunan yang diperlukan.

Kami melihat lebih banyak maklumat melalui input deria berbanding melalui bahasa, dan walaupun intuisi kami, kebanyakan perkara yang kami pelajari dan apa yang kami tahu adalah melalui pemerhatian dan interaksi kami dengan dunia sebenar Berinteraksi, bukan melalui kata-kata. Semua yang kita pelajari pada tahun-tahun pertama kehidupan, dan pastinya semua yang dipelajari haiwan, tidak ada kaitan dengan bahasa.

Lex Fridman: Adakah itu yang anda katakan, LLM kurang memahami dunia fizikal? Jadi, fizik intuitif, penaakulan akal tentang ruang fizikal, tentang realiti fizikal, bukanlah sesuatu yang istimewa untuk anda. Adakah ini lonjakan besar yang tidak dapat dilakukan oleh LLM?

Yann LeCun: LLM yang kita gunakan hari ini tidak boleh melakukan ini kerana banyak sebab, tetapi sebab utama ialah cara LLM dilatih ialah: anda mendapat sekeping teks, padam beberapa perkataan dalam teks, Topeng mereka, gantikannya dengan token kosong, dan latih rangkaian saraf genetik untuk meramalkan perkataan yang hilang. Jika anda membina rangkaian saraf ini dengan cara yang istimewa supaya ia hanya boleh melihat perkataan di sebelah kiri atau perkataan yang cuba diramalkannya, maka apa yang anda ada ialah sistem yang pada dasarnya cuba meramal perkataan seterusnya dalam teks. Oleh itu, anda boleh memberikannya teks, gesaan dan memintanya meramalkan perkataan seterusnya. Ia tidak boleh meramalkan perkataan seterusnya dengan tepat.

Jadi apa yang dilakukannya ialah menjana taburan kebarangkalian ke atas semua perkataan yang mungkin dalam kamus. Malah, ia tidak meramalkan perkataan. Ia meramalkan ketulan perkataan sebagai unit subkata, jadi mudah untuk mengendalikan ketidakpastian dalam ramalan kerana terdapat hanya bilangan perkataan terhad yang mungkin muncul dalam kamus dan anda hanya mengira pengedarannya. Sistem kemudian memilih perkataan daripada pengedaran ini. Sudah tentu, dalam taburan ini, kebarangkalian untuk memilih perkataan dengan kebarangkalian yang lebih tinggi akan lebih tinggi. Jadi anda sampel daripada pengedaran itu, sebenarnya menghasilkan perkataan, dan kemudian memindahkan perkataan itu ke dalam input supaya sistem tidak meramalkan perkataan kedua.

Ini dipanggil ramalan autoregresif, itulah sebabnya LLM ini harus dipanggil "LLM autoregresif", tetapi kami hanya memanggilnya LLM. Proses ini berbeza dengan proses sebelum menghasilkan perkataan.

Apabila anda dan saya bercakap, anda dan saya sama-sama dwibahasa dan kita berfikir tentang apa yang akan kita katakan, secara relatifnya bebas daripada bahasa yang akan kita perkatakan. Apabila kita bercakap tentang konsep matematik, pemikiran yang kita lakukan dan jawapan yang kita ingin berikan tidak ada kena mengena sama ada kita menyatakannya dalam bahasa Perancis, Rusia atau Inggeris.

Lex Fridman: Chomsky membulatkan matanya, tetapi saya faham, jadi anda katakan ada abstraksi yang lebih besar yang wujud sebelum bahasa dan memetakannya?

Yann LeCun: Untuk banyak pemikiran yang kita lakukan, ya.

Lex Fridman: Adakah humor anda abstrak? Apabila anda tweet, dan tweet anda kadang-kadang agak pedas, adakah anda mempunyai gambaran abstrak dalam otak anda sebelum tweet itu dipetakan ke bahasa Inggeris?

Yann LeCun: memang mempunyai gambaran abstrak untuk membayangkan reaksi pembaca terhadap teks. Tetapi memikirkan tentang konsep matematik, atau membayangkan apa yang anda ingin buat daripada kayu, atau sesuatu seperti itu, sama sekali tidak ada kaitan dengan bahasa. Anda tidak mempunyai monolog dalaman dalam bahasa tertentu. Anda sedang membayangkan model mental sesuatu. Maksud saya, jika saya meminta anda bayangkan bagaimana rupa botol air ini jika saya memutarkannya 90 darjah, ia tidak ada kaitan dengan bahasa. Adalah jelas bahawa kebanyakan pemikiran kita berlaku pada tahap perwakilan yang lebih abstrak Jika output adalah bahasa, kita akan merancang apa yang akan kita katakan, daripada mengeluarkan pergerakan otot, kita akan merancang jawapannya .

LLM tidak berbuat demikian dan hanya secara naluri menyebut perkataan demi perkataan. Ia seperti gerakan bawah sedar di mana seseorang bertanya kepada anda soalan dan anda menjawabnya. Tidak ada masa untuk memikirkan jawapannya, tetapi ia mudah. Jadi anda tidak perlu memberi perhatian, ia akan bertindak balas secara automatik. Inilah yang LLM lakukan. Ia tidak benar-benar memikirkan jawapannya. Kerana ia telah mengumpul banyak pengetahuan, ia boleh mendapatkan semula beberapa perkara, tetapi ia hanya akan memuntahkan token demi token tanpa merancang jawapannya.

Lex Fridman: Menjana token dengan token semestinya mudah, tetapi jika model dunia cukup kompleks, kemungkinan besar akan menghasilkan satu siri token, yang akan menjadi perkara yang mendalam.

Yann LeCun: Tetapi ini berdasarkan andaian bahawa sistem ini sebenarnya mempunyai model abadi dunia.

Ramalan Video

Lex Fridman: Jadi persoalan sebenar ialah... Bolehkah anda membina model yang mempunyai pemahaman yang mendalam tentang dunia?

Yann LeCun: Bolehkah anda membinanya daripada ramalan, jawapannya mungkin ya. Tetapi bolehkah ia dibina dengan meramalkan perkataan? Jawapannya berkemungkinan besar tidak, kerana bahasa sangat lemah pada jalur lebar yang lemah atau rendah dan tidak mempunyai maklumat yang mencukupi. Jadi membina model dunia bermakna melihat dunia, memahami sebab dunia berkembang seperti yang berlaku, dan kemudian komponen tambahan model dunia dapat meramalkan bagaimana dunia akan berkembang akibat daripada tindakan yang mungkin anda lakukan. ambil.

Jadi, model sebenar ialah: inilah idea saya tentang keadaan dunia pada masa T, dan berikut adalah tindakan yang mungkin saya ambil. Apakah keadaan dunia yang diramalkan pada masa T+1? Kini, keadaan dunia tidak perlu mewakili segala-galanya tentang dunia, ia hanya perlu mewakili maklumat yang cukup relevan untuk merancang operasi ini, tetapi tidak semestinya semua butiran.

Sekarang, inilah masalahnya. Model generatif tidak boleh melakukan ini. Jadi model generatif perlu dilatih tentang video, dan kami telah cuba melakukannya selama 10 tahun, di mana anda mengambil video, anda menunjukkan sistem video dan anda diminta untuk meramalkan peringatan video itu, pada asasnya meramalkan apa yang akan berlaku.

Anda boleh membuat mockup video besar jika anda mahu. Idea untuk melakukan ini telah lama wujud, di FAIR saya dan beberapa rakan sekerja kami telah mencuba untuk melakukannya selama 10 tahun, tetapi anda tidak boleh melakukan helah yang sama dengan LLM kerana LLM, seperti saya berkata, anda tidak boleh melakukannya dengan tepat Ramalkan perkataan yang akan mengikuti urutan perkataan, tetapi anda boleh meramalkan taburan perkataan. Sekarang, jika anda pergi dan menonton video, apa yang anda perlu lakukan ialah meramalkan pengedaran semua bingkai yang mungkin dalam video, dan kami tidak tahu cara melakukannya dengan betul.

Kami tidak tahu cara mewakili pengedaran pada ruang berterusan berdimensi tinggi dengan cara yang berguna. Itulah masalah utama, dan kita boleh melakukan ini kerana dunia jauh lebih kompleks dan kaya maklumat daripada perkataan. Teks adalah diskret, manakala video adalah dimensi tinggi dan berterusan. Terdapat banyak butiran dalam perkara ini. Jadi jika saya merakam video bilik ini dan kamera menyorot dalam video, saya tidak dapat meramalkan semua yang akan berada di dalam bilik semasa saya membelek-belek. Sistem juga tidak boleh meramalkan perkara yang akan muncul di dalam bilik apabila kamera menyorot. Mungkin ia meramalkan bahawa ia adalah sebuah bilik dan ada cahaya di dalamnya dan ada dinding dan perkara semacam itu. Ia tidak dapat meramalkan rupa lukisan pada dinding atau rupa tekstur sofa. Sudah tentu tidak ada cara untuk meramalkan tekstur permaidani. Jadi saya tidak boleh meramalkan semua butiran itu.

Jadi, satu cara yang mungkin untuk menangani perkara ini, yang telah kami kaji, adalah membina model dengan apa yang dipanggil pembolehubah terpendam. Pembolehubah terpendam dimasukkan ke dalam rangkaian saraf, yang sepatutnya mewakili semua maklumat tentang dunia yang belum anda rasai. Anda perlu meningkatkan kuasa ramalan sistem untuk dapat meramalkan piksel dengan baik, termasuk kehalusan permaidani, sofa dan lukisan pada tekstur dinding.

Kami mencuba rangkaian neural langsung, mencuba GAN, mencuba VAE, mencuba pelbagai pengekod automatik yang teratur. Kami juga cuba menggunakan kaedah ini untuk mempelajari perwakilan imej atau video yang baik, yang kemudiannya boleh digunakan sebagai input kepada sistem pengelasan imej dan sebagainya. Pada dasarnya gagal.

Semua sistem yang cuba meramal bahagian yang hilang daripada versi imej atau video yang rosak, pada asasnya lakukan ini: dapatkan imej atau video, rosakkan atau tukarkannya dalam beberapa cara, dan kemudian cuba bina semula daripada yang rosak versi Video atau imej yang lengkap, dan kemudian diharapkan perwakilan imej yang baik boleh dibangunkan di dalam sistem yang boleh digunakan untuk pengecaman objek, segmentasi, apa sahaja. Pendekatan ini pada dasarnya adalah kegagalan lengkap, sedangkan ia berfungsi dengan sangat baik apabila ia berkaitan dengan teks. Ini adalah prinsip yang digunakan untuk LLM.

Lex Fridman: Dari mana datangnya kegagalan? Adakah sukar untuk mempersembahkan imej dengan baik, seperti membenamkan semua maklumat penting dengan baik ke dalam imej? Adakah ketekalan antara imej dan imej, imej dan imej, yang membentuk video? Apakah rupanya jika kami membuat kompilasi semua cara anda gagal?

Yann LeCun: Pertama sekali, saya perlu memberitahu anda apa yang tidak berkesan, kerana ada perkara lain yang berkesan. Jadi, apa yang tidak berfungsi ialah melatih sistem untuk mempelajari perwakilan imej, melatihnya untuk membina semula imej yang baik daripada imej yang rosak.

Kami mempunyai sejumlah besar teknik untuk ini, yang kesemuanya merupakan variasi pengekod auto penafian, dan beberapa rakan sekerja saya di FAIR membangunkan sesuatu yang dipanggil MAE, atau pengekod auto bertopeng. Jadi ia pada asasnya seperti LLM atau sesuatu seperti itu, di mana anda melatih sistem dengan merosakkan teks, tetapi anda merosakkan imej, mengeluarkan patch daripadanya, dan kemudian melatih rangkaian saraf gergasi untuk membina semulanya. Ciri yang anda perolehi tidak bagus, dan anda tahu ia tidak bagus, kerana jika anda kini melatih seni bina yang sama, tetapi anda melatihnya diselia dengan data berlabel, perihalan teks imej, dsb., anda akan mendapat perwakilan yang baik , prestasi pada tugas pengiktirafan adalah lebih baik daripada jika anda melakukan latihan semula yang diselia sendiri ini.

Strukturnya bagus, dan struktur pengekod juga bagus, tetapi hakikat bahawa anda melatih sistem untuk membina semula imej tidak menjadikannya menghasilkan ciri umum imej yang panjang dan baik. Jadi apa alternatifnya? Pendekatan lain ialah pembenaman bersama.

JEPA (Joint Embedding Prediction Architecture)

Lex Fridman:: Apakah perbezaan asas antara Joint Embedding Architecture dan LLM? Bolehkah JEPA memasukkan kita ke dalam AGI?

Yann LeCun: Pertama, bagaimana ia berbeza daripada seni bina generatif seperti LLM? LLM atau sistem penglihatan yang dilatih melalui pembinaan semula menjana input. Input mentah yang mereka hasilkan adalah tidak rosak, tidak diubah, jadi anda perlu meramalkan semua piksel, dan memerlukan banyak sumber untuk sistem benar-benar meramalkan semua piksel dan semua butiran. Dalam JEPA, anda tidak perlu meramalkan semua piksel, anda hanya perlu meramalkan perwakilan abstrak input. Ini lebih mudah dalam banyak cara. Oleh itu, apa yang sistem JEPA perlu lakukan semasa latihan adalah untuk mengekstrak maklumat sebanyak mungkin daripada input, tetapi hanya mengekstrak maklumat yang agak mudah untuk diramalkan. Oleh itu, terdapat banyak perkara di dunia yang tidak dapat kita jangkakan. Sebagai contoh, jika anda mempunyai kereta pandu sendiri yang memandu di jalan atau di jalan raya, mungkin terdapat pokok di sekitar jalan dan mungkin hari berangin. Jadi daun-daun di atas pokok itu bergerak secara separa huru-hara, rawak yang anda tidak dapat meramalkan, dan anda tidak peduli, dan anda tidak mahu meramalkan. Jadi anda mahu pengekod pada asasnya mengalih keluar semua butiran ini. Ia akan memberitahu anda bahawa daun sedang bergerak, tetapi ia tidak akan memberitahu anda dengan tepat apa yang sedang berlaku. Jadi apabila anda meramalkan dalam ruang perwakilan, anda tidak perlu meramalkan setiap piksel setiap daun. Ini bukan sahaja lebih mudah, tetapi ia juga membolehkan sistem mempelajari gambaran abstrak dunia pada dasarnya, di mana perkara yang boleh dimodelkan dan diramalkan dikekalkan, dan selebihnya dianggap sebagai bunyi oleh pengekod dan dihapuskan.

Oleh itu, ia meningkatkan tahap abstraksi perwakilan. Jika anda fikirkan, ini pasti sesuatu yang kami lakukan. Setiap kali kita menerangkan fenomena, kita melakukannya pada tahap abstraksi tertentu. Kami tidak selalu menggunakan teori medan kuantum untuk menerangkan setiap fenomena semula jadi. Itu mustahil. Oleh itu, kita mempunyai pelbagai peringkat abstraksi untuk menerangkan apa yang berlaku di dunia, daripada teori medan kuantum kepada teori atom, molekul, kimia, bahan, sehinggalah kepada objek konkrit di dunia nyata dan sebagainya. Jadi kita tidak boleh mensimulasikan segala-galanya pada tahap yang paling rendah. Dan inilah sebenarnya idea di sebalik JEPA, mempelajari perwakilan abstrak dengan cara yang diselia sendiri, dan juga mempelajarinya secara hierarki. Jadi saya rasa itu bahagian penting dalam sistem pintar. Dari segi bahasa, kita tidak perlu melakukan ini, kerana bahasa sudah abstrak pada tahap tertentu dan telah menghapuskan banyak maklumat yang tidak dapat diramalkan. Oleh itu, kita boleh terus meramal perkataan tanpa melakukan pembenaman bersama atau meningkatkan tahap abstraksi.

Lex Fridman: Maksud anda bahasa, kami terlalu malas untuk menggunakan bahasa kerana kami telah diberi perwakilan abstrak secara percuma dan kini kami perlu mengezum keluar dan benar-benar memikirkan sistem pintar secara umum. Kita perlu berhadapan dengan realiti fizikal dan realiti yang kucar-kacir. Dan anda benar-benar perlu melakukan itu, melompat dari realiti penuh, kaya, terperinci kepada perwakilan realiti abstrak berdasarkan perkara yang boleh anda fikirkan, dan semua jenis perkara itu.

Yann LeCun: Betul. Algoritma seliaan sendiri yang belajar melalui ramalan, walaupun dalam ruang perwakilan, mempelajari lebih banyak konsep jika data input lebih berlebihan. Lebih banyak data yang berlebihan, lebih baik mereka menangkap struktur dalaman data. Oleh itu, dalam input deria seperti input persepsi dan penglihatan, terdapat lebih banyak struktur berlebihan daripada dalam teks. Bahasa sebenarnya mungkin mewakili lebih banyak maklumat kerana ia telah dimampatkan. Anda betul, tetapi itu juga bermakna ia kurang berlebihan, jadi penyeliaan diri tidak akan sebaik itu.

Lex Fridman: Adakah mungkin untuk menggabungkan latihan penyeliaan sendiri pada data visual dengan latihan penyeliaan sendiri mengenai data linguistik? Walaupun anda bercakap tentang 10 hingga 13 token, terdapat satu tan pengetahuan yang masuk ke dalamnya. 10 hingga 13 token ini mewakili semua yang kita manusia telah fikirkan, termasuk omong kosong di Reddit, kandungan semua buku dan artikel, dan semua yang pernah dicipta oleh akal manusia.

Yann LeCun: Nah, akhirnya ya. Tetapi saya fikir jika kita melakukannya terlalu awal, kita berisiko terdorong untuk menipu. Malah, inilah yang dilakukan oleh orang ramai pada masa ini dengan model bahasa visual. Kami pada asasnya menipu, menggunakan bahasa sebagai tongkat untuk membantu sistem visual kami yang lemah mempelajari perwakilan yang baik daripada imej dan video.

Masalahnya ialah kita boleh menambah baik model bahasa dengan memberi mereka imej, tetapi kita tidak dapat mencapai tahap kecerdasan atau pemahaman dunia yang dimiliki kucing atau anjing kerana mereka tidak mempunyai bahasa. . Mereka tidak mempunyai bahasa tetapi memahami dunia jauh lebih baik daripada mana-mana LLM. Mereka boleh merancang tindakan yang sangat kompleks dan membayangkan akibat daripada urutan tindakan. Bagaimanakah kita mendapatkan mesin untuk mempelajari ini sebelum menggabungkannya dengan bahasa? Jelas sekali, jika kita menggabungkan ini dengan bahasa, kita akan mendapat hasil, tetapi sehingga itu, kita perlu memberi tumpuan kepada cara mendapatkan sistem untuk mempelajari cara dunia berfungsi.

Malah, teknologi yang kami gunakan adalah tidak kontras. Oleh itu, bukan sahaja seni bina tidak generatif, prosedur pembelajaran yang kami gunakan juga bukan perbandingan. Kami mempunyai dua set teknologi. Satu set adalah berdasarkan kaedah penyulingan Terdapat banyak kaedah yang menggunakan prinsip ini mempunyai satu dipanggil BYOL, terdapat beberapa FAIR, satu dipanggil vcREG, dan satu dipanggil I-JEPA. Harus dikatakan bahawa vcREG bukanlah kaedah penyulingan, tetapi I-JEPA dan BYOL pastinya. Terdapat juga yang dipanggil DINO atau DINO, yang juga dihasilkan oleh FAIR. Prinsip kaedah ini ialah anda menjalankan input lengkap, katakan imej, melalui pengekod, menghasilkan perwakilan, dan kemudian anda memusnahkan atau mengubah input, menjalankannya melalui apa yang pada dasarnya pengekod yang sama, tetapi dengan beberapa nuansa dan kemudian melatih peramal.

Kadang-kadang peramal adalah sangat mudah, kadangkala peramal tidak wujud, tetapi peramal dilatih untuk meramalkan hubungan antara input pertama yang tidak rosak dan input yang rosak. Tetapi anda hanya melatih cawangan kedua. Anda hanya melatih bahagian rangkaian yang mengambil input yang rosak. Rangkaian lain tidak memerlukan latihan. Tetapi kerana mereka berkongsi berat yang sama, apabila anda mengubah suai rangkaian pertama, ia juga mengubah suai rangkaian kedua. Melalui pelbagai helah, anda boleh menghalang sistem daripada ranap, seperti yang saya jelaskan sebelum ini, di mana sistem pada asasnya mengabaikan input. Oleh itu, kaedah ini sangat berkesan. Dua teknologi yang kami bangunkan di FAIR, DINO dan I-JEPA, sangat berkesan dalam hal ini.

Versi terbaru kami dipanggil V-JEPA. Idea ini pada asasnya sama seperti I-JEPA, hanya digunakan pada video. Jadi anda boleh mengambil keseluruhan video dan kemudian menyekat sebahagian daripadanya. Apa yang kami sembunyikan sebenarnya adalah paip masa, jadi keseluruhan klip untuk setiap bingkai dalam keseluruhan video.

Ini ialah sistem pertama yang kami ada yang boleh mempelajari representasi video yang baik, jadi apabila anda menyuap perwakilan tersebut ke ketua pengelas yang diselia, ia boleh memberitahu anda bahawa dengan ketepatan yang cukup tinggi Apakah tindakan yang sedang berlaku dalam video. Jadi ini adalah kali pertama kami mendapat sesuatu yang berkualiti ini.

Hasilnya nampaknya menunjukkan bahawa sistem kami boleh menggunakan perwakilan untuk memberitahu sama ada video itu mungkin secara fizikal, atau mustahil sama sekali, kerana sesetengah objek hilang, atau objek tiba-tiba melompat dari satu lokasi ke lokasi lain, atau berubah bentuk atau sesuatu.

Lex Fridman: Adakah ini membolehkan kami membina model dunia yang cukup memahaminya sehingga boleh memandu kereta?

Yann LeCun: Ia mungkin mengambil sedikit masa untuk sampai ke sana. Sudah ada beberapa sistem robotik berdasarkan idea ini. Apa yang anda perlukan ialah versi yang diubah suai sedikit Bayangkan anda mempunyai video yang lengkap, dan apa yang anda lakukan dengan video ini ialah mengubah masa ke masa hadapan. Oleh itu, anda hanya boleh melihat permulaan video tetapi bukan separuh kedua video asal, atau hanya separuh kedua video disekat. Anda kemudiannya boleh melatih sistem JEPA atau sistem seperti yang saya nyatakan untuk meramalkan perwakilan lengkap video yang tersumbat. Walau bagaimanapun, anda juga perlu menyediakan peramal dengan tindakan. Sebagai contoh, roda berputar 10 darjah ke kanan atau sesuatu, bukan?

Jadi jika ini adalah kamera kereta dan anda tahu sudut stereng, maka sedikit sebanyak anda sepatutnya dapat meramalkan bagaimana apa yang anda lihat akan berubah. Jelas sekali, anda tidak boleh meramalkan semua butiran objek yang muncul dalam paparan, tetapi pada tahap perwakilan abstrak, anda mungkin boleh meramalkan perkara yang akan berlaku. Jadi, kini anda mempunyai model dalaman yang mengatakan, "Ini adalah idea saya tentang keadaan dunia pada masa T, dan inilah tindakan yang saya lakukan. Inilah T tambah 1, T tambah delta T, T tambah 2 detik Ramalan keadaan dunia," walau apa pun. Jika anda mempunyai model sedemikian, anda boleh menggunakannya untuk perancangan. Jadi sekarang anda boleh melakukan apa yang LMS tidak boleh lakukan, iaitu merancang apa yang anda mahu lakukan. Jadi apabila anda mencapai hasil tertentu atau mencapai matlamat tertentu.

Jadi anda boleh mempunyai banyak matlamat. Saya boleh meramalkan bahawa jika saya mempunyai objek seperti ini dan saya membuka tangan saya, ia akan jatuh. Jika saya menolaknya ke atas meja dengan daya tertentu, ia akan bergerak. Jika saya menolak meja dengan kekuatan yang sama, ia mungkin tidak akan bergerak. Akibatnya, kita mempunyai model dalaman dunia dalam fikiran kita, yang membolehkan kita merancang urutan tindakan untuk mencapai matlamat tertentu. Sekarang, jika anda mempunyai model dunia ini, kita boleh bayangkan urutan tindakan, ramalkan hasil urutan tindakan itu, ukur sejauh mana keadaan akhir memenuhi matlamat tertentu, seperti mengalihkan botol ke kiri meja , dan kemudian jalankan Rancang satu siri tindakan untuk meminimumkan matlamat ini.

Kita bukan bercakap tentang pembelajaran, kita bercakap tentang masa penaakulan, jadi itulah perancangan, betul-betul. Dalam kawalan optimum, ini adalah perkara yang sangat klasik. Ia dipanggil kawalan ramalan model. Anda mempunyai model sistem yang ingin anda kawal yang meramalkan urutan keadaan yang sepadan dengan urutan arahan. Dan anda sedang merancang urutan arahan supaya, berdasarkan model peranan anda, keadaan akhir sistem akan memenuhi matlamat yang anda tetapkan. Trajektori roket telah dirancang dengan cara ini sejak kemunculan komputer, pada awal 1960-an.

Pembelajaran Pengukuhan

Lex Fridman: Cadangan untuk meninggalkan model generatif dan memihak kepada seni bina benam bersama? Anda telah menjadi pengkritik pembelajaran pengukuhan sejak sekian lama. Ini terasa seperti keterangan mahkamah, meninggalkan model kebarangkalian memihak kepada model berasaskan tenaga yang kita bincangkan, meninggalkan kaedah kontrastif dan memihak kepada kaedah regularisasi.

Yann LeCun: Saya rasa ia tidak perlu ditinggalkan sepenuhnya, tetapi saya rasa penggunaannya perlu diminimumkan kerana ia sangat tidak cekap dari segi pensampelan. Oleh itu, cara yang betul untuk melatih sistem adalah dengan terlebih dahulu memintanya mempelajari gambaran yang baik tentang dunia dan model dunia daripada pemerhatian utama (dan mungkin sedikit interaksi).

Lex Fridman: Mengapa RLHF sangat berkesan?

Yann LeCun: Apa yang mempunyai kesan transformatif ialah maklum balas manusia, dan terdapat banyak cara untuk menggunakannya, beberapa daripadanya hanya diawasi semata-mata, dan sebenarnya, ia bukanlah pembelajaran pengukuhan.

Sumber Terbuka

Yann LeCun: Satu-satunya cara untuk memiliki industri AI, untuk memiliki sistem AI yang bebas dari bias unik, adalah dengan memiliki platform sumber terbuka di mana mana-mana kumpulan boleh membina sistem khusus. Hala tuju sejarah yang tidak dapat dielakkan ialah sebahagian besar sistem AI akan dibina pada platform sumber terbuka.

Meta berkisar pada model perniagaan di mana anda menyediakan perkhidmatan yang dibiayai sama ada oleh pengiklan atau pelanggan komersial.

Sebagai contoh, jika anda mempunyai LLM yang boleh membantu kedai pizza dengan bercakap dengan pelanggan melalui WhatsApp, pelanggan hanya perlu memesan pizza dan sistem akan bertanya kepada mereka: "Topping apa yang anda mahukan atau saiz apa anda mahu?", dan lain-lain". Peniaga akan membayarnya, dan itulah modelnya.

Jika tidak, jika ia adalah sistem perkhidmatan yang lebih klasik, ia boleh disokong oleh pengiklanan, atau mempunyai beberapa mod. Tetapi masalahnya, jika anda mempunyai pangkalan pelanggan berpotensi yang cukup besar yang anda perlukan untuk membina sistem untuk mereka, tidak ada salahnya melepaskannya ke sumber terbuka.

Lex Fridman: Pertaruhan Meta ialah: adakah kita akan melakukan yang lebih baik?

Yann LeCun: Tidak. Kami sudah mempunyai pangkalan pengguna dan pangkalan pelanggan yang besar.

Tidak rugi kami menyediakan sistem sumber terbuka atau model asas, model asas untuk orang lain membina aplikasi. Jika apl ini berguna kepada pelanggan kami, kami boleh membelinya terus daripada mereka. Mereka mungkin menambah baik platform. Malah, kita telah melihat ini berlaku. LLaMA 2 telah dimuat turun berjuta-juta kali dan beribu-ribu orang telah menyerahkan idea tentang cara menambah baik platform. Jadi ini jelas mempercepatkan proses menyediakan sistem kepada pelbagai pengguna, dan beribu-ribu perniagaan sedang membina aplikasi menggunakan sistem. Oleh itu, keupayaan Meta untuk menjana pendapatan daripada teknologi ini tidak terjejas oleh pengedaran sumber terbuka model asas.

Llama 3

Lex Fridman: Apakah yang paling anda teruja tentang LLaMA 3?

Yann LeCun: Akan ada pelbagai versi LLaMA yang merupakan penambahbaikan pada LLaMA terdahulu, lebih besar, lebih baik, pelbagai modal, perkara seperti itu. Dan kemudian, pada generasi akan datang, terdapat sistem perancangan yang dapat memahami cara dunia berfungsi, mungkin dilatih pada video, jadi mereka akan mempunyai beberapa model dunia yang mungkin dapat melakukan jenis penaakulan dan perancangan yang saya dibincangkan tadi.

Berapa lama masa ini? Bilakah penyelidikan ke arah ini akan memasuki barisan produk? Saya tidak tahu dan saya tidak boleh memberitahu anda. Kami pada asasnya perlu melalui beberapa kejayaan sebelum kami sampai ke sana, tetapi orang ramai dapat memantau kemajuan kami kerana kami menerbitkan penyelidikan kami secara terbuka. Jadi minggu lepas kami menerbitkan usaha V-JEPA kami, langkah pertama ke arah sistem latihan video.

Langkah seterusnya ialah melatih model dunia berdasarkan kreativiti video ini. DeepMind mempunyai kerja yang serupa, dan UC Berkeley mempunyai kerja pada model dan video dunia. Ramai orang sedang mengusahakan ini. Saya rasa banyak idea bagus akan datang. Pertaruhan saya ialah sistem ini akan menjadi sistem ringan JEPA, ia tidak akan menjadi model generatif, dan kita akan melihat apa yang berlaku pada masa hadapan.

Lebih 30 tahun yang lalu, semasa kami mengusahakan rangkaian gabungan dan rangkaian saraf awal, saya melihat laluan ke kecerdasan peringkat manusia, sistem yang boleh memahami dunia, mengingati, merancang, menaakul. Terdapat beberapa idea yang boleh bergerak ke hadapan yang mungkin mempunyai peluang untuk berfungsi, dan saya sangat teruja dengannya.

Apa yang saya suka ialah kita entah bagaimana bergerak ke arah yang baik dan mungkin berjaya sebelum otak saya bertukar kepada sos putih atau sebelum saya perlu bersara.

Lex Fridman: Kebanyakan keterujaan anda masih dalam aspek teori, iaitu aspek perisian?

Yann LeCun: Saya pernah menjadi seorang lelaki perkakasan bertahun-tahun yang lalu. Skala adalah perlu, tetapi tidak mencukupi. Ada kemungkinan saya akan hidup sepuluh tahun pada masa akan datang, tetapi saya masih perlu berlari dalam jarak yang singkat. Sudah tentu, semakin jauh kita pergi dari segi kecekapan tenaga, semakin banyak kemajuan yang kita capai dari segi kerja keras. Kita kena kurangkan penggunaan kuasa. Hari ini, GPU menggunakan antara setengah kilowatt dan kilowatt. Otak manusia mengeluarkan kira-kira 25 watt kuasa, manakala GPU menarik jauh kurang daripada otak manusia. Anda memerlukan 100,000 atau 1 juta kuasa untuk memadankannya, jadi jarak kita agak jauh.

AGI

Lex Fridman: Anda sering mengatakan GI tidak akan datang dalam masa terdekat, apakah intuisi yang mendasari di sebalik itu?

Yann LeCun: Idea, yang dipopularkan oleh fiksyen sains dan Hollywood, bahawa seseorang akan menemui rahsia AGI atau AI atau AMI peringkat manusia (apa sahaja yang anda mahu panggil) dan menghidupkan mesin, Selagi kita ada AGI, ia adalah mustahil untuk berlaku.

Ini akan menjadi proses langkah demi langkah. Adakah kita akan mempunyai sistem yang boleh memahami cara dunia berfungsi daripada video dan mempelajari perwakilan yang baik? Ia akan mengambil sedikit masa sebelum kita mencapai skala dan prestasi yang kita perhatikan pada manusia, bukan hanya satu atau dua hari.

Adakah kita akan membenarkan sistem mempunyai sejumlah besar ingatan bersekutu untuk mengingati sesuatu? Ya, tetapi ia tidak akan berlaku esok juga. Kita perlu membangunkan beberapa teknologi asas. Kami mempunyai banyak teknologi ini, tetapi membuat mereka berfungsi dengan sistem yang lengkap adalah cerita lain.

Adakah kita akan mempunyai sistem yang boleh menaakul dan merancang, mungkin seperti seni bina AI yang dipacu matlamat yang saya nyatakan sebelum ini? Ya, tetapi ia akan mengambil sedikit masa untuk memastikannya berfungsi dengan baik. Ia akan mengambil masa sekurang-kurangnya satu dekad atau lebih sebelum kita mendapatkan semua perkara ini bekerja bersama-sama, sebelum kita mendapatkan sistem berdasarkan ini yang mempelajari perancangan hierarki, perwakilan hierarki, yang boleh dikonfigurasikan cara otak manusia boleh untuk situasi yang berbeza di tangan , Kerana terdapat banyak masalah yang belum kita lihat, yang belum kita hadapi, jadi kita tidak tahu sama ada terdapat penyelesaian mudah dalam rangka kerja ini.

Sejak berbelas tahun yang lalu saya telah mendengar orang mendakwa bahawa AGI sudah hampir tiba, dan mereka semua salah.

IQ boleh mengukur sesuatu tentang manusia, tetapi kerana manusia mempunyai bentuk yang agak seragam. Walau bagaimanapun, ia hanya mengukur keupayaan yang mungkin berkaitan dengan beberapa tugasan tetapi tidak yang lain. Tetapi jika anda bercakap tentang entiti pintar lain yang mana perkara asas yang mudah dilakukan adalah berbeza sama sekali, maka ia tidak masuk akal. Oleh itu, kecerdasan ialah himpunan kemahiran dan kebolehan memperoleh kemahiran baharu dengan cekap. Set kemahiran yang dimiliki atau boleh dipelajari oleh entiti pintar tertentu adalah berbeza daripada set kemahiran entiti pintar yang lain. Kerana ini adalah perkara berbilang dimensi, set kemahiran adalah ruang dimensi tinggi yang anda tidak boleh mengukur dan anda tidak boleh membandingkan dua perkara untuk melihat sama ada satu lebih bijak daripada yang lain. Ia adalah pelbagai dimensi.

Lex Fridman: Anda sering bersuara menentang apa yang dipanggil AI kiamat, terangkan pandangan mereka dan mengapa anda fikir mereka salah.

Yann LeCun: Kiamat AI membayangkan pelbagai senario bencana tentang bagaimana AI boleh melarikan diri atau mengawal dan pada dasarnya membunuh kita semua, yang bergantung pada sekumpulan andaian, yang kebanyakannya adalah salah.

Hipotesis pertama ialah kemunculan superintelligence akan menjadi satu peristiwa dan pada satu ketika kita akan menemui rahsia itu dan kita akan membuka mesin superintelligent kerana kita tidak pernah melakukan ini sebelum ini jadi ia Akan mengambil alih dunia dan membunuh kita semua. Ini adalah salah. Ini tidak akan menjadi acara.

Kita akan ada sistem yang sebijak kucing, mereka ada semua ciri-ciri kecerdasan manusia, tetapi tahap kecerdasan mereka mungkin seperti kucing atau burung kakak tua atau sebagainya. Kemudian, kita secara beransur-ansur meningkatkan kecerdasan mereka. Sambil menjadikan mereka lebih bijak, kita juga perlu menyediakan beberapa pagar pada mereka dan belajar cara untuk menyediakan pagar untuk menjadikan mereka berkelakuan lebih normal.

Secara semula jadi, nampaknya spesies yang lebih pintar akhirnya akan menguasai spesies lain, kadang-kadang dengan sengaja dan kadang-kadang hanya tersilap untuk membezakan spesies yang lain.

Jadi anda berfikir, "Nah, jika sistem AI lebih pintar daripada kita, ia pasti akan menghapuskan kita, jika tidak sengaja, hanya kerana mereka tidak mengambil berat tentang kita," yang tidak masuk akal - nombor sebab satu Ia adalah bahawa mereka tidak akan menjadi spesies yang bersaing dengan kita dan tidak akan mempunyai keinginan untuk menguasai, kerana keinginan untuk menguasai mesti sesuatu yang wujud dalam sistem pintar. Ia sangat tertanam pada manusia dan dikongsi oleh babun, cimpanzi, dan serigala, tetapi tidak pada orang utan. Keinginan untuk mendominasi, mematuhi, atau memperoleh status adalah unik untuk spesies sosial. Spesies bukan sosial seperti orang utan tidak mempunyai keinginan sedemikian dan sama pintar seperti kita.

Humanoids

Lex Fridman: Adakah anda fikir akan terdapat berjuta-juta humanoid tidak lama lagi?

Yann LeCun: Tidak lama lagi, tetapi ia akan berlaku.

Saya rasa sepuluh tahun akan datang akan menjadi sangat menarik untuk industri robotik, kebangkitan industri robotik telah menunggu selama 10, 20 tahun dan tidak benar-benar berlaku selain daripada tingkah laku yang telah diprogramkan dan sebagainya. Persoalan utama kekal sebagai Paradoks Moravec, bagaimana kita boleh mendapatkan sistem ini untuk memahami cara dunia berfungsi dan merancang tindakan? Dengan cara ini, kita boleh menyelesaikan tugas yang benar-benar profesional. Apa yang dilakukan oleh Boston Dynamics pada dasarnya adalah melalui banyak model dinamik buatan tangan dan perancangan yang teliti terlebih dahulu, yang merupakan robotik yang sangat klasik dengan banyak inovasi dan sedikit persepsi, tetapi ia masih tidak mencukupi dan mereka tidak dapat membuat robot rumah.

Selain itu, kami masih berada agak jauh dari pemanduan L5 autonomi sepenuhnya, seperti sistem yang boleh melatih dirinya seperti kanak-kanak berusia 17 tahun melalui 20 jam pemanduan.

Jadi kami tidak akan membuat kemajuan yang ketara dalam robotik sehingga kami mempunyai model dunia, sistem yang boleh melatih diri mereka untuk memahami cara dunia berfungsi.

Atas ialah kandungan terperinci Temu bual terbaru LeCun: Mengapakah dunia fizikal akhirnya akan menjadi "tumit Achilles" LLM?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam