Rumah > Artikel > Peranti teknologi > Temu bual terkini dengan Geoffrey Hinton: Dalam tempoh lima tahun kita akan memecahkan kerja otak, tetapi bukan melalui penyebaran belakang
Dalam dekad yang lalu, AI telah membuat penemuan satu demi satu dalam bidang penglihatan komputer, pengecaman pertuturan, terjemahan mesin, robotik, perubatan, biologi pengiraan, ramalan lipatan protein , dsb. , dan di sebalik kejayaan ini tidak dapat dipisahkan daripada pembelajaran mendalam. Jadi, bila dan dari mana pembelajaran mendalam berasal, dan bilakah ia menjadi kaedah AI yang paling menonjol?
Baru-baru ini, profesor UC Berkeley dan pakar pembelajaran mendalam Pieter Abbeel telah mengadakan temu bual dengan Geoffrey Hinton pada podcastnya "Robot Brains" .
Hinton, yang memenangi Anugerah Turing pada 2018, dikenali sebagai salah seorang daripada "Tiga Gergasi Pembelajaran Mendalam" dan salah seorang sarjana terpenting dalam sejarah kecerdasan buatan. Kertas kerja beliau telah dipetik lebih daripada 500,000 kali, yang bermaksud bahawa lebih daripada 500,000 kertas penyelidikan adalah berdasarkan penyelidikannya.
Dia telah menyelidik dalam bidang pembelajaran mendalam selama kira-kira setengah abad, kebanyakannya dalam keadaan agak kabur, tetapi pada tahun 2012, keadaan berubah: pada tahun itu, dengan AlexNet, dia menang pertandingan ImageNet Beliau membuktikan bahawa pembelajaran mendalam mempunyai kelebihan yang lebih besar daripada kaedah penglihatan komputer lain dalam pengecaman imej. Ini dipanggil "Momen ImageNet", yang mengubah keseluruhan bidang AI dan mencetuskan gelombang pembelajaran mendalam.
Dalam perbualan ini, Hinton bercakap tentang pengalamannya dari akademik hingga bekerja di Google Brain, belajar psikologi dan bekerja sebagai tukang kayu, serta teknologi visualisasi di sebalik algoritma t-SNE. sejarah, dan menawarkan pandangannya tentang beberapa isu, termasuk:
Komen teknologi AI adalah berdasarkannya tanpa mengubah niat asal. Temu bual itu telah disunting dan dianjurkan:
Abbeel: Apakah itu saraf rangkaian? Mengapa kita perlu mengambil berat tentangnya?
Hinton: Otak kita berfungsi seperti ini:
Ia mempunyai banyak perkara yang dipanggil saraf Setiap kali masuk seketika, neuron akan ping, dan sebab ia ping adalah kerana ia mendengar ping neuron lain. Setiap kali ia mendengar "ping" daripada neuron lain, ia menambah pemberat pada beberapa stor input yang diterimanya, dan apabila pemberat mencapai input tertentu, ia juga ping.
Jadi, jika anda ingin tahu bagaimana otak berfungsi, anda hanya perlu tahu bagaimana neuron membuat keputusan untuk menyesuaikan berat ini. Terdapat prosedur untuk melaraskan berat, dan jika kita dapat memikirkannya, kita akan memahami cara otak berfungsi. Saya fikir kita akan memecahkan program ini dalam tempoh lima tahun akan datang.
Saya percaya bahawa semua kecerdasan buatan sedia ada adalah berdasarkan sesuatu yang sama sekali berbeza daripada apa yang dilakukan oleh otak pada tahap yang tinggi. Ia mesti cenderung sama Apabila anda mempunyai banyak parameter, katakan anda mempunyai berbilion parameter, dan pemberat antara neuron ini melaraskan parameter berdasarkan bilangan contoh latihan anda yang banyak, perkara yang menarik akan berlaku. Otak adalah seperti ini, dan begitu juga pembelajaran mendalam. Masalahnya ialah bagaimana anda mendapatkan kecerunan parameter yang ingin anda laraskan, jadi anda perlu memikirkan tentang metrik dan parameter yang anda ingin laraskan supaya ia meningkatkan perkara yang anda ingin capai.
Tetapi kepercayaan semasa saya ialah penyebaran balik, cara pembelajaran mendalam pada masa ini berfungsi, adalah berbeza sama sekali daripada apa yang dilakukan oleh otak dan otak mendapat kecerunan dengan cara yang berbeza.
Abbeel: Anda menulis kertas kerja tentang perambatan belakang untuk melatih rangkaian saraf, yang menjadi pendorong untuk semua yang dilakukan oleh semua orang hari ini, dan kini anda berkata Adakah sudah tiba masanya untuk memikirkan keluar jika kita perlu membuat beberapa perubahan? Patutkah ia berusaha untuk menjadi serupa dengan otak? Adakah anda fikir penyebaran balik boleh lebih baik daripada apa yang dilakukan oleh otak?
Hinton: Rumelhart, Williams dan saya memang menulis kertas mengenai perambatan belakang (di bawah), yang paling banyak disebut.
Alamat kertas: http://www.cs.toronto.edu/~hinton/absps/naturebp.pdf
Penyebaran belakang sudah terkenal. Apa yang kami lakukan sebenarnya ialah menunjukkan bahawa ia boleh mempelajari perwakilan yang menarik, bukan kerana kami mencipta penyebaran balik, tetapi kami mentakrifkannya semula. Kami mencadangkan bahawa ia boleh mempelajari perwakilan yang menarik, seperti penyusunan perkataan, dan oleh itu berfikir bahawa perambatan belakang mungkin jauh lebih cekap daripada apa yang kita ada di dalam otak. Memerah banyak maklumat ke dalam segelintir sambungan, dan beberapa sambungan itu hanya beberapa bilion, jadi masalah dengan otak ialah sambungan sangat murah, terdapat bertrilion sambungan, dan pengalaman sangat mahal, jadi kita cenderung untuk Yu meletakkan banyak parameter ke dalam sedikit pengalaman.
Dan rangkaian saraf yang kami gunakan pada asasnya adalah sebaliknya. Mereka mempunyai banyak pengalaman dan cuba mengaitkan maklumat input dan output dengan parameter. Saya rasa backpropagation lebih cekap daripada kaedah yang digunakan oleh otak, tetapi tidak begitu baik untuk mengabstraksikan banyak struktur daripada data yang tidak banyak.
Abbeel: Adakah anda mempunyai sebarang hipotesis tentang cara untuk mendapatkan prestasi yang lebih baik dalam hal ini?
Hinton: Sudah lama saya fikir kami memerlukan fungsi objektif tanpa pengawasan. Ini terutamanya merujuk kepada pembelajaran persepsi Jika anda boleh mempelajari model dengan memerhati dunia, maka anda boleh mengambil tindakan berdasarkan model ini dan bukannya data mentah, yang mempunyai kadar ketepatan yang lebih tinggi.
Saya percaya bahawa otak menggunakan banyak fungsi objektif kecil tempatan Ia bukan rantaian sistem hujung ke hujung yang mengoptimumkan fungsi objektif melalui latihan.
Contohnya, jika anda melihat tampalan kecil imej dan cuba mengekstrak beberapa perwakilan, anda boleh membandingkan perwakilan yang anda peroleh daripada tampung kecil itu dengan tampung berdekatan yang lain konteks yang diperoleh daripada perwakilan untuk meramalkan apa yang ada dalam imej.
Apabila anda sudah biasa dengan domain tersebut, ramalan daripada konteks dan ciri yang diekstrak secara tempatan ini selalunya akan bersetuju. Walaupun ia tidak konsisten, anda boleh belajar banyak daripadanya.
Saya rasa otak boleh belajar banyak daripada perselisihan pendapat tempatan seperti itu. Nampaknya kepada anda imej yang besar dan banyak tompok tempatan kecil imej bermakna banyak maklum balas, iaitu, ketekalan pengekstrakan tempatan dan ramalan konteks dalam imej. Kami boleh memperoleh maklum balas yang lebih kaya daripada penjajaran ini dengan ramalan kontekstual. Sukar untuk melakukannya, tetapi saya fikir ia bergerak mengikut garisan itu sekarang.
Abbeel: Apakah pendapat anda tentang kerja SimCLR dan bagaimana ia berbeza daripada pembelajaran secara umumnya? Apakah pendapat anda tentang MAE (Masked Autoencoders) baru-baru ini? Bagaimanakah ia berkaitan dengan perkara yang anda nyatakan?
Hinton: Bukti berkaitan yang saya perolehi menunjukkan bahawa fungsi objektif ini adalah baik.
Saya secara peribadi tidak menulis kertas ini, tetapi lama dahulu, saya menulis kertas kerja dengan Sue Becker untuk memikirkan tentang mendapatkan perwakilan yang konsisten daripada dua tompok imej yang berbeza. Saya fikir itu adalah asal usul idea pembelajaran penyeliaan sendiri dengan mencapai persetujuan antara dua perwakilan tampung imej yang sama.
Abbeel: Mari kita bincangkan tentang kaedah yang anda nyatakan menggunakan penyebaran balik pembelajaran hujung ke hujung untuk menyokong pembelajaran hujung ke hujung. Apa yang anda katakan ialah belajar dengan cara yang dekat dengan otak, belajar daripada kurang data dan mengekstrak lebih banyak data, akan menjadi kunci kepada kemajuan dalam memahami cara otak berfungsi. Hari ini, ramai orang cuba menyelesaikan masalah pembelajaran dengan cekap daripada data tidak berlabel kerana ia memerlukan usaha manusia yang kurang, tetapi mereka masih menggunakan mekanisme yang sama seperti penyebaran balik.
Hinton: Apa yang saya tidak suka tentang MAE ialah anda mempunyai beberapa tampung input, melalui beberapa lapisan perwakilan dan cuba membina semula apa yang tiada dalam output tampung input rangkaian.
Saya rasa otak mempunyai tahap perwakilan ini, tetapi setiap lapisan cuba membina semula tahap di bawah. Bukannya anda melalui begitu banyak lapisan dan kembali, tetapi terdapat begitu banyak lapisan dan setiap lapisan cuba mencipta sesuatu dari lapisan seterusnya. Ini kelihatan lebih seperti otak kepada saya, tetapi persoalannya ialah: bolehkah anda melakukan ini tanpa menggunakan perambatan belakang?
Jelas sekali, jika anda membina semula bahagian keluaran yang hilang melalui berbilang lapisan, anda perlu melalui semua lapisan untuk mendapatkan maklumat, dan perambatan belakang sudah dibina ke dalam semua simulator, tetapi otak tidak dengan cara ini.
Abbeel: Bayangkan otak mempunyai tiga pilihan apabila memproses matlamat tempatan ini: Pertama, apakah matlamat tempatan yang ingin kita optimumkan? Kedua, apakah algoritma yang digunakan untuk mengoptimumkannya? Ketiga, apakah seni bina yang membolehkan kita menyambung neuron bersama untuk pembelajaran? Mengenai ketiga-tiga isu, kami nampaknya masih belum melakukan kerja yang baik. Apa pendapat anda?
Hinton: Jika anda berminat dengan pembelajaran kognitif, itu sudah cukup jelas.
Anda mahukan peta topik visual, hierarki peta topik bertulis yang disambungkan secara tempatan. Untuk ini, anda boleh menyelesaikan banyak masalah penugasan kredit dengan mengandaikan bahawa sesuatu di lokasi tertentu pada peta anti-elektronik ditentukan oleh peta saraf optiknya yang sepadan. Daripada menggali ke dalam sistem, gunakan interaksi setempat dan fikirkan perkara yang dilakukan oleh piksel di dalamnya.
Pada masa ini, apa yang dilakukan oleh rangkaian saraf ialah, dengan mengandaikan fungsi yang sama digunakan pada setiap lokaliti, ini adalah kes untuk rangkaian saraf konvolusi, dan perkara yang sama berlaku untuk transformer. Otak tidak semestinya boleh melakukan ini, kerana ia melibatkan perkongsian berat dan melakukan pengiraan yang sama di mana-mana. Terdapat cara untuk mencapai matlamat perkongsian berat, dan itu adalah konvolusi, yang saya fikir boleh memainkan peranan yang lebih berkesan dalam otak.
Jika anda ingin bersetuju dengan pengekstrakan tempatan melalui ramalan kontekstual, maka bayangkan mempunyai sekumpulan lajur melakukan ramalan setempat dan melihat lajur berdekatan untuk mendapatkan ramalan kontekstualnya. Anda boleh menganggap konteks sebagai guru ramalan tempatan dan sebaliknya. Fikirkan maklumat dalam konteks sebagai disuling ke dalam pengekstrak tempatan. Apa yang terhasil daripada ini ialah pemurnian bersama, kedua-duanya memberikan isyarat pengajaran kepada yang lain, yang bermaksud bahawa pengetahuan tentang perkara yang anda patut dapatkan di satu tempat sedang dipindahkan ke tempat lain.
Apabila mereka cuba mencapai persetujuan, atau mahu perkara di lokasi berbeza bersetuju, contohnya, jika mereka mahu hidung dan mulut bersetuju bahawa mereka adalah sebahagian daripada wajah yang sama, maka mereka semua harus menghasilkan perwakilan yang sama , apabila anda cuba mendapatkan perwakilan yang sama di tempat yang berbeza, anda perlu membenarkan pengetahuan diperhalusi dari satu tempat ke tempat lain, yang mempunyai kelebihan yang lebih besar daripada perkongsian berat sebenar.
Jelas sekali, dari perspektif biologi, satu kelebihan ialah seni bina terperinci tidak perlu sama di lokasi yang berbeza, dan kelebihan lain ialah pemprosesan bahagian hadapan tidak memerlukan menjadi sama.
Ambil retina sebagai contoh bahagian retina yang berbeza mempunyai saiz medan persepsi yang berbeza Rangkaian konvolusi mengabaikan berbilang resolusi berbeza dan melakukan konvolusi pada setiap resolusi melakukan pemprosesan bahagian hadapan yang berbeza. Dan jika anda mengekstrak dari satu kedudukan ke kedudukan yang lain, apa yang anda perlu lakukan ialah mendapatkan perwakilan fungsi yang sama pada kedudukan yang berbeza daripada tatasusunan optik Pada masa ini, anda boleh menggunakan prapemprosesan yang berbeza pada tatasusunan yang berbeza jika pemprosesan bahagian hadapan berbeza, Pengetahuan yang mewakili keseluruhan fungsi masih boleh diekstrak.
Jadi, walaupun pengekstrakan kurang cekap daripada pemberat paparan sebenar, ia lebih fleksibel dan lebih boleh dipercayai dari segi saraf. Ini juga merupakan perkara penting yang saya buat setahun yang lalu, iaitu perlu ada helah seperti perkongsian berat untuk meningkatkan kecekapan, tetapi jika anda cuba mendapatkan perkara yang bersebelahan untuk dipersetujui, maka pengekstrakan tempatan berfungsi.
Abbeel: Memandangkan otak berfungsi secara berbeza, patutkah kita terus berfikir tentang perkongsian berat badan dengan cara lain, atau patutkah kita tidak meneruskan perkongsian berat badan?
Hinton: Saya rasa kita harus terus melakukan konvolusi dalam rangkaian konvolusi, berkongsi pemberat dalam transformer dan berkongsi pengetahuan dengan berkongsi pemberat . Ingat, otak berkongsi pengetahuan bukan dengan berkongsi berat, tetapi dengan berkongsi fungsi dari input ke output, menggunakan pengekstrakan untuk memindahkan pengetahuan.
Abbeel: Sekarang ada topik lain sedang dibincangkan Ia dibincangkan secara meluas bahawa otak adalah sangat berbeza daripada rangkaian saraf semasa Neuron berfungsi dengan isyarat spike, yang sangat berbeza daripada neuron buatan dalam GPU kami. Saya ingin tahu tentang pendapat anda tentang isu ini, adakah ini hanya perbezaan kejuruteraan atau mungkin kita memerlukan lebih banyak pengetahuan untuk memahami dengan lebih baik?
Hinton: Ini bukan sekadar perbezaan kejuruteraan. Sebaik sahaja kita memahami mengapa perkakasan itu begitu hebat, kita dapat memahami bahawa ia sensitif kepada retina, unit yang digeotag otak. Sebagai contoh, retina tidak menggunakan neuron spiking dan mempunyai sejumlah besar neuron bukan spiking untuk pemprosesan. Sebaik sahaja kita memahami mengapa korteks serebrum berfungsi, kita melihat bahawa ini adalah perkara yang betul secara biologi untuk dilakukan. Saya rasa ia bergantung pada cara algoritma pembelajaran mendapat kecerunan rangkaian neuron yang meningkat, tetapi tiada siapa yang benar-benar tahu lagi.
Berkenaan dengan neuron yang melonjak, cenderung ada dua keputusan yang berbeza: Bilakah ia melonjak dan adakah ia melonjak sama sekali. Ini adalah membuat keputusan yang diskret. Pelbagai fungsi alternatif telah dirangka untuk cuba mengoptimumkan sistem.
Pada tahun 2000, Andy Brown dan saya mempunyai kertas kerja tentang mencuba mempelajari mesin Boltzmann berduri sebab utama yang menghalang pembangunan perkakasan neuron spiking.
Ramai orang telah menyedari bahawa perkakasan yang lebih cekap tenaga boleh dibuat dengan cara ini, dan juga telah membina sistem yang besar, tetapi apa yang sebenarnya kurang ialah hasil pembelajaran yang cemerlang. Jadi saya rasa sehingga kita mendapat algoritma pembelajaran yang baik, kita tidak akan dapat melakukan sesuatu dengan neuron yang spiking.
Jadi apabila anda mengambil neuron tiruan standard, cuma tanya: bolehkah ia memberitahu sama ada dua nilai input adalah sama? tidak boleh. Tetapi apabila anda menggunakan neuron spiking, mudah untuk menyediakan sistem di mana dua pancang tiba pada masa yang sama dan ia mengeluarkan bunyi apabila ia menembak, tetapi jika ia tiba pada masa yang berbeza, ia tidak. Oleh itu, menggunakan masa puncak nampaknya merupakan cara yang baik untuk mengukur konsistensi.
Sama seperti sistem biologi, sebab anda boleh melihat arah dan bunyi datang dari kelewatan isyarat sampai ke dua telinga Jika anda mengambil satu kaki sebagai contoh, cahaya adalah kira-kira satu nanosaat , dan bunyi pertama adalah kira-kira satu milisaat. Tetapi jika saya mengalihkan perkara itu beberapa inci ke sisi anda, perbezaan kelewatan masa ke dua telinga, panjang laluan ke dua telinga hanya pecahan seinci, iaitu perbezaan kelewatan masa isyarat ke dua telinga hanya satu milisaat. Jadi kami sensitif kepada 30 milisaat untuk mendapatkan stereo daripada bunyi. Kami melakukan ini dengan mempunyai dua akson dan pancang pergi ke arah yang berbeza, satu datang dari satu telinga dan satu datang dari telinga yang lain, dan apabila pancang tiba pada masa yang sama, terdapat sel yang menghantar isyarat.
Oleh kerana waktu sibuk boleh digunakan untuk melakukan perkara yang sangat sensitif, ia akan mengejutkan apabila masa yang tepat tidak digunakan. Untuk masa yang lama, saya telah berfikir bahawa jika anda boleh menggunakan masa spike untuk mengesan konsistensi dalam aspek seperti pembelajaran diselia sendiri, atau dengan kata lain, saya mengekstrak maklumat mulut dan hidung anda dan meramalkan keseluruhan muka anda dari mulut anda dan hidung, apabila Jika mulut dan hidung anda betul membentuk muka, ramalan ini akan konsisten. Adalah baik untuk menggunakan masa lonjakan untuk melihat sama ada ramalan ini konsisten, tetapi sukar untuk dilakukan kerana kami tidak tahu dan tidak mempunyai algoritma yang baik untuk melatih rangkaian, seperti neuron.
Abbeel: Adakah anda baru sahaja mengatakan bahawa retina tidak menggunakan semua neuron spiking? Otak mempunyai dua jenis neuron, ada yang lebih seperti neuron buatan kita dan ada yang spiking neuron?
Hinton: Saya tidak pasti sama ada retina lebih seperti neuron buatan, tetapi pastinya neokorteks mempunyai neuron spiking, yang merupakan mod komunikasi utamanya, menghantar pancang dari Satu parameter ke sel parameter lain.
Saya mempunyai hujah yang bagus: Otak mempunyai banyak parameter, dan tidak ada banyak data berbanding rangkaian saraf biasa yang kami gunakan dalam keadaan ini Overfitting melainkan regularization yang kuat digunakan. Teknik regularisasi yang baik ialah setiap kali anda menggunakan rangkaian saraf, anda mengabaikan sejumlah besar unit dan oleh itu mungkin juga mengabaikan fakta bahawa neuron menghantar pancang. Apa yang sebenarnya mereka sampaikan ialah kadar Poisson yang mendasari. Kami menganggap ia transitif. Proses ini datang dengan kos, ia menghantar denyutan secara rawak, dan kadar berubah semasa proses, ditentukan oleh input maklumat ke neuron Anda mungkin mahu menghantar nilai sebenar kadar dari satu air kencing ke air kencing yang lain apabila anda mahu untuk melakukan banyak penyelarasan, anda boleh menambah sedikit bunyi pada kadar nilai sebenar Salah satu cara untuk meningkatkan bunyi adalah dengan menggunakan denyutan yang akan menambah banyak bunyi.
Apabila anda melihat pada mana-mana tetingkap masa di mana kebanyakan neuron tidak terlibat dalam apa-apa, anda boleh memikirkan pancang sebagai wakil nisbah asas individu. Bunyi ini sangat buruk kerana ia bising. Tetapi apabila anda memahami penyusunan semula, ia adalah idea yang sangat baik.
Jadi saya masih peminat idea itu, tetapi sebenarnya kami tidak menggunakan pemasaan spike sama sekali. Ia hanya menggunakan perwakilan kadar individu yang sangat bising untuk menjadi penyelaras yang baik, dan saya agak beralih antara kedua-duanya. Beberapa tahun saya fikir rangkaian saraf adalah deterministik. Kita sepatutnya mempunyai rangkaian neural deterministik, iaitu beberapa tahun lagi. Saya fikir ia adalah kitaran 5 tahun. Rawak terbaik juga sangat penting, ia mengubah segala-galanya. Oleh itu, mesin Boltzmann bersifat stokastik, yang penting bagi mereka. Tetapi adalah penting untuk tidak memberi komitmen sepenuhnya kepada mana-mana senario, tetapi terbuka kepada kedua-dua senario.
Sekarang adalah penting untuk memikirkan lebih lanjut tentang kepentingan neuron spiking yang baru anda katakan dan fikirkan cara untuk melatih rangkaian neuron spiking dengan berkesan.
Abbeel: Jika sekarang kita katakan jangan risau tentang bahagian latihan (memandangkan ia kelihatan lebih cekap), tidakkah orang mahu mengedarkan cip inferens tulen, i.e. masing-masing Melakukan pra-latihan yang cekap dan kemudian menyusunnya ke dalam cip neuron spiking untuk memberikan keupayaan inferens kuasa yang sangat rendah?
Hinton: Ramai orang telah memikirkan perkara ini, yang sangat masuk akal, dan mungkin berkesan untuk menggunakan rangkaian saraf untuk penaakulan di laluan evolusi , dan semua orang melakukannya, dan ia juga terbukti lebih cekap, dan syarikat yang berbeza telah menghasilkan sistem lonjakan besar ini.
Sebaik sahaja anda melakukan perkara ini, anda akan menjadi semakin berminat untuk membuat penaakulan, satu cara untuk belajar menggunakan lebih banyak tenaga yang ada semasa tempoh puncak. Jadi anda boleh bayangkan mempunyai sistem di mana anda belajar menggunakan peranti tambahan, tidak meniru perkakasan, seperti bukan pada perkakasan tenaga rendah ini, tetapi anda boleh memindahkannya ke perkakasan tenaga rendah dengan baik.
Abbeel: Apakah AlexNet? Bagaimana ia terhasil? Apakah laluan anda daripada mempelajari mesin Boltzmann terhad kepada cuba memahami cara otak berfungsi?
Hinton: Saya akan katakan bahawa anda mungkin tiba-tiba menunjukkan bahawa pendekatan rangkaian saraf yang lebih tradisional berfungsi.
Sekitar tahun 2005 saya terpesona dengan idea bahawa saya boleh menggunakan sekumpulan mesin terhad voltan untuk pra-latihan pengesan ciri, yang akan memudahkan untuk mendapatkan Backdrop untuk berfungsi, dan hasilnya adalah Terdapat data yang mencukupi. Kemudian, kerana Faith Ali dan pasukan pengecam imejnya mempunyai data yang mencukupi, pra-latihan tidak lagi diperlukan, walaupun pra-latihan akan kembali.
GPT-3 mempunyai pra-latihan, pra-latihan juga merupakan idea yang baik, tetapi sebaik sahaja kami mengetahui bahawa anda boleh pra-latihan, ini boleh menjadikan latar belakang berfungsi dengan lebih baik dan membantu banyak dengan ucapan, seperti yang dilakukan oleh George John dan Abdul Rahman Muhammad pada tahun 2009. Selepas itu, Alex, seorang pelajar siswazah dalam kumpulan saya, mula menggunakan idea yang sama pada penglihatan, dan kami dengan cepat mendapati bahawa apabila anda mempunyai data ImageNet, anda tidak memerlukan pra-latihan.
Saya masih ingat satu hari Ilya datang ke makmal dan berkata, "Lihat, sekarang kita mempunyai pengecaman pertuturan, perkara ini benar-benar berfungsi, kita perlu membuat ImageNet sebelum orang lain melakukannya." makmal menyatakan idea ini, dan pelajar dan postdocsnya berkata, "Wah, tetapi saya sibuk dengan perkara lain, dia tidak mempunyai cara untuk membuat sesiapa bekerja dalam perkara ini." Kemudian, dia meyakinkan Alex untuk melengkapkan eksperimen dengan pramemproses data, dan data telah dipraproses mengikut apa yang dia perlukan.
Ini hanyalah latar belakang. Saya akan mengatakan bahawa ramai penyelidik mengetahui perkara ini, tetapi mungkin tidak semua orang tahu bahawa keputusan Alex adalah separuh daripada kadar ralat berbanding dengan kerja Ilya sebelum ini pada pertandingan pengecaman imej ImageNet. Itulah sebabnya semua orang beralih daripada kaedah rekaan tangan kepada penglihatan komputer dan mencuba pengaturcaraan langsung.
Abbeel: Apakah detik yang menandakan perubahan besar dalam kerjaya anda? Apakah kesan perpindahan dari akademia ke Google kepada anda? Mengapakah peralihan ini berlaku?
Hinton: Saya mempunyai seorang anak lelaki yang cacat untuk dibesarkan, jadi saya memerlukan wang yang banyak. Pada tahun 2012, saya mengajar kursus rangkaian saraf. Tetapi perisian mereka tidak begitu baik, jadi ia sangat sukar untuk dilakukan. Satu bab seminggu, saya perlu menyediakan mereka dengan video pengajaran, dan akan ada banyak orang yang ingin menontonnya. Kadangkala Yoshua Bengio akan bertanya pada keesokan harinya selepas kelas: "Mengapa anda berkata begitu (dalam kelas)?" dibuat, saya harap universiti akan berkongsi dengan profesor, mereka tidak menyatakan dengan tepat bagaimana ia akan diedarkan, tetapi orang fikir ia mungkin pada 50% atau sesuatu seperti itu, dan saya tidak mempunyai masalah dengan itu. Tetapi selepas saya mula mengajar, provost membuat keputusan unilateral tanpa berunding dengan saya atau orang lain: Jika pembiayaan datang dari platform kursus, universiti akan mengambil semua wang dan profesor tidak akan mendapat apa-apa. Saya meminta pihak sekolah untuk membantu saya menyediakan video, dan orang yang membuat video itu akan datang dan bertanya kepada saya, adakah anda tahu betapa mahalnya untuk membuat video?
Ini membuatkan saya sangat marah di sekolah, jadi saya mula memikirkan pilihan kerjaya lain selain menjadi profesor. Pada masa itu, kami tiba-tiba membangkitkan minat pelbagai syarikat, dan mereka mahu merekrut kami, sama ada dengan memberikan geran besar atau membiayai permulaan. Biasanya saya akan mengatakan tidak, saya tidak mahu mencuba untuk membuat wang tambahan daripada penyelidikan, tetapi pengalaman dengan sekolah menipu saya daripada wang saya membuatkan saya ingin mencari beberapa cara lain untuk membuat wang.
Abbeel: Macam mana lelongan pada masa itu?
Hinton:
Ia adalah pada persidangan NIPS, dan Terry menganjurkan beberapa aktiviti kecil di kasino. Di dalam bilik berasap di ruang bawah tanah hotel, dengan orang berjudi di tingkat atas, rasanya seperti filem sedang dirakam. Kami sama sekali tidak tahu berapa nilai kami. Saya berunding dengan peguam dan dia berkata saya boleh mengupah perunding profesional atau pergi ke lelongan sahaja.Setahu saya, ini kali pertama kumpulan kecil seperti ini dilelong. Kami menjalankan lelongan kami melalui Gmail dan orang ramai perlu menghantar e-mel kepada saya bida mereka dengan cap masa e-mel tersebut. Harga terus naik, mula-mula $500,000 dan kemudian $1 juta, yang menarik dan kami mendapati kami bernilai lebih daripada yang kami sangka.
Secara imbas kembali, kami mungkin boleh memperoleh lebih banyak, tetapi kami telah melihat jumlah yang kami anggap sebagai astronomi. Kami berdua mahu bekerja untuk Google, jadi kami menghentikan lelongan dan memutuskan untuk menyertai Google.
Abbeel: Seperti yang saya faham, anda masih berada di Google hari ini.
Hinton:
Saya masih bekerja di Google dan sudah 9 tahun berlalu. Sebab utama saya suka Google ialah pasukan terasnya sangat bagus.Saya sangat bergaul dengan Jeff Dean, dia sangat bijak dan saya sangat berterus terang. Dia mahu saya melakukan apa yang saya mahu lakukan, iaitu penyelidikan asas. Dia fikir apa yang perlu saya lakukan ialah cuba menghasilkan algoritma yang benar-benar baharu, dan itulah yang saya mahu lakukan, yang sesuai. Saya tidak pandai menguruskan pasukan yang besar untuk meningkatkan pengecaman pertuturan sebanyak satu peratus. Tetapi saya ingin, lebih baik, merevolusikan bidang itu sekali lagi.
Abbeel: Anda adalah seorang profesor sains komputer di Universiti Toronto, tetapi anda tidak pernah mendapat ijazah dalam sains komputer, anda mendapat ijazah dalam psikologi, dan anda bekerja sebagai tukang kayu. Bagaimana anda pergi dari belajar psikologi, menjadi tukang kayu, untuk memasuki bidang kecerdasan buatan?
Hinton: Tahun terakhir saya di Cambridge sangat sukar. Saya berhenti sekolah selepas peperiksaan saya dan menjadi seorang tukang kayu, yang saya sayangi lebih daripada segala-galanya. Selepas mengambil semua kelas di sekolah menengah, saya boleh tinggal di rumah pada waktu malam dan melakukan kerja pertukangan, jadi saya menjadi tukang kayu dan bekerja selama lebih kurang 6 bulan.
Tetapi saya tidak boleh mencari rezeki sebagai tukang kayu. Saya bekerja sebagai tukang kayu dan penghias, membuat wang semasa mengubah suai, dan saya suka melakukan pertukangan. Sehinggalah saya bertemu dengan seorang tukang kayu yang sebenar, barulah saya sedar bahawa saya benar-benar putus asa dalam kerja kayu. Dia boleh memotong sekeping kayu sepenuhnya menjadi empat segi dengan gergaji tangan. Berbanding dengan dia, saya sangat terdesak sehingga saya memutuskan untuk kembali kepada kecerdasan buatan.
Abbeel: Setahu saya, PhD anda telah selesai di Universiti Edinburgh.
Hinton: Ya, saya pergi ke sana untuk PhD saya dalam rangkaian saraf dan membuat penyelidikan dengan profesor terkenal Christopher Longa Higgins, yang benar-benar hebat. , dia hampir memenangi Hadiah Nobel kerana mengkaji struktur borohidrida ketika berusia 30-an. Dia sangat berminat dengan rangkaian saraf dan hubungannya dengan hologram, dan kira-kira hari saya tiba di Edinburgh, dia kehilangan minat terhadap rangkaian saraf dan benar-benar berubah fikiran selepas membaca kertas Winograd dan berfikir bahawa rangkaian saraf adalah cara yang salah untuk berfikir. Walaupun dia sama sekali tidak bersetuju dengan apa yang saya lakukan, dia tidak menghalang saya daripada melakukannya.
Abbeel: Pada awal 1970-an, apabila orang lain mengatakan bahawa rangkaian saraf yang dicadangkan oleh Minsky dan Papert adalah karut, mengapa anda melakukan ini?
Hinton: Malah, ceramah pertama yang saya berikan kepada kumpulan itu ialah tentang cara melakukan rekursi sebenar dengan rangkaian saraf. Ini adalah ucapan yang diberikan pada tahun 1973, 49 tahun yang lalu. Satu projek yang saya temui ialah apabila anda mahukan rangkaian saraf yang boleh melukis bentuk, dan ia membahagikan bentuk kepada bahagian yang berbeza, adalah mungkin untuk mempunyai satu bahagian bentuk yang dilukis oleh perkakasan saraf yang sama, dan keseluruhan bentuk dilukis. oleh pusat saraf Untuk melukis, pusat saraf menyimpan keseluruhan bentuk, dan mesti mengingati kedudukannya dalam keseluruhan bentuk, serta arah dan lokasi keseluruhan bentuk.
Tetapi fikiran saya telah berubah sekarang, apabila anda ingin menggunakan neuron yang sama untuk melukis sebahagian daripada sesuatu bentuk, anda perlu ingat di suatu tempat apakah keseluruhan bentuk itu dan apa yang anda lakukan Bagaimana jauh telah berlalu. Setelah anda selesai menggunakan subrutin ini, anda boleh melompat kembali ke tempat itu. Masalah dengan bahagian bentuk ini ialah, bagaimana rangkaian saraf mengingatnya, jelas sekali anda tidak boleh menyalin neuron sahaja, jadi saya berjaya memastikan sistem berfungsi dan menyesuaikan diri sepanjang masa, membiarkan rangkaian saraf mengingatinya dengan pantas berat dan berat. Jadi saya mempunyai rangkaian saraf yang melakukan rekursi sebenar, menggunakan semula neuron dan pemberat yang sama untuk membuat panggilan rekursif seperti yang dilakukan oleh panggilan lanjutan pada tahun 1973.
Saya rasa orang tidak faham pembentangan saya kerana saya tidak pandai dalam pembentangan, tetapi mereka juga bertanya mengapa anda melakukan rekursi dalam pertandingan anda. Apa yang mereka tidak faham ialah kami tidak akan dapat menjelaskan banyak perkara melainkan kami mempunyai rangkaian saraf melakukan perkara seperti rekursi, dan kini ini menjadi masalah yang menarik sekali lagi, jadi saya akan menunggu setahun lagi sehingga idea ini Menjadi antik sejati. Saya akan menulis laporan penyelidikan apabila ia akan berumur 50 tahun.
Abbeel: Apabila anda seorang pelajar kedoktoran seperti orang lain atau baru sahaja menamatkan pengajian dari ijazah kedoktoran, hampir semua orang memberitahu anda bahawa kerja yang anda lakukan adalah membuang masa , dan anda Tetapi anda yakin bahawa ini tidak berlaku. Dari manakah kepercayaan anda?
Hinton: Saya rasa sebahagian besar daripadanya ialah persekolahan saya. Ayah saya menghantar saya ke sekolah swasta yang mahal dengan pendidikan sains yang baik dan saya bersekolah di sana sejak saya berumur 7 tahun. Ia adalah sekolah Kristian dan semua kanak-kanak lain percaya kepada Tuhan, tetapi saya diajar di rumah bahawa itu semua adalah omong kosong, dan pada pendapat saya ia adalah, jadi saya sudah biasa dengan orang lain yang salah .
Saya rasa ini penting. Anda perlu mempunyai kepercayaan dalam sains dan bersedia untuk mengkaji perkara yang jelas benar, walaupun orang lain berkata ia mengarut, dan tidak semua orang berpendapat begitu. Pada awal 1970-an, hampir semua orang yang bekerja pada AI berfikir (apa yang saya lakukan) adalah karut. Tetapi jika anda melihat lebih jauh ke belakang, pada tahun 1950-an, kedua-dua von Neumann dan Turing percaya pada rangkaian saraf, dan Turing terutamanya percaya dalam latihan pengukuhan rangkaian saraf. Saya masih percaya bahawa jika mereka tidak mati muda, keseluruhan sejarah kecerdasan buatan mungkin sangat berbeza, kerana mereka adalah orang pintar yang cukup berkuasa untuk menguasai seluruh bidang, dan mereka juga sangat berminat dengan cara otak berfungsi.
5Abbeel: Pembelajaran mendalam sangat berkesan sekarang. Adakah itu semua yang kita perlukan, atau adakah kita memerlukan sesuatu yang lain? Anda pernah berkata (mungkin saya tidak memetik anda) bahawa pembelajaran mendalam boleh melakukan segala-galanya.
Hinton: Apa yang saya maksudkan sebenarnya ialah dengan menghantar sekumpulan parameter dengan kecerunan stokastik, cara pembelajaran mendalam mendapat kecerunan mungkin tidak menjadi Reverse Propagation, dan kecerunan yang anda perolehi mungkin bukan ukuran prestasi akhir, sebaliknya fungsi objektif tempatan ini. Saya fikir itulah cara otak berfungsi, dan saya fikir itu menerangkan segala-galanya.
Satu lagi yang saya ingin katakan, ialah komputer yang kita ada sekarang sangat membantu dalam perbankan kerana mereka ingat berapa banyak wang yang anda ada dalam akaun anda. Jika anda pergi ke bank dan bertanya, mereka hanya akan memberitahu anda anggaran jumlahnya. Kami tidak boleh memberikan jawapan yang pasti kerana kami tidak boleh setepat itu dan hanya boleh memberi gambaran kasar. Kami tidak mahu perkara itu berlaku apabila komputer melakukan perbankan atau menerbangkan pesawat ulang-alik Kami benar-benar mahu komputer mendapat jawapan yang tepat. Saya rasa orang ramai tidak menghargai sepenuhnya bahawa kami membuat keputusan tentang cara pengkomputeran akan berkembang, bahawa komputer kami, pengetahuan kami, akan kekal abadi.Komputer sedia ada mempunyai atur cara komputer atau rangkaian saraf dengan banyak pemberat (itu jenis atur cara yang berbeza). Tetapi jika perkakasan anda rosak, anda boleh menjalankan program yang sama pada perkakasan lain. Ini menjadikan ilmu kekal abadi. Ia tidak bergantung pada perkakasan tertentu untuk terus hidup. Kos keabadian adalah besar, kerana ini bermakna bit perkakasan yang berbeza perlu melakukan perkara yang sama, yang jelas pembetulan titik sifar selepas semua pembetulan ralat dilakukan. Mereka perlu melakukan perkara yang sama, yang bermaksud lebih baik digital atau pada asasnya digital, mereka melakukan perkara seperti mendarab nombor bersama-sama, yang mengambil banyak dan banyak tenaga untuk menjadikan operasi sangat bijak, yang bukan sasaran Perkakasan. Sebaik sahaja anda cuba menjadikan program atau rangkaian saraf anda kekal, anda komited kepada proses pengiraan dan fabrikasi yang sangat mahal.
Jika kita sanggup melepaskan keabadian, ganjaran yang akan kita perolehi adalah pengkomputeran tenaga yang sangat rendah dan pembuatan yang sangat murah. Jadi, apa yang kita patut lakukan bukanlah membina komputer, tetapi menjadikannya berkembang. Sebagai analogi, jika anda mempunyai tanaman pasu dan anda menariknya keluar dari pasu, anda akan mendapat bola akar, yang betul-betul bentuk pasu, jadi semua tumbuhan pasu yang berbeza akan mempunyai bentuk yang sama Akar, dan butiran sistem akar semuanya berbeza, tetapi semuanya melakukan perkara yang sama, mereka mengeluarkan nutrien dari tanah, fungsinya adalah sama.
Dan inilah rupa otak sebenar, inilah yang saya panggil komputer bukan abadi. Komputer ini dibiakkan, bukan dibuat. Anda tidak boleh memprogramkannya, mereka perlu belajar, mereka perlu mempunyai algoritma pembelajaran terbina dalam. Mereka menggunakan analog untuk melakukan kebanyakan pengiraan mereka kerana analog bagus untuk melakukan perkara seperti mengambil voltan, mendarabkannya dengan rintangan, dan mengubahnya menjadi cas dan menambah cas bersama-sama, yang telah dilakukan oleh cip. Persoalannya ialah apa yang anda lakukan seterusnya, bagaimana anda belajar dalam cip ini. Pada masa ini, orang ramai telah mencadangkan backpropagation atau pelbagai versi mesin tinju. Saya fikir kita memerlukan sesuatu yang lain, tetapi saya fikir dalam masa terdekat kita akan melihat komputer bukan abadi yang murah untuk dibuat, mereka perlu mempelajari semua pengetahuan mereka, dan mereka Tenaga yang diperlukan adalah sangat rendah. Apabila komputer bukan abadi ini mati, pengetahuan mereka mati bersama mereka. Melihat kepada pemberat tidak berguna kerana pemberat tersebut hanya terpakai pada perkakasan. Jadi apa yang anda perlu lakukan ialah mengekstrak pengetahuan ini ke komputer lain. Abbeel: Rangkaian saraf yang mendominasi tajuk berita hari ini adalah sangat besar. Dari satu segi, skala model bahasa yang besar mula mendekati otak, yang sangat mengagumkan. Apa pendapat anda tentang model ini? Apakah batasan yang anda lihat di dalamnya? Sebaliknya, otak semut, sebagai contoh, jelas jauh lebih kecil daripada otak manusia, tetapi untuk bersikap adil, sistem visuomotor kita yang dibangunkan secara buatan belum lagi berada pada tahap semut atau lebah. Jadi, apakah pendapat anda tentang kemajuan besar terkini dalam model bahasa? Hinton: Otak lebah mungkin kelihatan kecil kepada anda, tetapi saya fikir lebah mempunyai kira-kira sejuta neuron, lebah lebih dekat dengan GPT-3. Tetapi otak lebah sebenarnya adalah rangkaian saraf yang besar. Maksud saya ialah jika anda mempunyai sistem dengan parameter yang besar, dan parameter tersebut ditala menggunakan keturunan kecerunan dalam beberapa fungsi objektif yang munasabah, maka anda akan mendapat banyak prestasi Baik, seperti GPT-3, dan model serupa daripada Google yang telah saya nyatakan. Itu tidak menjawab persoalan sama ada mereka boleh melakukan perkara yang sama seperti kita, saya fikir kita melakukan lebih banyak perkara seperti rekursi yang kita lakukan dalam rangkaian saraf. Saya cuba menghuraikan isu ini dalam kertas kerja saya tentang GLOM tahun lepas, tentang cara membuat hierarki lubang separa dalam rangkaian saraf. Anda mesti mempunyai struktur Jika yang anda maksudkan dengan pengiraan simbolik ialah anda mempunyai struktur separa dan keseluruhan, maka apa yang kami lakukan ialah pengiraan simbolik. Ini biasanya bukan apa yang orang panggil pengkomputeran simbolik keras, yang bermaksud bahawa anda menggunakan simbol, dan peraturan yang anda kendalikan pada simbol hanya bergantung pada bentuk rentetan simbol yang anda hadapi. Ciri-ciri hanya itu ia adalah sama atau berbeza daripada simbol lain, dan mungkin ia boleh digunakan sebagai penunjuk kepada sesuatu. Alamat kertas: https://arxiv.org/pdf/2102.12627.pdf Rangkaian saraf sangat berbeza daripada itu, jadi saya rasa kami tidak melakukan pemprosesan simbolik yang sukar, tetapi kami pasti melakukan hierarki lubang. Tetapi kami melakukannya dalam rangkaian saraf gergasi, dan saya tidak pasti sekarang sejauh mana GPT-3 sebenarnya memahami apa yang dikatakannya. Saya rasa ini cukup jelas, tidak seperti program chatbot sebelumnya Eliza yang hanya menyusun semula rentetan simbol tanpa mengetahui apa yang dikatakannya. Sebab untuk mempercayai ini ialah, sebagai contoh, jika anda menyebut "Beri saya gambar hamster memakai topi merah" dalam bahasa Inggeris, ia akan melukis gambar hamster memakai topi merah, dan ia tidak pernah membuat ini padanan sebelum ini. , jadi ia mesti memahami hubungan antara aksara Inggeris dan gambar sebelum memberi mereka gambar. Jika anda bertanya kepada skeptik rangkaian saraf ini, penafian rangkaian saraf: "Bagaimana anda membuktikan bahawa ia faham", saya fikir mereka akan menerimanya. Jika anda memintanya melukis gambar dan ia melukis gambar itu, maka ia faham. Abbeel: Model PaLM Google baru-baru ini menunjukkan cara ia boleh menerangkan secara berkesan mekanik jenaka. Ini kelihatan seperti pemahaman bahasa yang sangat mendalam. Hinton: Tidak, ia hanya menyusun semula perkataan dalam latihan. Saya tidak bersetuju dengan idea bahawa "jika ia tidak memahami apa itu jenaka, bagaimana mungkin ia boleh menjana tafsiran jenaka itu saya masih terbuka untuknya kerana rangka kerjanya adalah penyebaran balik dan ia akan Ke Arah?" pemahaman yang berbeza sama sekali dengan pemahaman kita. Jelas sekali bahawa imej lawan memberitahu anda bahawa objek boleh dikenal pasti melalui teksturnya, dan anda mungkin betul dalam erti kata bahawa ia akan digeneralisasikan kepada contoh objek lain. Tetapi ini adalah pendekatan yang sama sekali berbeza daripada kami dan saya suka menggunakan serangga dan bunga sebagai contoh. Serangga boleh melihat cahaya ultraungu. Dua bunga yang kelihatan sama kepada kita mungkin kelihatan berbeza dengan serangga. Dan sekarang kerana bunga kelihatan sama kepada kita, bolehkah kita mengatakan bahawa serangga itu tersilap? Bunga ini berkembang bersama serangga, dan cahaya ultraviolet memberi isyarat kepada serangga yang berbunga. Jelas sekali serangga itu betul, kita hanya tidak nampak perbezaannya, yang merupakan satu lagi cara berfikir tentang contoh musuh. Jadi persoalannya, dalam kes serangga, siapa yang betul? Hanya kerana dua bunga kelihatan sama kepada kita, tidak bermakna ia benar-benar, dalam hal ini serangga mungkin betul tentang kedua-dua bunga itu sangat berbeza. Abbeel: Dengan rangkaian neural semasa kami untuk pengecaman imej, seseorang mungkin berfikir bahawa memandangkan kita menciptanya dan mahu mereka melakukan sesuatu untuk kita, maka kita benar-benar tidak mahu untuk hanya mengakui, "Nah, mereka betul dan kami salah." Maksud saya, mereka perlu mengenali kereta dan pejalan kaki. Hinton: Ya. Saya hanya ingin memberitahu anda bahawa ia tidak semudah yang anda fikirkan siapa betul atau salah. Salah satu fokus kertas kerja saya tentang GLOM adalah untuk cuba membina sistem persepsi yang lebih seperti manusia. Jadi mereka akan lebih berkemungkinan melakukan kesilapan yang sama seperti yang kita lakukan, dan bukannya kesilapan yang luar biasa. Sebagai contoh, jika anda mempunyai kereta pandu sendiri dan ia membuat kesilapan yang mana-mana pemandu manusia biasa akan lakukan, itu nampaknya lebih boleh diterima daripada membuat kesilapan yang benar-benar bodoh. Abbeel: Setahu saya, Tidur adalah juga sesuatu yang anda fikirkan. Bolehkah anda bercakap tentang itu dengan lebih terperinci? Hinton: Jika anda menghalang orang tidur, mereka menjadi sangat pelik, seperti jika anda menahan seseorang selama tiga hari, Mereka akan mula berhalusinasi . Jika ia bertahan seminggu, mereka akan menjadi gila dan tidak pernah pulih. Persoalannya, kenapa? Apakah fungsi pengiraan tidur? Jika anda tidak dapat tidur menyebabkan anda benar-benar gila, mungkin ada sesuatu yang sangat penting untuk difikirkan. Teori semasa ialah tidur digunakan untuk menyatukan kenangan, atau memuat turunnya dari hippocampus ke korteks serebrum, yang sedikit pelik kerana ia seperti anda melalui mahkamah di kampus. Lama dahulu, pada awal 1980-an, Terrence Sejnowski dan saya mempunyai teori yang dipanggil mesin Boltzmann, yang sebahagiannya berdasarkan pandangan oleh Francis Crick ketika dia memikirkan tentang Hopfield Nets, Dia mempunyai kertas kerja tentang tidur, dan maksudnya. ialah anda boleh memberikan rangkaian perkara rawak dan menjadikannya tidak puas dengan perkara rawak. Alamat kertas: https://www.cs.toronto.edu/~hinton/absps/cogscibm.pdf Kami fikir ini adalah maksud tidur. Tidur adalah peringkat negatif pembelajaran. Dalam proses pembelajaran kontras, untuk dua tampalan daripada imej yang sama, anda cuba membuat mereka berkelakuan serupa; untuk dua tampalan daripada imej yang berbeza, anda cuba menjadikannya berkelakuan sangat berbeza. Apabila mereka berbeza, apa yang anda perlu lakukan adalah untuk tidak menjadikannya lebih berbeza, tetapi untuk menjadikannya tidak lagi terlalu serupa. Ini adalah prinsip pembelajaran kontrastif. Kini dengan mesin Boltzmann anda tidak boleh memisahkan contoh positif dan negatif. Anda perlu memotong contoh positif dengan contoh negatif atau semuanya menjadi salah. Saya telah cuba untuk tidak membuat mereka bersilang, melakukan banyak contoh positif dan kemudian banyak contoh negatif, yang sukar. Dalam pembelajaran kontrastif, anda boleh memisahkan fasa positif daripada fasa negatif. Jadi anda boleh melakukan banyak contoh pasangan positif, dan kemudian melakukan banyak contoh pasangan negatif. Jadi, jika anda boleh memisahkan fasa positif dan negatif pada masa yang berbeza, lakukan sekumpulan kemas kini positif, dan kemudian lakukan sekumpulan kemas kini negatif, ia menjadikan pembelajaran perbandingan lebih munasabah. Malah pembelajaran kontrastif standard, yang boleh anda lakukan dengan agak baik, anda perlu menggunakan banyak momentum dan perkara seperti itu. Jadi saya rasa fungsi tidur berkemungkinan besar melakukan pelupaan atau melakukan contoh negatif, itulah sebabnya anda tidak ingat mimpi anda. Bila anda bangun tidur, anda akan ingat kandungan dalam berat cepat, kerana berat cepat adalah simpanan sementara. Tetapi apabila anda bangun, anda hanya ingat saat-saat terakhir mimpi yang anda alami ketika anda bangun, yang saya fikir adalah teori tidur yang lebih dipercayai daripada yang lain. Jika ingatan detik ini dialih keluar, ia akan menjelaskan sebabnya, dan keseluruhan sistem akan runtuh. Anda akan melakukan kesilapan besar, mula berhalusinasi, dan melakukan pelbagai perkara pelik. Biar saya katakan sedikit lagi tentang keperluan untuk contoh negatif. Jika anda mempunyai rangkaian saraf, ia cuba mengoptimumkan beberapa fungsi objektif dalaman, sama ada berkenaan dengan perwakilannya atau berkenaan dengan ketekalan antara ramalan kontekstual dan ramalan setempat. Ia mahu ketekalan ini menjadi hak milik data sebenar, dan masalah dalam rangkaian saraf ialah anda boleh mendapatkan semua jenis korelasi dalam input. Katakan saya neuron, dan terdapat semua jenis korelasi dalam input saya, dan korelasi ini tiada kaitan dengan data sebenar, ia dibawa oleh pendawaian rangkaian dan cara ia berada dalam rangkaian. Jika kedua-dua neuron melihat piksel yang sama, ia akan berkaitan. Tetapi ini tidak memberitahu anda apa-apa tentang data, jadi persoalannya ialah, cara belajar mengekstrak struktur tentang data sebenar dan bukan tentang sambungan rangkaian. Cara untuk melakukan ini ialah memberi contoh positif dan cari struktur dalam contoh positif dan bukannya contoh negatif, kerana contoh negatif akan melalui baris yang sama. Jika struktur tidak terdapat dalam contoh negatif tetapi terdapat dalam contoh positif, maka struktur adalah mengenai perbezaan antara contoh negatif dan positif, bukan cara anda menghubungkannya. Jadi, walaupun orang ramai tidak memikirkan perkara ini, jika anda mempunyai algoritma pembelajaran yang berkuasa, anda lebih baik tidak membenarkan mereka mempelajari berat dan sambungan rangkaian saraf itu sendiri. Abbeel: Anda juga menyebut konsep "model pelajar mengalahkan model guru". Apakah maksud ini? Hinton: MNIST ialah pangkalan data digital standard Anda boleh menggantikan data latihan dengan label yang salah dan mendapatkan set data dengan label 20% betul kadar dan kadar ralat 80%. Persoalannya ialah: bolehkah anda belajar daripada set data ini? Apakah kesan pembelajaran? Jawapannya, anda boleh belajar dengan ketepatan 95%. Andaikan model guru mempunyai kadar ralat 80%, dan model pelajar mempunyai kadar ketepatan 95%, jadi pelajar itu jauh lebih baik daripada guru. Anda menghimpunkan contoh latihan ini sekaligus, jadi anda tidak boleh meratakan ralat merentas contoh latihan yang berbeza yang kebetulan mempunyai imej yang serupa. Jika anda bertanya, berapa banyak kes latihan yang anda perlukan jika anda mempunyai kes rosak, ia menarik kerana dataset imej adalah kecil. Adakah anda lebih suka mempunyai sejuta imej tersalah label atau 10,000 imej yang dilabel dengan betul? Saya mempunyai hipotesis, Apa yang penting ialah jumlah maklumat bersama antara label dan ketepatan. Jika label rosak dengan betul, maka 90% daripada masa tidak ada maklumat bersama antara label dan ketepatan jika ia rosak 80% daripada masa, hanya terdapat sedikit maklumat bersama. Saya perasan bahawa anda telah melakukan beberapa kerja sim-to-real baru-baru ini Anda menggunakan rangkaian saraf untuk melabelkan data sebenar dengan ketidaksempurnaan, dan kemudian pelajar belajar daripada label ini dan pelajar belajar dengan lebih baik daripada guru. Orang ramai keliru, bagaimana seorang pelajar boleh menjadi lebih baik daripada seorang guru? Tetapi dalam rangkaian saraf, ini mudah dicapai. Sekiranya terdapat data latihan yang mencukupi, pelajar akan lebih baik daripada guru walaupun guru tidak boleh dipercayai. Saya menulis kertas mengenai perkara ini beberapa tahun lalu dengan Melody Y. Guan, yang menggunakan beberapa data perubatan. Bahagian pertama kertas kerja membincangkan perkara ini, dan peraturan biasa kami ialah maklumat bersama antara label dan ketepatan yang diberikan adalah perkara yang penting. Alamat kertas: https://www.cs.toronto.edu/~hinton/absps/WhoSaidWhat.pdf Abbeel: Berkenaan kerja kami yang baru anda sebutkan dan beberapa kerja yang sangat popular baru-baru ini, guru biasanya memberikan label yang bising, tetapi tidak semua label yang bising digunakan. Ada hujah yang perlu dibuat yang hanya melihat kepada guru yang lebih yakin. Hinton: Berikut ialah pendekatan yang baik, mungkin berguna untuk hanya melihat perkara yang anda ada sebab untuk percaya. Dalam MNIST, Melody melukis graf di mana selagi anda mempunyai 20% daripada label yang betul, pelajar akan menjadi 95% betul. Tetapi apabila ia menurun kepada kira-kira 15%, anda tiba-tiba mendapat perubahan fasa, dan apa yang anda boleh lakukan pada ketika ini ialah mencuba nasib anda, kerana pelajar itu pasti akan mendapatkannya, dan apabila guru menyebut label ini, pelajar adalah dalam beberapa cara Pada tahap tertentu, anda perlu mengetahui contoh yang betul dan contoh yang salah. Sifat salah label yang salah label menjadi jelas apabila pelajar melihat hubungan antara label dan input. Jadi tidak mengapa jika ia didayakan secara rawak secara tidak sengaja, tetapi terdapat peralihan fasa di mana anda perlu menjadikannya cukup baik untuk difahami oleh pelajar. Ini juga menjelaskan mengapa pelajar kita lebih bijak daripada kita. Abbeel: Dalam pembelajaran rangkaian saraf, terutamanya apabila anda membina model, anda perlu memahami apa itu dan apa yang dipelajarinya. Biasanya orang cuba membayangkan apa yang berlaku semasa proses pembelajaran, anda mencipta salah satu teknik visualisasi yang paling popular t-SNE(t-Distribution Stochastic Neighbor Embedding ), apakah kisah disebaliknya? Alamat kertas: http://www.cs.toronto.edu/~hinton/absps/tsne.pdf Hinton: Jika anda mempunyai beberapa data dimensi tinggi dan anda cuba melukis peta dua dimensi atau tiga dimensi, anda boleh mengambil dua komponen utama pertama, lukis hanya dua komponen utama yang pertama. Tetapi komponen utama bimbang untuk mendapatkan jarak yang jauh dengan betul. Oleh itu, jika dua perkara sangat berbeza, komponen utama akan sangat bimbang tentang ia sangat berbeza dalam dua dimensi. Ia tidak mempedulikan perbezaan kecil sama sekali, kerana ia beroperasi pada kuasa dua perbezaan besar, jadi ia tidak mengekalkan persamaan dimensi tinggi dengan baik. Tetapi yang kita minat selalunya sebaliknya Bagi data yang diperolehi, yang kita minat ialah apa yang hampir sama dengan apa, dan kita tidak kisah sama ada jarak yang besar itu salah sedikit, asalkan yang kecil. jarak adalah betul. Saya mempunyai idea ini lama dahulu, bagaimana jika kita menukar jarak kepada kebarangkalian berpasangan? Terdapat pelbagai versi t-SNE Katakan kita mengubahnya menjadi pasangan kebarangkalian Contohnya, pasangan dengan jarak yang kecil mempunyai kebarangkalian yang tinggi, dan pasangan dengan jarak yang besar mempunyai kebarangkalian yang rendah. Kami menukar jarak kepada kebarangkalian, jarak yang kecil sepadan dengan kebarangkalian yang besar, meletakkan taburan Gaussian di sekeliling titik data, dan kemudian mengira ketumpatan titik data lain di bawah taburan Gaussian ini, yang merupakan kebarangkalian tidak piawai, dan kemudian menormalkan ia Satu transformasi. Titik ini kemudiannya diletakkan dalam dua dimensi untuk mengekalkan kebarangkalian ini. Jadi tidak kisah jika dua mata berjauhan. Kebarangkalian pasangan mereka adalah sangat rendah dan ia tidak mengambil berat tentang kedudukan relatif kedua-dua mata. Ini menghasilkan peta yang sangat cantik, yang dipanggil pembenaman kejiranan stokastik. Kami terfikir untuk memasukkan taburan Gaussian dan memilih jiran secara rawak berdasarkan kepadatan di bawah taburan Gaussian, yang mempunyai terbitan yang sangat mudah. Peta yang kami perolehi cenderung untuk menyesakkan sesuatu, yang merupakan masalah asas apabila menukar data berdimensi tinggi kepada data berdimensi rendah. Ini disebabkan oleh sifat ruang dimensi tinggi dan ruang dimensi rendah. Dalam ruang dimensi tinggi, satu titik data boleh berdekatan dengan banyak titik lain, manakala dalam ruang dimensi rendah, titik ini tidak akan terlalu dekat antara satu sama lain. Jika mereka semua dekat dengan titik data ini, mereka mesti rapat antara satu sama lain. Jadi anda akan menghadapi masalah dalam membenamkan dari dimensi tinggi ke dimensi rendah. Semasa saya bekerja pada t-SNE, saya mempunyai idea untuk membuat model hibrid menggunakan kebarangkalian sebagai "mata wang perantaraan". Kami berjaya melaksanakan idea itu, tetapi kami tidak pernah melakukannya dengan baik. Saya kecewa kerana orang ramai tidak mengambil kesempatan daripada idea ini, dan kemudian saya membuat versi yang lebih mudah yang merupakan gabungan pengedaran Gaussian dan pengedaran seragam, yang berfungsi dengan lebih baik. Ideanya ialah: pada satu peta, semua pasangan berkemungkinan sama, yang memberikan kebarangkalian latar belakang pada jarak yang jauh, iaitu kebarangkalian latar belakang yang kecil pada yang lain Kebarangkalian sumbangan anda adalah berkadar dengan kuasa dua anda jarak dalam peta ini, tetapi ini bermakna dalam peta ini mereka boleh berpisah agak jauh jika mereka mahu kerana fakta bahawa mereka memerlukan beberapa kebarangkalian untuk diselaraskan secara Kimia. Malah, versi ini adalah kes khas menggunakan campuran pengedaran Gaussian, yang merupakan pengedaran Gaussian yang sangat luas yang seragam. Bagaimana jika kita menggunakan keseluruhan hierarki fungsi Gaussian? Banyak fungsi Gaussian mempunyai lebar yang berbeza, dipanggil t-distributions, yang menghasilkan t-SNE. t-SNE mempunyai sifat yang hebat kerana ia boleh memberikan maklumat berskala besar tentang sesuatu, dan apabila jarak menjadi lebih besar, anda mendapat pelbagai tahap struktur daripadanya, kedua-dua struktur keseluruhan dan struktur halus. Fungsi objektif yang digunakan dalam semua kerja ini ialah Gaussian pada ketumpatan relatif daripada kerja yang saya dan Alberto Pacinero lakukan sebelum ini sukar untuk diterbitkan pada masa itu, dan saya menerima komen tentang ditolak daripada persidangan: "Hinton telah mengusahakan idea ini selama 7 tahun, tetapi tiada siapa yang berminat." Saya rasa apa yang komen ini sebenarnya memberitahu saya ialah saya melakukan sesuatu yang sangat inovatif, yang sebenarnya melibatkan fungsi yang dipanggil NCE yang menggunakan kaedah kontrastif, dan t-SNE sebenarnya adalah versi fungsi ini. Tetapi t-SNE adalah untuk membuat peta, dan kemudian saya cuba membuat versi hibrid, yang pada mulanya tidak berfungsi sehingga saya akhirnya mendapat kebetulan, iaitu pengedaran-t yang saya mahu gunakan.
6 Sejauh manakah model bahasa berskala besar memahami bahasa
7 Mesin Boltzmann, penyulingan pengetahuan dan algoritma pengurangan dimensi t-SNE
Atas ialah kandungan terperinci Temu bual terkini dengan Geoffrey Hinton: Dalam tempoh lima tahun kita akan memecahkan kerja otak, tetapi bukan melalui penyebaran belakang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!