Rumah > Artikel > Peranti teknologi > Jika anda mempunyai apa-apa untuk dikatakan, sila bercakap! Robot Google boleh belajar dan berfikir sendiri selepas "makan" model bahasa yang besar
"Anda boleh pergi ke ruang tamu, anda boleh pergi ke dapur." Ini adalah pujian kepada isteri yang ideal, dan anda mungkin perlu mengatakannya kepada robot Google pada masa hadapan.
Pernahkah anda melihat robot yang datang dengan model bahasa yang besar dan boleh belajar dengan sendirinya? Tidak tahu bagaimana untuk melakukannya? Anda boleh mempelajarinya! Tidak kira jika anda tidak mengetahuinya sekarang, anda akan dapat melakukannya selepas beberapa ketika.
Berbanding Boston Dynamics, ia sangat sejuk untuk mendaki gunung pisau, turun ke lautan Kebakaran, memanjat gunung dan rabung, dan berasa seperti berjalan di atas tanah. Apa yang saya katakan dan apa yang anda lakukan adalah rutin umum bagi robot untuk melaksanakan arahan. Penyelidikan baharu Google kali ini membolehkan robot bukan sahaja mengikut arahan, tetapi juga melakukannya sendiri.
Ini adalah kali pertama Google menggabungkan model bahasa yang besar dengan robot untuk mengajar robot melakukan perkara yang sama seperti manusia.
Alamat kertas: https://arxiv.org/pdf/2204.01691.pdfGunakan tajuk kertas kerja Google : "Buat apa yang saya boleh, bukan seperti yang saya katakan".
Ini mungkin bermaksud: "Anda sudah menjadi robot yang matang. Anda boleh melakukan apa yang saya lakukan. Jika anda tidak mengetahuinya, anda boleh mempelajarinya. Jika anda tidak biasa dengannya, anda boleh mengamalkannya!" ” Google menamakan robot ini PaLM-SayCan. Dalam laporan "Washington Post", wartawan itu melihat penyelidik meminta robot membuat burger menggunakan bahan mainan plastik. Nampaknya lengan robot ini tahu bahawa ia perlu menambah beberapa sos tomato selepas meletakkan daging dan sebelum meletakkan salad, tetapi chef pada masa ini percaya bahawa "menambah sos tomato" bermaksud meletakkan keseluruhan botol sos tomato ke dalam burger.
Walaupun chef robot ini belum lagi berkelayakan, Google percaya bahawa dengan latihan model bahasa besar, ia hanya memerlukan masa sebelum ia belajar memasak burger. Robot itu juga boleh mengenali tin 7-Up dan Coca-Cola, membuka laci dan mencari beg kerepek kentang. Dengan keupayaan abstrak PaLM, ia juga boleh memahami bahawa mangkuk kuning, hijau dan biru boleh dibandingkan dengan padang pasir, hutan dan lautan, masing-masing.
Berbeza dengan robot terdahulu, terdapat robot yang membuat burger, mee goreng dan pizza pada masa lalu, tetapi mereka sebenarnya telah selesai Ia merupakan gabungan arahan yang jelas untuk satu tindakan, seperti "gerakkan lengan kanan anda tiga ruang ke kiri", "terbalikkan", dsb. Matlamat semasa Google adalah untuk membolehkan robot memahami dan melaksanakan arahan seperti "Mari dan jadikan saya hamburger," "Saya lapar, pergi belikan saya roti," dan "Keluar dan bermain bola dengan saya." Ia seperti bercakap dengan seseorang.
Contohnya, apabila seorang penyelidik kecerdasan buatan Google berkata kepada robot PaLM-SayCan: "Minuman saya tumpah, bolehkah anda membantu?" bangunan pejabat Meluncur dengan roda, gunakan penglihatan kamera digital untuk melihat span di kaunter, ambil dengan lengan elektrik dan bawa kembali. "Ini pada asasnya adalah model yang berbeza," kata Brian Ichter dari Google. Beliau adalah salah seorang pengarang kertas yang dikeluarkan baru-baru ini yang menerangkan kemajuan baru dalam robot tersebut.
Kini, robot bukan lagi sesuatu yang jarang berlaku. Berjuta-juta robot bekerja di kilang di seluruh dunia, tetapi mereka mengikut arahan khusus dan sering menumpukan pada satu atau dua tugas sahaja. Tetapi membina robot yang boleh menyelesaikan satu siri tugasan dan belajar sambil melakukannya adalah lebih rumit. Selama bertahun-tahun, syarikat teknologi besar dan kecil telah bekerja keras untuk membina "robot universal" sedemikian.
Model bahasa besar yang menjadi popular sejak beberapa tahun kebelakangan ini telah membolehkan Google mencari inspirasi untuk pembangunan "robot sejagat". Model bahasa yang besar menggunakan sejumlah besar teks daripada Internet untuk melatih perisian AI untuk meneka jenis respons yang mungkin mengikuti soalan atau ulasan tertentu.
Dari BERT kepada GPT-3, dan kemudian kepada MT-NLP, dengan peningkatan pesat dalam bilangan parameter , Model ini telah menjadi begitu baik dalam meramalkan tindak balas yang betul sehingga berurusan dengan seseorang sering terasa seperti bercakap dengan manusia yang berpengetahuan. Dengan pengetahuan yang begitu banyak, tidakkah sayang untuk berbual dengan orang lain sepanjang hari? Jika anda boleh bercakap, anda boleh bekerja Daripada chatbots kepada pembantu robot, idea penyelidikan Google boleh dikatakan datang secara semula jadi.
Kali ini, Google AI telah menghasilkan kaedah dengan kerjasama projek Robot Setiap Hari yang dilancarkan oleh pasukan moonshot X syarikat induk Google Alphabet. Iaitu, pengetahuan diekstrak daripada model bahasa besar (LLM) melalui pra-latihan, membolehkan robot mengikuti arahan teks peringkat tinggi untuk menyelesaikan tugas fizikal.
Projek Robot Setiap Hari telah diusahakan selama bertahun-tahun, dengan ramai ahli pasukan bekerja dengan Google AI menyertai pada 2015 atau 2016 Alphabet. Ideanya ialah meminta robot menggunakan kamera dan algoritma pembelajaran mesin yang canggih untuk melihat dan belajar daripada dunia di sekeliling mereka, tanpa perlu mengajar mereka setiap situasi berpotensi yang mungkin mereka hadapi.
Idea Google ialah: Model bahasa besar boleh mengekodkan pengetahuan semantik yang kaya tentang dunia , ini pengetahuan sangat berguna untuk robot yang direka untuk melaksanakan tugas dalam bahasa semula jadi. Kelemahan yang jelas bagi LLM ialah "kekurangan pengalaman dunia sebenar." Jika ia berfungsi dengan sempurna di makmal, ia mungkin tidak berguna dalam kehidupan sebenar.
Oleh itu, penyelidik mengesyorkan "menyediakan asas dunia sebenar melalui kemahiran pra-latihan" untuk mengekang model untuk melengkapkan tindakan bahasa semula jadi yang sesuai dengan persekitaran.
Robot boleh bertindak sebagai "tangan dan mata" model bahasa, manakala model bahasa menyediakan pengetahuan semantik peringkat tinggi/pengalaman dunia sebenar tentang tugas itu.
Google menggunakan mesin pemproses 6144 yang besar untuk melatih PaLM (Model Bahasa Laluan). Sumber latihan termasuk koleksi besar dokumen web berbilang bahasa yang terdapat di tapak web GitHub Microsoft, buku, artikel Wikipedia, perbualan dan kod pengaturcaraan. Ejen AI yang dilatih dengan cara ini boleh menerangkan jenaka, melengkapkan ayat, menjawab soalan dan alasan mengikut rantai pemikirannya sendiri.
Persoalan seterusnya, jika ejen ini digunakan dalam robot, bagaimana untuk mengekstrak dan menggunakan pengetahuan model bahasa besar (LLM) untuk menyelesaikan tugas fizikal? Sebagai contoh, jika minuman saya tertumpah, GPT-3 akan mengatakan anda boleh menggunakan pembersih vakum, dan LaMDA akan berkata adakah anda memerlukan saya untuk membantu anda mencari pembersih? (Ia sangat mengelirukan)
Model bahasa besar tidak boleh bertindak balas kepada operasi ini kerana ia tidak berinteraksi dengan persekitaran sebenar. Keupayaan pertimbangan nilai yang dibentuk oleh SayCan berasaskan LLM melalui model pra-latihan boleh mengendalikan arahan dalam persekitaran yang kompleks dan sebenar.
Diilhamkan oleh contoh ini, kami menyiasat cara mengekstrak pengetahuan dalam LLM untuk membolehkan robot mengikuti arahan teks peringkat tinggi masalah. Robot ini dilengkapi dengan set kemahiran pembelajaran untuk tingkah laku "atom" yang mampu mengawal visuomotor peringkat rendah. Selain meminta LLM menerangkan arahan secara ringkas, kami juga boleh menggunakannya untuk menilai kemungkinan kemahiran individu akan membuat kemajuan ke arah melengkapkan arahan peringkat tinggi.
Dengan mengandaikan setiap kemahiran mempunyai fungsi affordance, maka kebarangkalian kejayaan daripada keadaan semasanya boleh dikira (seperti mempelajari fungsi nilai), dan nilai ini boleh mengukur kebarangkalian kemahiran tersebut. Dengan cara ini, LLM melengkapkan penerangan tentang kebarangkalian sumbangan setiap kemahiran untuk melengkapkan arahan.
Para penyelidik menggunakan dua metrik untuk menilai prestasi sistem:
(1) Kadar kejayaan merancang, menunjukkan sama ada robot memilih kemahiran yang betul untuk arahan;
(2) Kadar kejayaan pelaksanaan, menunjukkan sama ada ia berjaya melaksanakan arahan.
Data menunjukkan bahawa kadar pelaksanaan arahan PaLM-SayCan juga adalah yang tertinggi antara semua model.
Ideanya bagus, tetapi kerja ini bukan tanpa risiko. Korpus latihan model bahasa besar datang daripada Internet, dan beberapa model bahasa telah menunjukkan kecenderungan negatif seperti perkauman atau seksisme, dan kadangkala didorong untuk menerbitkan ucapan atau pembohongan yang penuh kebencian. Jika model ini digunakan untuk melatih chatbot, hasilnya akan menjadi pembantu suara yang boleh mengutuk dan mengumpat tetapi bagaimana jika ia digunakan untuk melatih robot yang mempunyai tangan dan kaki untuk melakukan perkara yang tidak baik?
Selain itu, apa yang lebih berbahaya daripada ini ialah jika robot yang dilatih dengan cara ini sedar, keadaan mungkin tidak terkawal (terdapat banyak filem fiksyen sains yang serupa).
Pada bulan Julai tahun ini, seorang pekerja Google mendakwa bahawa perisian adalah pekerja yang masih hidup. Konsensus di kalangan pakar AI ialah model ini tidak hidup, tetapi ramai yang bimbang ia akan mempamerkan berat sebelah kerana mereka dilatih mengenai sejumlah besar teks buatan manusia yang tidak ditapis.
Walaupun begitu, Google masih bekerja keras Kini, penyelidik tidak lagi perlu mengekodkan arahan teknikal khusus untuk setiap tugasan robot, tetapi boleh menggunakan bahasa seharian untuk berkomunikasi dengan mereka. Mereka bercakap. Lebih-lebih lagi, perisian baharu ini boleh membantu robot menghuraikan arahan berbilang langkah yang kompleks sendiri.
Kini, robot boleh mentafsir arahan yang tidak pernah mereka dengar sebelum ini dan menghasilkan reaksi dan tindakan yang bermakna sendiri.
Mungkin bagi robot, pintu baharu baru sahaja dibuka, dan masa depan mungkin masih merupakan proses yang panjang. Teknik kecerdasan buatan seperti rangkaian saraf dan pembelajaran pengukuhan telah digunakan untuk melatih robot selama bertahun-tahun. Terdapat beberapa kejayaan, tetapi kemajuan masih perlahan.
Robot Google masih jauh dari bersedia untuk kegunaan dunia sebenar Penyelidik telah berulang kali mengatakan bahawa robot itu masih dalam peringkat makmal dan tidak mempunyai rancangan untuk mengkomersialkannya.
Atas ialah kandungan terperinci Jika anda mempunyai apa-apa untuk dikatakan, sila bercakap! Robot Google boleh belajar dan berfikir sendiri selepas "makan" model bahasa yang besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!