Daripada tikus berjalan dalam mez kepada AlphaGo mengalahkan manusia, pembangunan pembelajaran pengukuhan-AI-php.cn

Rumah

Peranti teknologi

Daripada tikus berjalan dalam mez kepada AlphaGo mengalahkan manusia, pembangunan pembelajaran pengukuhan

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 09, 2023 pm 09:49 PM

aipembelajaran pengukuhanberasaskan model

Mengenai pembelajaran pengukuhan, banyak adrenalin penyelidik melonjak secara tidak terkawal! Ia memainkan peranan yang sangat penting dalam sistem AI permainan, robot moden, sistem reka bentuk cip dan aplikasi lain.

Terdapat pelbagai jenis algoritma pembelajaran pengukuhan, tetapi ia terbahagi kepada dua kategori: "berasaskan model" dan "bebas model".

Dalam perbualan dengan TechTalks, ahli sains saraf dan pengarang "The Birth of Intelligence" Daeyeol Lee membincangkan model pembelajaran pengukuhan yang berbeza dalam manusia dan haiwan, kecerdasan buatan dan kecerdasan semula jadi serta hala tuju penyelidikan masa hadapan .

Daripada tikus berjalan dalam mez kepada AlphaGo mengalahkan manusia, pembangunan pembelajaran pengukuhan

Pembelajaran peneguhan tanpa model

Pada akhir abad ke-19, "undang-undang kesan" yang dicadangkan oleh ahli psikologi Edward Thorndike menjadi asas model- pembelajaran pengukuhan percuma . Thorndike mencadangkan bahawa tingkah laku yang mempunyai kesan positif dalam situasi tertentu lebih berkemungkinan berlaku lagi dalam situasi itu, manakala tingkah laku yang mempunyai kesan negatif kurang berkemungkinan berlaku lagi.

Thorndike meneroka "hukum kesan" ini dalam percubaan. Dia meletakkan seekor kucing di dalam kotak maze dan mengukur masa yang diambil untuk kucing itu melarikan diri dari kotak itu. Untuk melarikan diri, kucing mesti mengendalikan satu siri alat, seperti tali dan tuas. Thorndike memerhatikan bahawa semasa kucing berinteraksi dengan kotak teka-teki, ia mempelajari tingkah laku yang membantu melarikan diri. Apabila masa berlalu, kucing itu melarikan diri dari kotak dengan lebih cepat dan lebih cepat. Thorndike membuat kesimpulan bahawa kucing boleh belajar daripada ganjaran dan hukuman yang diberikan oleh tingkah laku mereka. "Hukum Kesan" kemudiannya membuka jalan kepada behaviorisme. Behaviorisme ialah satu cabang psikologi yang cuba menerangkan tingkah laku manusia dan haiwan dari segi rangsangan dan tindak balas. "Hukum Kesan" juga merupakan asas pembelajaran peneguhan tanpa model. Dalam pembelajaran peneguhan tanpa model, ejen melihat dunia dan kemudian mengambil tindakan sambil mengukur ganjaran.

Dalam pembelajaran peneguhan tanpa model, tiada pengetahuan langsung atau model dunia. Ejen RL mesti mengalami secara langsung keputusan setiap tindakan melalui percubaan dan kesilapan.

Pembelajaran peneguhan berasaskan model

"Hukum Kesan" Thorndike kekal popular sehingga tahun 1930-an. Seorang lagi ahli psikologi pada masa itu, Edward Tolman, menemui satu pandangan penting sambil meneroka bagaimana tikus cepat belajar mengemudi labirin. Semasa eksperimennya, Tolman menyedari bahawa haiwan boleh belajar tentang persekitaran mereka tanpa tetulang.

Sebagai contoh, apabila tetikus dilepaskan dalam labirin, ia akan meneroka terowong secara bebas dan secara beransur-ansur memahami struktur persekitaran. Jika tikus itu kemudiannya diperkenalkan semula ke persekitaran yang sama dan dibekalkan dengan isyarat pengukuhan, seperti mencari makanan atau mencari jalan keluar, ia boleh mencapai matlamat lebih cepat daripada haiwan yang belum meneroka labirin. Tolman memanggil ini "pembelajaran terpendam", yang menjadi asas pembelajaran peneguhan berasaskan model. "Pembelajaran terpendam" membolehkan haiwan dan manusia membentuk gambaran mental dunia mereka, mensimulasikan senario hipotetikal dalam fikiran mereka dan meramalkan hasil.

Daripada tikus berjalan dalam mez kepada AlphaGo mengalahkan manusia, pembangunan pembelajaran pengukuhan

Kelebihan pembelajaran tetulang berasaskan model ialah ia menghapuskan keperluan untuk ejen melakukan percubaan dan kesilapan dalam persekitaran. Perlu ditekankan bahawa pembelajaran pengukuhan berasaskan model telah berjaya terutamanya dalam membangunkan sistem kecerdasan buatan yang mampu menguasai permainan papan seperti catur dan Go, mungkin kerana persekitaran permainan ini bersifat deterministik.

Daripada tikus berjalan dalam mez kepada AlphaGo mengalahkan manusia, pembangunan pembelajaran pengukuhan

Bebas model VS berasaskan model

Secara umumnya, pembelajaran peneguhan berasaskan model akan memakan masa yang sangat lama , ia mungkin Bahaya maut berlaku. "Secara pengiraan, pembelajaran tetulang berasaskan model adalah lebih kompleks," kata Lee "Mula-mula anda perlu mendapatkan model, melakukan simulasi mental, dan kemudian anda perlu mencari trajektori proses saraf dan kemudian mengambil tindakan. pembelajaran peneguhan berasaskan model tidak semestinya Ia lebih rumit daripada RL tanpa model "Apabila persekitaran sangat kompleks, jika ia boleh dimodelkan dengan model yang agak mudah (yang boleh diperolehi dengan cepat), maka simulasi akan menjadi lebih mudah. dan kos efektif.

Mod pembelajaran berbilang

Malah, pembelajaran peneguhan berasaskan model mahupun pembelajaran peneguhan tanpa model adalah penyelesaian yang sempurna. Di mana-mana sahaja anda melihat sistem pembelajaran tetulang menyelesaikan masalah yang kompleks, kemungkinan besar sistem tersebut menggunakan kedua-dua pembelajaran tetulang berasaskan model dan tanpa model, dan mungkin juga lebih banyak bentuk pembelajaran. Penyelidikan dalam neurosains menunjukkan bahawa kedua-dua manusia dan haiwan mempunyai pelbagai cara pembelajaran, dan otak sentiasa bertukar antara mod ini pada bila-bila masa. Dalam tahun-tahun kebelakangan ini, terdapat peningkatan minat dalam mencipta sistem kecerdasan buatan yang menggabungkan pelbagai model pembelajaran pengukuhan. Penyelidikan terkini oleh saintis di UC San Diego menunjukkan bahawa menggabungkan pembelajaran tetulang tanpa model dan pembelajaran tetulang berasaskan model boleh mencapai prestasi unggul dalam tugas kawalan. "Jika anda melihat algoritma kompleks seperti AlphaGo, ia mempunyai kedua-dua elemen RL bebas model dan elemen RL berasaskan model," kata Lee "Ia mempelajari nilai keadaan berdasarkan konfigurasi papan. Ia pada asasnya RL tanpa model. tetapi Carian hadapan berasaskan model juga dilakukan 》

Walaupun pencapaian yang ketara, kemajuan dalam pembelajaran pengukuhan adalah perlahan. Sebaik sahaja model RL menghadapi persekitaran yang kompleks dan tidak dapat diramalkan, prestasinya mula merosot.

Lee berkata: "Saya rasa otak kita ialah dunia algoritma pembelajaran yang kompleks yang telah berkembang untuk mengendalikan pelbagai situasi yang berbeza

Selain daripada sentiasa bergerak antara mod pembelajaran ini Selain daripada beralih, otak juga berjaya mengekalkan dan mengemas kininya sepanjang masa, walaupun mereka tidak terlibat secara aktif dalam membuat keputusan.

Pakar psikologi Daniel Kahneman berkata: "Mengekalkan modul pembelajaran yang berbeza dan mengemas kininya secara serentak boleh membantu meningkatkan kecekapan dan ketepatan sistem kecerdasan buatan

Kita juga perlu memahami aspek lain - bagaimana untuk gunakan bias induktif yang betul dalam sistem AI untuk memastikan mereka mempelajari perkara yang betul dengan cara yang kos efektif. Berbilion tahun evolusi telah memberikan manusia dan haiwan kecenderungan induktif yang diperlukan untuk belajar dengan berkesan sambil menggunakan data sesedikit mungkin. Bias induktif boleh difahami sebagai meringkaskan peraturan daripada fenomena yang diperhatikan dalam kehidupan sebenar, dan kemudian meletakkan kekangan tertentu pada model, yang boleh memainkan peranan pemilihan model, iaitu memilih model yang lebih konsisten dengan peraturan sebenar daripada ruang hipotesis. "Kami mendapat sangat sedikit maklumat daripada persekitaran. Menggunakan maklumat itu, kami perlu membuat generalisasi," kata Lee "Sebabnya ialah otak mempunyai kecenderungan induktif, dan terdapat kecenderungan untuk membuat generalisasi daripada satu set contoh yang kecil. produk evolusi." , semakin ramai ahli sains saraf berminat dalam hal ini." Walau bagaimanapun, walaupun bias induktif mudah difahami dalam tugas pengecaman objek, ia menjadi kabur dalam masalah abstrak seperti membina hubungan sosial. Pada masa hadapan, masih banyak yang perlu kita ketahui~~~

Bahan rujukan:

https://thenextweb.com/news/everything-you-need-to- tahu-tentang-pembelajaran-peneguhan-bebas-model-dan-berasaskan-model

Atas ialah kandungan terperinci Daripada tikus berjalan dalam mez kepada AlphaGo mengalahkan manusia, pembangunan pembelajaran pengukuhan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Pembantu AI baru Meta: Booster Produktiviti atau Tenggelam Masa?May 01, 2025 am 11:18 AM

META telah bergabung dengan rakan-rakan seperti Nvidia, IBM dan Dell untuk mengembangkan integrasi penempatan peringkat perusahaan Llama Stack. Dari segi keselamatan, Meta telah melancarkan alat -alat baru seperti Llama Guard 4, Llamifirewall dan Cyberseceval 4, dan melancarkan program pembela Llama untuk meningkatkan keselamatan AI. Di samping itu, META telah mengedarkan $ 1.5 juta dalam geran Llama Impact kepada 10 institusi global, termasuk pemula yang bekerja untuk meningkatkan perkhidmatan awam, penjagaan kesihatan dan pendidikan. Permohonan Meta AI yang baru dikuasakan oleh Llama 4, dikandung sebagai Meta AI

80% Gen Zers akan berkahwin dengan AI: KajianMay 01, 2025 am 11:17 AM

Joi Ai, sebuah syarikat yang merintis interaksi manusia-ai, telah memperkenalkan istilah "AI-Lationships" untuk menggambarkan hubungan yang berkembang ini. Jaime Bronstein, ahli terapi hubungan di Joi Ai, menjelaskan bahawa ini tidak dimaksudkan untuk menggantikan manusia c

AI membuat masalah bot Internet lebih teruk. Permulaan $ 2 bilion ini berada di barisan hadapanMay 01, 2025 am 11:16 AM

Penipuan dalam talian dan serangan bot menimbulkan cabaran penting bagi perniagaan. Peruncit melawan bot produk penimbunan, pengambilalihan akaun Bank Battle, dan platform media sosial berjuang dengan peniru. Kebangkitan AI memburukkan lagi masalah ini, Rende

Menjual ke Robot: Revolusi Pemasaran yang akan membuat atau memecahkan perniagaan andaMay 01, 2025 am 11:15 AM

Ejen AI bersedia untuk merevolusikan pemasaran, yang berpotensi melampaui kesan peralihan teknologi terdahulu. Ejen -ejen ini, yang mewakili kemajuan yang signifikan dalam AI generatif, bukan sahaja memproses maklumat seperti chatgpt tetapi juga mengambil actio

Bagaimana Teknologi Penglihatan Komputer Mengubah NBA Playoff merasmikanMay 01, 2025 am 11:14 AM

Impak AI terhadap keputusan NBA Game 4 penting Dua pertandingan NBA permainan yang penting mempamerkan peranan permainan AI yang berubah-ubah dalam merasmikan. Pada mulanya, Nikola Jokic dari Denver yang terlepas tiga pointer membawa kepada lorong-lorong terakhir yang terakhir oleh Aaron Gordon. Sony's Haw

Bagaimana AI mempercepat masa depan ubat regeneratifMay 01, 2025 am 11:13 AM

Secara tradisinya, memperluaskan kepakaran perubatan regeneratif secara global menuntut perjalanan yang luas, latihan tangan, dan tahun mentor. Sekarang, AI sedang mengubah landskap ini, mengatasi batasan geografi dan mempercepatkan kemajuan melalui en

Pengambilan kunci dari Intel Foundry Direct Connect 2025May 01, 2025 am 11:12 AM

Intel sedang berusaha untuk mengembalikan proses pembuatannya ke kedudukan utama, sambil cuba menarik pelanggan semikonduktor yang hebat untuk membuat cip di fabanya. Untuk tujuan ini, Intel mesti membina lebih banyak kepercayaan dalam industri, bukan sahaja untuk membuktikan daya saing prosesnya, tetapi juga untuk menunjukkan bahawa rakan kongsi boleh mengeluarkan cip dalam aliran kerja yang biasa dan matang, konsisten dan sangat dipercayai. Semua yang saya dengar hari ini membuatkan saya percaya Intel bergerak ke arah matlamat ini. Ucapan utama CEO baru Tan Libai memulakan hari. Tan Libai adalah mudah dan ringkas. Beliau menggariskan beberapa cabaran dalam Perkhidmatan Foundry Intel dan langkah -langkah syarikat telah mengambil untuk menangani cabaran -cabaran ini dan merancang laluan yang berjaya untuk perkhidmatan Foundry Intel pada masa akan datang. Tan Libai bercakap mengenai proses perkhidmatan OEM Intel yang dilaksanakan untuk menjadikan pelanggan lebih banyak

Ai salah? Sekarang ada insurans ' s untuk ituMay 01, 2025 am 11:11 AM

Mengulas kebimbangan yang semakin meningkat di sekitar risiko AI, Chaucer Group, firma insurans semula khusus global, dan Armilla AI telah bergabung untuk memperkenalkan produk insurans liabiliti pihak ketiga (TPL) novel. Dasar ini melindungi perniagaan terhadap

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

4 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

3 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

1 bulan yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

3 minggu yang laluByDDD

Di mana untuk mencari kunci pejabat tapak di atomfall

4 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.