


Li Feifei mengambil kira sepuluh sorotan AI teratas tahun ini: gabungan nuklear, ChatGPT dan AlphaFold ada dalam senarai
Ledakan kecerdasan buatan telah memesongkan deria masa kita.
Bolehkah anda percaya bahawa Stable Diffusion baru berusia 4 bulan dan ChatGPT telah wujud kurang dari sebulan?
Untuk menggunakan metafora yang jelas, jika anda berkelip mata, anda akan terlepas industri baharu.
Dalam bidang AI pada tahun 2022, model generatif berskala besar bermunculan seperti cendawan selepas hujan, mengubah landskap keseluruhan industri AI.
Lebih-lebih lagi, model-model ini dengan pantas bergerak keluar dari makmal dan digunakan dalam realiti.
Sebagai contoh, teknologi LLM telah mengilhamkan dua bidang baru muncul - ejen membuat keputusan (permainan, robot, dll.) dan AI4Science.
Jim Fan, seorang murid Li Feifei, meringkaskan untuk kita sepuluh detik sorotan AI teratas pada tahun 2022. Mari kita putar semula masa dan lihat apa kejayaan AI menakjubkan yang akan berlaku pada tahun 2022.
1 Penjanaan imej teks
DALLE-2 ialah yang pertama menjana imej resolusi tinggi yang realistik daripada sebarang tajuk Besar -model penyebaran skala untuk imej.
Ia melancarkan revolusi artistik AI dan melahirkan banyak aplikasi baharu, permulaan dan cara berfikir.
Tetapi DALLE-2 dilindungi di sebalik dinding OpenAI dan bukan sumber terbuka.
Selepas OpenAI, StabilityAI dan runwayml LMU mengambil langkah berani untuk melatih model text2image berskala Internet mereka sendiri berdasarkan algoritma "potensi resapan". Mereka memanggil model "penyebaran stabil" dan sumber terbuka kod dan pemberat.
Ternyata keterbukaan Stable Diffusion telah membawa perubahan besar kepada permainan.
Kini, banyak syarikat permulaan dan makmal penyelidikan sedang mencipta aplikasi baharu berdasarkan Stable Diffusion, dan Stable Diffusion sendiri terus dipertingkatkan oleh komuniti sumber terbuka.
Baru-baru ini, Stable Diffusion telah mencapai v2.1 dan boleh berjalan pada satu GPU.
Selain itu, terdapat dua model imej2teks daripada GoogleAI tahun ini. GoogleAI tidak mengeluarkan model mahupun API, tetapi dari kertas itu, kita masih dapat melihat banyak cerapan menarik.
Imej
https://imagen.research.google
Parti
https://parti.research.google. Ia adalah model Transformer tanpa resapan.
2. Penjanaan Teks-Teks
Semua orang tahu bahawa saya bercakap tentang ChatGPT!
Ini adalah satu-satunya apl dalam sejarah yang mencapai 1 juta pengguna dalam masa 5 hari.
ChatGPT juga telah banyak memberi inspirasi kepada kreativiti manusia kita.
Dalam senarai ini, lihat semua idea berguna dan imaginatif tentang ChatGPT: https://github.com/f/awesome-chat
Kedua-dua ChatGPT dan GPT-3.5 menggunakan teknologi baharu yang dipanggil RLHF ("Pembelajaran Pengukuhan daripada Maklum Balas Manusia").
Ini juga bermakna projek segera mungkin hilang tidak lama lagi.
Kepopularan ChatGPT telah melahirkan gelombang pemula dan pesaing baharu, seperti Jasper Chat, YouChat, Replit’s Ghostwriter chat dan perplexity_ai.
Pesaing ini menawarkan kaedah carian intuitif sehinggakan eksekutif Google pun mula berpeluh!
Model text-bot
Bagaimana untuk memberi GPT tangan dan kaki supaya mereka boleh membersihkan dapur anda yang tidak kemas?
Tidak seperti NLP, model robot perlu berinteraksi dengan dunia fizikal.
Tahun ini, Transformers besar yang telah dilatih akhirnya mula menyelesaikan masalah paling sukar dalam bidang robotik
VIMA
Pada bulan Oktober, rakan sekerja saya dan saya Mencipta "robot GPT" - pengubah bernama VIMA.
Ia boleh menerima sebarang teks bercampur, imej dan video sebagai gesaan dan mengeluarkan kawalan lengan robot.
Model kami dipanggil VIMA ("Perhatian VisuoMotor") dan merupakan sumber terbuka sepenuhnya.
Kini, ejen tunggal boleh menyelesaikan sasaran visual, tiruan video sekali sahaja, asas konsep baharu, kekangan visual, dll., dengan skalabiliti kapasiti model dan data yang kukuh.
RT-1
Mengikuti laluan yang sama ke VIMA, penyelidik dari GoogleAI mengeluarkan RT-1, pengubah Robot yang dilatih dalam 700 tugas dan 130K demonstrasi manusia.
Data ini dikumpul selama 17 bulan oleh 13 robot, tentera keluli literal!
4 Teks - Video
Pada asasnya, video ialah satu siri imej yang digabungkan bersama-sama dari semasa ke semasa, memberikan kita Mencipta ilusi pergerakan .
Jika kita boleh melakukan text2image, mengapa tidak menambah garis masa padanya untuk keseronokan tambahan?
Pada masa ini, terdapat 3 karya utama dalam medan teks-ke-video, tetapi tiada satu pun daripadanya adalah sumber terbuka.
Make-A-Video
Yang pertama ialah Make-A-Video Meta AI: Tidak memerlukan data teks-video berpasangan, anda boleh mendapatkan video teks daripada generasi.
Anda boleh mendaftar untuk akses percubaan di sini: https://makeavevideo.studio
Pautan kertas: https://arxiv.org/abs / 2209.14792
Video Imej
Video Imej Google AI: Ia menggunakan model resapan untuk menjana video definisi tinggi, berdasarkan penjana imej statik Imagen.
Demo: http://imagen.research.google/video/
Pautan kertas: https://arxiv.org/abs/2210.02303
Phenaki
Phenaki daripada Google AI: Menjana video berpanjangan berubah-ubah daripada huraian teks domain terbuka.
Demo: https://phenaki.video
Pautan kertas: https://arxiv.org/abs/2210.02399
5. Pemodelan Teks-3D
Daripada mereka bentuk produk inovatif kepada mencipta kesan visual yang hebat dalam filem dan permainan, pemodelan 3D menjadi generasi teks-X Lautan biru seterusnya daripada model.
Anehnya, terdapat banyak model generatif 3D yang menjanjikan muncul pada tahun 2022. Di sini, Fan menyenaraikan 3 model.
DreamFusion
Yang pertama muncul ialah DreamFusion yang dibangunkan bersama oleh pasukan penyelidik AI Google dan UC Berkeley.
Pautan kertas: https://arxiv.org/pdf/2209.14988.pdf
Model dilakukan menggunakan resapan teks-ke-imej 2D model Sintesis Teks-ke-3D.
Berdasarkan algoritma NeRF, DreamFusion boleh menjana model 3D daripada teks yang diberikan.
Model boleh dilihat dari mana-mana sudut, boleh dinyalakan semula di bawah sebarang pencahayaan dan boleh digubah ke dalam mana-mana persekitaran 3D.
Magic3D
Keputusan kedua ialah dua projek pasukan NVIDIA AI, dinamakan GET3D dan Magic3D.
Pautan kertas GET3D: https://nv-tlabs.github.io/GET3D/assets/paper.pdf
Pautan kertas Magic3D: https://arxiv.org/pdf/2211.10440.pdf
Dilatih menggunakan imej 2D sahaja, GET3D boleh menjana grafik 3D dengan tekstur ketelitian tinggi dan butiran geometri yang kompleks.
Model ini membolehkan pengguna mengimport serta-merta bentuk mereka ke dalam pemapar 3D dan enjin permainan untuk penyuntingan seterusnya.
Magic3D adalah serupa dengan DreamFusion, menggunakan model teks-ke-imej untuk menghasilkan imej 2D, yang kemudiannya dioptimumkan ke dalam data NeRF (Neural Radiation Field) volumetrik, mengoptimumkan model kasar yang dijana pada resolusi rendah menjadi halus model pada resolusi tinggi.
Menurut pasukan NVIDIA AI, kaedah Magic3D yang terhasil boleh menjana objek 3D lebih pantas daripada DreamFusion.
Point-E
Susulan pelancaran DALL-E 2 pada awal tahun, yang mengejutkan semua orang dengan berus geniusnya, OpenAI mengeluarkan generasi imej terbaharunya model "POINT-E" pada hari Selasa ", yang boleh menjana model 3D terus daripada teks.
Pautan kertas: https://arxiv.org/pdf/2212.08751.pdf
Berbanding dengan pesaing (seperti DreamFusion Google) berapa banyak Manakala GPU tunggal boleh berfungsi selama berjam-jam, POINT-E boleh menjana imej 3D dalam beberapa minit dengan hanya satu GPU.
Menurut ujian, POINT-E pada asasnya boleh mengeluarkan imej 3D dalam beberapa saat selepas input segera Selain itu, imej keluaran juga menyokong pengeditan tersuai, menyimpan dan fungsi lain.
6. AI yang boleh memainkan "Minecraft"
"Minecraft" ialah permainan yang sangat baik untuk menguji kecerdasan am AI. Pertama sekali, ia adalah permainan kotak pasir terbuka tanpa had yang sangat mencerminkan kreativiti pemain.
Kedua, permainan ini mempunyai pangkalan pemain sebanyak 140 juta, iaitu dua kali ganda jumlah penduduk UK. Dengan pangkalan pengguna yang begitu besar, terdapat bekalan data permainan yang tidak berkesudahan untuk pembelajaran AI.
Jadi, bolehkah AI menggunakan imaginasinya sebagaimana manusia boleh?
Jim Fan dan rakan sekerja bekerjasama untuk membangunkan AI "MineDojo" pertama untuk memainkan "Minecraft", yang boleh menyelesaikan banyak tugas di bawah gesaan bahasa semula jadi.
Pautan kertas: https://arxiv.org/pdf/2206.08853.pdf
Matlamat akhir peminat adalah untuk membina "GPT yang terkandung" . Pada masa ini, platform MineDojo adalah sumber terbuka sepenuhnya.
Pada masa yang sama, pasukan Jeff Clune mengumumkan model yang dipanggil Video Pra-Latihan (VPT), yang boleh mengeluarkan secara langsung pergerakan papan kekunci dan tetikus.
Pautan kertas: https://arxiv.org/pdf/2206.11795.pdf
VPT mempunyai perspektif yang lebih luas, Tetapi ia tidak dihadkan oleh syarat bahasa. Pada ketika ini, MineDojo dan VPT saling melengkapi.
7 Diplomat AI
CICERO yang dilancarkan oleh Meta AI ialah yang pertama mencapai prestasi peringkat manusia dalam permainan "Diplomasi. " Ejen kecerdasan buatan ekspresif.
Pautan kertas: https://www.science.org/doi/10.1126/science.ade9097
"Diplomasi" Ia ialah permainan strategi klasik tujuh pemain yang boleh dikatakan sebagai gabungan permainan papan Risiko, permainan kad poker dan rancangan TV Survivor. Permainan ini memerlukan rundingan bahasa semula jadi yang meluas untuk bekerjasama dan bersaing dengan manusia.
Namun, kemunculan CICERO menunjukkan bahawa kecerdasan buatan kini mempunyai kebolehan untuk memujuk orang lain dan menipu.
Pada masa ini, DeepMind juga telah mengumumkan pembangunan ejen AI diplomatnya sendiri. Jadi, apakah yang akan berlaku sekiranya CICERO menggunakan model AI ini?
8. Model Teks Audio
Whisper ialah model pengecaman pertuturan sumber terbuka berskala besar yang dikeluarkan oleh OpenAI Ia mempunyai keteguhan dan ketepatan tahap hampir manusia dalam bahasa Inggeris ketepatan pertuturan.
Pautan kertas: https://arxiv.org/pdf/2212.04356.pdf
Bisikan melalui 680 daripada Internet ,000 jam latihan mengenai data audio. Open AI menekankan bahawa keupayaan pengecaman pertuturan Whisper telah mencapai tahap manusia.
Bisikan sumber terbuka AI terbuka adakah untuk membuka kunci lebih banyak token teks untuk melatih GPT-4 yang dinanti-nantikan?
9. Gabungan nuklear
DeepMind dan Institut Teknologi Persekutuan Switzerland di Lausanne (EPFL) bersama-sama membangunkan sistem pembelajaran tetulang mendalam berkaitan gabungan nuklear yang boleh mengekalkan nuklear Penstabilan plasma gabungan dalam tokamak.
Pautan kertas: https://www.nature.com/articles/s41586-021-04301-9
Sama Bulan ini, Jabatan Tenaga A.S. mengumumkan satu kejayaan besar: Buat pertama kalinya, manusia telah mencapai keuntungan tenaga bersih daripada tindak balas pelakuran nuklear!
Ini adalah kali pertama manusia mencapai kejayaan ini. Dalam hidup ini, kita mungkin menjadi tamadun gabungan!
10. Transformer digunakan dalam biologi
Pada tahun 2021, AlphaFold memulakan penggunaan model bahasa untuk meramalkan struktur 3D protein.
Pada bulan Julai, DeepMind mengumumkan "Protein Universe"—mengembangkan pangkalan data protein AlphaFold kepada 200 juta struktur!
Selain itu, pasukan penyelidik NVIDIA AI juga telah mengembangkan rangka kerja model bahasa berskala besar BioNeMo untuk membantu syarikat bioteknologi dan penyelidik menjana, meramal dan memahami data biomolekul.
Penjelasan video: https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s
Di atas adalah pendapat Jim Fan pada 2022 Oktober Inventori sorotan AI besar. Sudah tentu, Fan juga berkata bahawa terdapat banyak karya menarik yang telah menyumbang kepada kemajuan kecerdasan buatan.
Setiap kertas adalah batu bata dalam bangunan AI, dan semua usaha harus diraikan.
Walau bagaimanapun, Fan juga pada akhirnya menekankan bahawa apabila sistem kecerdasan buatan menjadi semakin berkuasa, kita mesti sedar tentang potensi bahaya dan risiko serta mengambil langkah untuk mengurangkannya.
Sama ada melalui reka bentuk latihan yang teliti, penyeliaan yang sesuai atau kaedah perlindungan baharu, keselamatan dan etika kecerdasan buatan telah menjadi agenda yang dibincangkan oleh semakin ramai pakar AI.
Tidak dinafikan bahawa tahun 2022 adalah tahun yang penuh dengan keajaiban dan tahun yang menakjubkan. Apakah kejayaan yang akan dibuat pada tahun hadapan yang akan mengejutkan dunia? Kami menonton bersama anda.
Rujukan:
https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw
Atas ialah kandungan terperinci Li Feifei mengambil kira sepuluh sorotan AI teratas tahun ini: gabungan nuklear, ChatGPT dan AlphaFold ada dalam senarai. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Sejak tahun 2008, saya telah memperjuangkan van yang dikongsi bersama-pada masa yang digelar "Robotjitney," kemudian "Vansit" -dan masa depan pengangkutan bandar. Saya meramalkan kenderaan ini sebagai penyelesaian transit generasi akan datang abad ke-21, Surpas

Merevolusikan pengalaman checkout Sistem "Just Go" inovatif Sam Club membina teknologi "imbasan & pergi" yang sedia ada AI yang sedia ada, yang membolehkan ahli mengimbas pembelian melalui aplikasi Sam's Club semasa perjalanan membeli-belah mereka.

Predictability dan barisan produk baru NVIDIA di GTC 2025 Nvidia, pemain utama dalam infrastruktur AI, memberi tumpuan kepada peningkatan ramalan untuk pelanggannya. Ini melibatkan penghantaran produk yang konsisten, memenuhi jangkaan prestasi, dan

Google's Gemma 2: Model bahasa yang kuat dan cekap Model Bahasa Gemma Google, yang disambut untuk kecekapan dan prestasi, telah berkembang dengan kedatangan Gemma 2. Siaran terbaru ini terdiri daripada dua model: parameter 27 bilion ver

Ini memimpin dengan episod data yang menampilkan Dr Kirk Borne, seorang saintis data terkemuka, astrofizik, dan pembesar suara TEDX. Pakar terkenal dalam Big Data, AI, dan Pembelajaran Mesin, Dr. Borne menawarkan pandangan yang tidak ternilai ke dalam keadaan semasa dan masa depan Traje

Terdapat beberapa perspektif yang sangat berwawasan dalam maklumat ini mengenai maklumat mengenai kejuruteraan yang menunjukkan kepada kita mengapa kecerdasan buatan sangat baik untuk menyokong latihan fizikal orang. Saya akan menggariskan idea teras dari setiap perspektif penyumbang untuk menunjukkan tiga aspek reka bentuk yang merupakan bahagian penting dalam penerokaan penerokaan kecerdasan buatan dalam sukan. Peranti tepi dan data peribadi mentah Idea ini mengenai kecerdasan buatan sebenarnya mengandungi dua komponen -satu yang berkaitan dengan di mana kita meletakkan model bahasa yang besar dan yang lain berkaitan dengan perbezaan antara bahasa manusia dan bahasa yang kita tanda -tanda penting kita "menyatakan" apabila diukur dalam masa nyata. Alexander Amini tahu banyak tentang berlari dan tenis, tetapi dia masih

Ketua Pegawai Maklumat Caterpillar dan Naib Presiden Kanan IT, Jamie Engstrom, mengetuai pasukan global lebih dari 2,200 profesional IT di 28 negara. Dengan 26 tahun di Caterpillar, termasuk empat setengah tahun dalam peranannya sekarang, Engst

Alat HDR Ultra baru Google Photos: Panduan Cepat Tingkatkan foto anda dengan alat Ultra HDR baru Google Photos, mengubah imej standard ke dalam karya-karya bertenaga, tinggi dinamik. Sesuai untuk media sosial, alat ini meningkatkan kesan foto,


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

mPDF
mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

SublimeText3 versi Inggeris
Disyorkan: Versi Win, menyokong gesaan kod!

Versi Mac WebStorm
Alat pembangunan JavaScript yang berguna

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

SublimeText3 Linux versi baharu
SublimeText3 Linux versi terkini