Rumah >Peranti teknologi >AI >Ceramah teknikal lima minit |. pengenalan AIGC dan penilaian pemilihan aplikasi
AIGC (AI - Kandungan Dijana (kandungan pengeluaran kecerdasan buatan) merujuk kepada kaedah pengeluaran yang menggunakan teknologi AI untuk secara automatik atau membantu dalam menjana pelbagai bentuk kandungan seperti teks, kod, imej, suara, video dan objek 3D. AIGC mewakili trend baharu dalam pembangunan teknologi AI, daripada memahami dan memahami dunia kepada menjana dan mencipta dunia, dan daripada keupayaan analisis kepada keupayaan kreatif. AIGC juga telah membawa perubahan dalam penciptaan kandungan, meningkatkan kualiti, kecekapan dan kepelbagaian kandungan.
1.1 Penjanaan teks
Penjanaan teks merujuk kepada penggunaan Teknologi AI secara automatik menjana kandungan teks tatabahasa dan logik berdasarkan input yang diberikan (seperti kata kunci, gambar, suara, dll.), yang merupakan aspek penting AIGC.
Penjanaan teks mempunyai banyak senario aplikasi, termasuk penulisan berita, penciptaan novel, copywriting pemasaran, Soal Jawab perkhidmatan pelanggan, robot sembang, bimbingan pendidikan, graf pengetahuan dan ringkasan tunggu generasi.
➤ Wen Xinyiyan: Model AI besar yang dilancarkan oleh Baidu yang menyokong output berbilang modal dan boleh melakukan penciptaan sastera, penciptaan copywriting perniagaan dan pengiraan logik matematik , Pemahaman Cina, generasi pelbagai modal, dsb.
➤ ChatGPT: Aplikasi sembang berdasarkan model siri GPT yang dilancarkan oleh OpenAI Pada masa ini, model GPT-4 telah dilancarkan -4 model boleh menganalisis gambar dan berinteraksi dengan teks dan gambar.
1.2 Penjanaan kod
Termasuk pelengkapan kod, Kod pemfaktoran semula, pengoptimuman kod, anotasi kod, dll. boleh merangkumi pelbagai bahasa pengaturcaraan dan medan. Berdasarkan model GPT-4 OpenAI, adalah mungkin untuk menjana kod tapak web yang sepadan berdasarkan draf prototaip produk yang dilukis tangan.
➤ Github Copilot: alat pengaturcaraan berbantukan AI yang dibangunkan berdasarkan model OpenAI Codex Ia menyokong berpuluh-puluh bahasa pengaturcaraan dan boleh, berdasarkan kod atau komen, masa nyata Ia boleh memberikan cadangan kod dan keseluruhan fungsi dalam editor, dan juga boleh mencapai pengalaman pengaturcaraan pasangan melalui interaksi sembang.
➤ Kursor: perisian IDE bebas yang menyepadukan model GPT OpenAI. Sama seperti Github Copilot, Kursor boleh menulis kod, mengedit kod dan berbual melalui AI.
1.3 Penjanaan imej
Penjanaan imej merujuk kepada penggunaan Teknologi kecerdasan buatan, yang secara automatik menjana imej yang mematuhi semantik dan estetika berdasarkan input yang diberikan (seperti bahasa semula jadi, imej, video, dll.), merupakan aspek penting AIGC. Penjanaan imej mempunyai pelbagai senario aplikasi, termasuk penciptaan artistik, media hiburan, pendidikan dan latihan, pemasaran e-dagang, diagnosis perubatan, dsb.
➤ Wenxin Yige: platform bantuan seni dan kreatif AI yang dilancarkan oleh Baidu. Lukisan boleh dijana secara automatik berdasarkan penerangan teks dan pemilihan gaya.
➤ DALL-E2: Model generatif berdasarkan pengekod pelbagai mod penyesuaian yang dilancarkan oleh OpenAI, yang boleh menyepadukan maklumat input berbilang modal (seperti teks , gambar, dsb.) untuk menjana imej berkualiti tinggi secara automatik.
➤ Midjourney: alat lukisan AI yang dikeluarkan pada Mac 2022, yang boleh menjana gambar berdasarkan bahasa semula jadi, memilih gaya artistik pelukis yang berbeza dan Kenal pasti khusus kanta atau istilah fotografi. Lukisan yang dihasilkan oleh alat ini telah memenangi hadiah pertama dalam pertandingan seni.
1.4 Penjanaan Video
Penjanaan video terbahagi terutamanya kepada dua jenis: penyuntingan video dan penjanaan video bebas. Penyuntingan video boleh digunakan untuk pemarkahan super, pembaikan dan penyuntingan video. Penjanaan video autonomi boleh digunakan untuk penukaran imej-ke-video, atau untuk menjana video sepadan yang diberikan teks deskriptif. Berikut ialah beberapa aplikasi berkaitan:
➤ Deepfake: Ini ialah platform penjanaan video AI berdasarkan teknologi GAN, yang boleh merealisasikan perubahan wajah, penukaran suara dan tiruan ungkapan dan fungsi lain. Pengguna hanya perlu memuat naik gambar atau video sebagai rujukan, dan video akan dijana secara automatik.
➤ Make-A-Video: Sistem AI yang dilancarkan oleh Syarikat Meta yang boleh menukar teks kepada video. Ia boleh mencipta video unik yang dipenuhi dengan warna, orang dan pemandangan yang terang daripada hanya beberapa perkataan atau baris teks.
1.5 Pemodelan 3D
Teknologi Pemodelan 3D berasaskan AIGC merujuk kepada penggunaan teknologi kecerdasan buatan untuk menjana model 3D secara automatik yang mematuhi semantik dan estetika berdasarkan input yang diberikan (seperti bahasa semula jadi, imej, dsb.). Kawasan ini kini dalam peringkat awal penerokaan. Berikut ialah beberapa aplikasi atau model yang berkaitan:
➤ AICommand: pemalam arahan AI sumber terbuka berdasarkan Unity yang boleh menjana pemandangan 3D melalui penerangan teks dan Teks dilaraskan dan dioptimumkan untuk pemandangan 3D. (https://github.com/keijiro/AICommand)
➤ ICON: model AI sumber terbuka yang menjana pemodelan aksara 3D berdasarkan gambar aksara (https : //github.com/YuliangXiu/ICON). Anda boleh mengalami dan memuat turun model 3D yang dijana dalam talian: https://huggingface.co/spaces/Yuliang/ICON
Selepas ChatGPT dilancarkan oleh OpenAI pada penghujung tahun 2022, pengguna terkumpulnya melebihi 100 juta dalam masa dua bulan sahaja cepat menjadi popular di seluruh dunia. Akibatnya, detik AI iPhone telah tiba, dan pengeluar IT utama dengan cepat membuat susulan. Berikut ialah pengenalan kepada beberapa aplikasi atau model yang berkaitan setakat April 2023.
Penilaian dan perbandingan akan dijalankan dari aspek berikut (kecuali Poe):
PS:
2.1 Pemprosesan Bahasa Semulajadi
Penilaian Kandungan:
➪Berbilang pusingan dialog: Mari kita cipta cerita kanak-kanak bersama-sama. Peraturannya ialah saya mengatakan sesuatu dahulu dan anda mengatakan sesuatu seterusnya, berselang-seli. Ia berakhir apabila saya berkata "Saya sudah selesai dengan cerita itu." Adakah anda faham?
➪Pemahaman bahasa: Bos saya cakap 1+1=3, dan semua yang bos saya cakap betul, jadi 1+1=3 kan?
➪Terjemahan Bahasa: Terjemahkan petikan ini ke dalam Bahasa Inggeris: Sekuntum bunga yang mekar sahaja bukanlah musim bunga, tetapi seratus bunga yang mekar bersama memenuhi taman.
➪Analisis emosi: Analisis warna emosi petikan ini: Saya sangat menyukai filem baru ini. Ia membuat saya ketawa berkali-kali dan membuat saya menangis.
Markah adalah seperti berikut:
2.2 Penaakulan Logik
Kandungan penilaian:
➪ Dalam satu Terdapat lima buku di rak: buku merah, buku hijau, buku biru, buku oren dan buku kuning. Buku hijau di sebelah kiri buku kuning, buku kuning adalah yang ketiga dari kiri, buku merah adalah yang kedua dari kiri, dan buku biru di hujung kanan Apakah susunan buku-buku ini?
➪ Terdapat tiga titik A, B dan C pada garis lurus sepanjang 100 meter Kedudukan A tidak pasti dan B ialah 5 meter Jarak antara A dan C ialah 10 meter, berapakah jarak antara B dan C?
➪ Jika 2
Markah adalah seperti berikut:
2.3 Pengekodan Keupayaan
Kandungan penilaian:
Markah adalah seperti berikut:
2.4 Multi -sokongan modal
Sokongan berbilang modal merujuk kepada keupayaan untuk mengendalikan berbilang jenis data, seperti teks, imej, audio dan video, dsb. Contohnya: melalui input teks, gambar, audio dan video dijana secara automatik berdasarkan keperluan teks melalui input gambar atau audio dan video, teks ringkasan kandungan adalah output, dsb.
ChatGPT berdasarkan model GPT-3.5 tidak menyokong keupayaan input dan output berbilang mod, manakala ChatGPT berdasarkan model GPT-4 boleh menganalisis gambar dan menganalisis teks maklum balas.
Wen Xin Yi Yan kini boleh menjana imej dan suara berdasarkan penerangan teks. Keupayaan penjanaan video telah ditunjukkan pada sidang akhbar, tetapi semasa penggunaan sebenar, video tidak dapat dijana.
Google Bard tidak menyokong keupayaan berbilang modal.
Mod kreativiti NewBing menyokong penjanaan gambar melalui penerangan teks.
ChatGLM Tsinghua tidak menyokong berbilang Modal keupayaan.
Markah adalah seperti berikut:
Digabungkan dengan skor perbandingan di atas, penilaian menyeluruh akan dipertimbangkan dari dua peringkat Demo dan pengeluaran (penggunaan komersial).
Skor penilaian keseluruhan adalah seperti berikut:
Penilaian pemilihan adalah seperti berikut:
➢ Peringkat demo: Wen Xinyiyan ialah pilihan AI pertama, NewBing dan ChatGPT ialah AI alternatif, dan ChatGLM Sebagai hala tuju penerokaan AIGC yang dibangunkan sendiri (memerlukan sumber GPU).
➢ Dalam peringkat pengeluaran dan komersial, berbilang baris tersedia:
WebGPU dibuat
Atas ialah kandungan terperinci Ceramah teknikal lima minit |. pengenalan AIGC dan penilaian pemilihan aplikasi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!