Rumah > Artikel > Peranti teknologi > Penerangan video tentang mata pengetahuan algoritma yang mesti dikuasai oleh pengaturcara
Dengan populariti ChatGPT, orang ramai menjadi sangat berminat dalam pembangunan bidang kecerdasan buatan. Ramai pakar percaya bahawa era kecerdasan buatan akan datang dengan perkembangan pesat teknologi perisian dan perkakasan. Kemudian, sebagai perintis dalam bidang teknologi maklumat, pembelajaran teknologi kecerdasan buatan telah menjadi topik yang tidak dapat dielakkan untuk pengaturcara.
Secara umumnya, kecerdasan buatan boleh dibahagikan kepada tiga arah penyelidikan: kecerdasan pengiraan, kecerdasan persepsi dan kecerdasan kognitif.
Kecerdasan pengiraan ialah operasi rutin komputer yang biasa digunakan oleh orang ramai, seperti operasi berangka, penguraian matriks, pengiraan kalkulus, dsb.
Kecerdasan persepsi merujuk kepada memetakan isyarat dari dunia fizikal ke dunia digital melalui kamera, mikrofon atau peranti perkakasan sensor lain, dengan bantuan teknologi canggih seperti pengecaman suara dan pengecaman imej, dan kemudian menambah baik lagi. maklumat digital ini ke tahap yang boleh menjadi Tahap kognisi, seperti ingatan, pemahaman, perancangan, membuat keputusan, dsb.
Kecerdasan kognitif lebih serupa dengan pemahaman pemikiran manusia, perkongsian pengetahuan, kerjasama tindakan atau permainan, dsb., iaitu berfikir dan membuat keputusan berdasarkan maklumat yang diperoleh. Peringkat ini memerlukan penggunaan kecerdasan pengiraan, kecerdasan persepsi, pembersihan data, pengecaman imej dan keupayaan lain. Di samping itu, anda juga perlu mempunyai pemahaman tentang keperluan perniagaan dan keupayaan untuk menyelaras dan mengurus data dan pengetahuan yang tersebar, supaya dapat membina strategi dan membuat keputusan berdasarkan senario perniagaan.
Pada masa ini, sejumlah besar kerja kecerdasan buatan tertumpu pada peringkat kecerdasan persepsi Untuk kecerdasan kognitif, kemajuan agak perlahan.
Dalam bidang kecerdasan kognitif, teknologi yang paling hampir dengan kehidupan manusia ialah teknologi penerangan video. Melalui klasifikasi video, pengesanan objek dan teknologi lain dalam teknologi kecerdasan persepsi, kami boleh mengenal pasti objek yang muncul dalam video. Tetapi ini tidak membenarkan orang ramai memahami apa yang diterangkan oleh video itu. Ia hanya boleh menggambarkan lelaki berwajah merah, pisau dan kuda merah secara mekanikal.
Penerangan video perlu mengenal pasti objek dalam video dan memahami hubungan antara objek Pada masa yang sama, ia juga perlu memahami perbezaan dalam adegan, pergerakan objek dan tingkah laku, dan menggabungkan pengetahuan tersimpan yang sepadan. untuk membuat huraian yang menepati pelaksanaan . Ini semua membawa cabaran teknikal yang hebat. Ia adalah teknologi komprehensif yang menyepadukan penglihatan komputer dan pemprosesan bahasa semula jadi, sama seperti menterjemah video ke dalam ayat. Ia bukan sahaja perlu untuk memahami kandungan video dengan betul, tetapi juga menggunakan bahasa semula jadi untuk menyatakan hubungan antara objek dalam video.
Algoritma perihalan kandungan video semasa terutamanya dibahagikan kepada kaedah berasaskan templat bahasa, kaedah berasaskan perolehan dan kaedah penyahkod pengekod asas. Mari perkenalkan mereka secara berasingan di bawah.
Kaedah berasaskan templat bahasa mula-mula mengesan sasaran, atribut, tindakan dan hubungan antara sasaran dalam video melalui kaedah seperti pengelasan video atau pengesanan sasaran objek yang dikesan diisi dalam templat bahasa yang telah ditetapkan mengikut peraturan tertentu untuk membentuk ayat huraian yang lengkap.
Kaedah berdasarkan templat bahasa adalah mudah dan intuitif, tetapi disebabkan oleh pengehadan templat tetap, ayat yang dijana mempunyai struktur tatabahasa tunggal dan tidak mempunyai fleksibiliti dalam bentuk ungkapan. Pada masa yang sama, kaedah ini mesti menjalankan kerja anotasi terperinci pada peringkat awal dan merumuskan label kategori bersatu untuk setiap objek, tindakan, atribut, dsb. yang terkandung dalam video. Selain itu, kaedah ini akan memberikan hasil yang sangat berbeza untuk video di luar julat templat.
Kaedah berasaskan perolehan terlebih dahulu perlu mewujudkan pangkalan data, dan setiap video dalam pangkalan data Terdapat label perihalan pernyataan yang sepadan. Masukkan video untuk diterangkan, dan kemudian cari video yang paling serupa dalam pangkalan data Selepas meringkaskan dan menetapkan semula, ayat huraian yang sepadan dengan video yang serupa dipindahkan ke video yang akan diterangkan.
Secara amnya, ayat huraian yang dihasilkan oleh kaedah cari semula adalah lebih dekat dengan bentuk ungkapan bahasa semula jadi manusia, dan struktur ayatnya lebih fleksibel. Walau bagaimanapun, kaedah ini sangat bergantung pada saiz pangkalan data Apabila terdapat kekurangan video yang serupa dengan video yang akan diterangkan dalam pangkalan data, ayat huraian yang dihasilkan akan mempunyai ralat yang besar dengan kandungan video. Kedua-dua kaedah di atas sangat bergantung pada pemprosesan visual yang kompleks pada peringkat awal, dan terdapat masalah pengoptimuman model bahasa yang tidak mencukupi untuk ayat yang dijana kemudian. Untuk masalah penerangan video, kedua-dua jenis kaedah sukar untuk menghasilkan ayat berkualiti tinggi dengan penerangan yang tepat dan ungkapan yang pelbagai.
Kaedah berasaskan codec kini merupakan kaedah arus perdana dalam bidang penerangan video. Ini terutamanya mendapat manfaat daripada kemajuan terobosan yang dibuat dalam bidang terjemahan mesin dengan mengekod dan menyahkod model berdasarkan rangkaian saraf dalam.
Idea asas terjemahan mesin ialah: mewakili ayat sumber input dan ayat sasaran dalam ruang vektor yang sama, mula-mula gunakan pengekod untuk mengekod ayat sumber menjadi vektor perantaraan, dan kemudian gunakan penyahkod untuk menyahkod vektor perantaraan ialah pernyataan sasaran.
Masalah penerangan video pada asasnya boleh dianggap sebagai masalah "terjemahan", iaitu, menterjemah video ke dalam bahasa semula jadi. Kaedah ini tidak memerlukan pemprosesan video yang rumit pada peringkat awal Ia boleh mempelajari secara langsung hubungan pemetaan antara video dan bahasa penerangan daripada sejumlah besar data latihan, mencapai latihan hujung ke hujung, dan menghasilkan video dengan lebih tepat. kandungan, tatabahasa yang fleksibel dan bentuk yang pelbagai.
Atas ialah kandungan terperinci Penerangan video tentang mata pengetahuan algoritma yang mesti dikuasai oleh pengaturcara. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!