Rumah >Peranti teknologi >AI >Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna

Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna

WBOY
WBOYke hadapan
2023-05-16 15:37:061906semak imbas

1. Pengenalan

Computer Vision, biasanya dirujuk sebagai CV, ialah bidang penyelidikan yang menggunakan teknologi untuk membantu komputer "melihat" dan "memahami" imej, seperti membolehkan komputer memahami foto atau video. kandungan.

Artikel ini akan memberikan pengenalan keseluruhan kepada penglihatan komputer. Artikel ini terbahagi kepada enam bahagian iaitu:

  • Mengapa penglihatan komputer penting
  • Apakah itu penglihatan komputer
  • Prinsip asas penglihatan komputer
  • Tugas biasa penglihatan komputer
  • Senario aplikasi penglihatan komputer dalam kehidupan seharian
  • Cabaran yang dihadapi penglihatan komputer

2 Mengapa penglihatan komputer penting

Secara fisiologi, penglihatan bermula dengan keseronokan sel reseptor organ visual, dan terbentuk selepas sistem saraf visual memproses maklumat yang dikumpul. Kita manusia menggunakan penglihatan untuk memahami secara intuitif bentuk dan keadaan sesuatu di hadapan kita. Kebanyakan kita bergantung pada penglihatan untuk menyelesaikan memasak, berunding tentang halangan, membaca papan tanda jalan, menonton video dan banyak lagi tugasan lain. Malah, jika bukan kerana kumpulan istimewa seperti orang buta, sebahagian besar orang memperoleh maklumat luaran melalui penglihatan, dan perkadaran ini adalah setinggi 80%. sebilangan besar eksperimen yang 83% daripada maklumat yang diperoleh manusia berasal daripada penglihatan, 11% daripada pendengaran, dan baki 6% daripada bau, sentuhan dan rasa. Oleh itu, bagi manusia, penglihatan sudah pasti deria yang paling penting.

Bukan sahaja manusia adalah "haiwan visual", tetapi bagi kebanyakan haiwan, penglihatan juga memainkan peranan yang sangat penting. Melalui penglihatan, manusia dan haiwan melihat saiz, cahaya dan naungan, warna, dan pergerakan objek luar, dan memperoleh pelbagai maklumat yang penting untuk kelangsungan hidup badan Melalui maklumat ini, mereka dapat mempelajari bagaimana dunia sekeliling dan bagaimana untuk berinteraksi dengan dunia.

Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna

Sebelum kemunculan penglihatan komputer, imej berada dalam keadaan kotak hitam untuk komputer. Bagi komputer, imej hanyalah fail atau rentetan data. Komputer tidak tahu apa kandungan gambar itu Ia hanya tahu saiz gambar itu, berapa banyak memori yang didudukinya, dalam format apa ia, dsb.

Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna

Jika komputer dan kecerdasan buatan mahu memainkan peranan penting dalam dunia nyata, mereka mesti memahami gambar! Oleh itu, selama setengah abad, saintis komputer telah cuba memikirkan bagaimana untuk membuat komputer melihat, menimbulkan bidang "penglihatan komputer."

Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna

Perkembangan pesat Internet juga menjadikan penglihatan komputer amat penting. Angka di bawah ialah carta arah aliran jumlah data baharu pada rangkaian sejak 2020. Grafik kelabu ialah data berstruktur, grafik biru ialah data tidak berstruktur (kebanyakannya gambar dan video). Adalah jelas bahawa bilangan gambar dan video berkembang pada kadar eksponen.

Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna

Internet terdiri daripada teks dan imej. Mencari teks agak mudah, tetapi untuk mencari imej, algoritma perlu mengetahui kandungan imej tersebut. Untuk masa yang lama, manusia tidak mempunyai teknologi yang mencukupi untuk memahami kandungan imej dan video, dan hanya boleh bergantung pada anotasi manual untuk mendapatkan penerangan imej atau video. Bagaimana untuk membolehkan komputer memahami maklumat imej ini dengan lebih baik adalah cabaran utama yang dihadapi oleh teknologi komputer masa kini. Untuk menggunakan sepenuhnya data imej atau video, anda perlu membiarkan komputer "melihat" imej atau video dan memahami kandungannya.

3. Apakah itu komputer visi? Contohnya: Adakah haiwan peliharaan dalam gambar itu kucing atau anjing? Adakah orang dalam gambar itu Lao Zhang atau Lao Wang? Apakah yang dilakukan oleh orang dalam video itu? Tambahan pula, penglihatan komputer merujuk kepada penggunaan kamera dan komputer dan bukannya mata manusia untuk mengenal pasti, menjejak dan mengukur sasaran, dan seterusnya melakukan pemprosesan grafik untuk mendapatkan imej yang lebih sesuai untuk pemerhatian mata manusia atau penghantaran kepada instrumen untuk pengesanan. Sebagai disiplin saintifik, penglihatan komputer mengkaji teori dan teknologi yang berkaitan, cuba membina sistem kecerdasan buatan yang boleh mendapatkan maklumat peringkat tinggi daripada imej atau data berbilang dimensi. Dari perspektif kejuruteraan, ia berusaha untuk memanfaatkan sistem automatik untuk meniru sistem visual manusia untuk menyelesaikan tugas. Matlamat utama penglihatan komputer adalah untuk membolehkan komputer memerhati dan memahami dunia melalui penglihatan seperti yang dilakukan oleh manusia, dan mempunyai keupayaan untuk menyesuaikan diri dengan persekitaran secara autonomi. Tetapi sangat sukar untuk benar-benar menyedari bahawa komputer boleh melihat dunia melalui kamera, kerana walaupun imej yang ditangkap oleh kamera adalah sama seperti yang biasa kita lihat, untuk komputer, sebarang imej hanyalah susunan dan gabungan piksel. nilai sekumpulan nombor tegar. Cara membenarkan komputer membaca petunjuk visual yang bermakna daripada nombor tegar ini adalah masalah yang harus diselesaikan oleh penglihatan komputer.

4. Prinsip asas penglihatan komputer

Sesiapa yang pernah menggunakan kamera atau telefon bimbit tahu bahawa komputer pandai mengambil gambar dengan ketelitian dan perincian yang menakjubkan. penglihatan" jauh lebih kuat daripada keupayaan visual semula jadi manusia. Tetapi seperti yang biasa kita katakan "mendengar tidak bermakna memahami", "melihat" tidak bermaksud "memahami". Imej ialah grid piksel yang besar, setiap piksel mempunyai warna dan warna adalah gabungan tiga warna utama: merah, hijau dan biru. Dengan menggabungkan keamatan tiga warna - dipanggil nilai RGB - kita boleh mendapatkan sebarang warna. Algoritma penglihatan komputer yang paling mudah dan paling sesuai untuk bermula ialah: untuk menjejak objek berwarna, seperti bola merah jambu, kita mula-mula perhatikan warna bola, simpan nilai RGB piksel tengah, dan kemudian suapkan imej ke program , membiarkan program mencari piksel yang paling hampir dengan warna ini. Algoritma boleh bermula dari sudut kiri atas, memeriksa setiap piksel, dan mengira perbezaan daripada warna sasaran. Selepas menyemak setiap piksel, bahagian piksel yang paling dekat mungkin ialah piksel tempat bola itu berada. Algoritma ini tidak terhad kepada berjalan pada imej tunggal ini, kita boleh menjalankan algoritma pada setiap bingkai video untuk mengesan kedudukan bola. Sudah tentu, disebabkan oleh pengaruh cahaya, bayang-bayang dan faktor lain, warna bola akan berubah Ia tidak akan sama dengan nilai RGB yang kami simpan, tetapi ia akan menjadi sangat hampir. Walau bagaimanapun, dalam beberapa kes ekstrem, seperti perlawanan bola sepak pada waktu malam, kesan penjejakan mungkin sangat lemah dan jika salah satu jersi pasukan berwarna sama dengan bola, algoritma akan "pengsan" sepenuhnya; Oleh itu, melainkan persekitaran boleh dikawal dengan ketat, algoritma penjejakan warna sedemikian jarang digunakan secara praktikal. Pada masa kini, lebih banyak algoritma penglihatan komputer yang digunakan secara amnya melibatkan kaedah dan teknologi "Pembelajaran Dalam" Antaranya, Convolutional Neural Network (CNN) adalah yang paling banyak digunakan kerana prestasinya yang unggul. Memandangkan pengetahuan yang terlibat dalam "pembelajaran mendalam" terlalu luas, artikel ini tidak akan menerangkannya dengan lebih terperinci. Jika anda ingin mengetahui lebih lanjut mengenai "pembelajaran mendalam", anda juga boleh melihat kursus AI pengenalan - "Kursus Elementary Suite Alat Intel® OpenVINO™". Ia bermula dengan konsep asas AI, memperkenalkan pengetahuan berkaitan kecerdasan buatan dan aplikasi penglihatan, dan membantu pengguna memahami dengan cepat konsep asas dan senario aplikasi suite alat Intel® OpenVINO™. Keseluruhan kursus merangkumi pemprosesan video, pengetahuan yang berkaitan dengan pembelajaran mendalam, pecutan inferens untuk aplikasi kecerdasan buatan, dan demonstrasi Demo bagi suite alat Intel® OpenVINO™ Ia membawa anda langkah demi langkah untuk menguasai pembelajaran mendalam dari yang lebih cetek kepada yang lebih mendalam.

5. Tugas biasa penglihatan komputer

Klasifikasi imej
  • Pengkelasan imej adalah untuk membezakan kategori imej yang berbeza berdasarkan maklumat semantiknya komputer Teras penglihatan ialah asas untuk tugas visual peringkat tinggi yang lain seperti pengesanan objek, pembahagian imej, penjejakan objek, analisis tingkah laku dan pengecaman muka. Contohnya, dalam gambar di bawah, melalui pengelasan imej, komputer mengecam orang, pokok, rumput dan langit dalam imej.

Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna Klasifikasi imej digunakan secara meluas dalam banyak bidang, seperti: pengecaman muka dan analisis video pintar dalam bidang keselamatan, pengecaman pemandangan lalu lintas dalam medan pengangkutan dan berasaskan Internet Pengambilan semula imej kandungan dan pengelasan automatik album foto, pengecaman imej dalam bidang perubatan, dsb.

  • Pengesanan objek

Matlamat tugas pengesanan objek adalah untuk memberikan imej atau bingkai video, biarkan komputer mencari kedudukan semua objek di dalamnya dan berikan setiap kategori khusus objek. Seperti yang ditunjukkan dalam rajah di bawah, mengambil pengiktirafan dan pengesanan orang sebagai contoh, sempadan digunakan untuk menandakan kedudukan semua orang dalam imej.

Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna

Dalam pengesanan sasaran berbilang kategori, sempadan warna yang berbeza biasanya digunakan untuk menandakan kedudukan objek yang dikesan yang berbeza, seperti ditunjukkan dalam rajah di bawah.

Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna

  • Segmentasi semantik

Segmentasi semantik ialah tugas asas dalam penglihatan komputer Dalam segmentasi semantik kita perlu membahagikan input visual Kategori yang boleh ditafsir semantik yang berbeza. Ia membahagikan keseluruhan imej kepada kumpulan piksel, yang kemudiannya dilabel dan dikelaskan. Sebagai contoh, kita mungkin perlu membezakan semua piksel dalam imej yang dimiliki oleh kereta dan mewarnai piksel tersebut dengan biru. Seperti yang ditunjukkan di bawah, imej dibahagikan kepada label orang (merah), pokok (hijau gelap), rumput (hijau muda), dan langit (biru).

Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna

Segmentasi instance Segmentasi instance ialah gabungan pengesanan sasaran dan segmentasi semantik Sasaran dikesan dalam imej (pengesanan sasaran), dan kemudian setiap piksel dilabelkan (semantik segmentasi ). Membandingkan angka di atas dan di bawah, kita dapat melihat bahawa jika sasaran manusia digunakan, segmentasi semantik tidak membezakan contoh yang berbeza yang tergolong dalam kategori yang sama (semua orang ditandakan dengan warna merah), manakala segmentasi contoh membezakan contoh yang berbeza dalam kategori yang sama (berbeza. warna digunakan untuk membezakan orang yang berbeza).

Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna

Penjejakan sasaran Penjejakan sasaran merujuk kepada pengesanan, pengekstrakan, pengenalpastian dan penjejakan sasaran bergerak dalam jujukan imej, mendapatkan parameter gerakan sasaran bergerak, pemprosesan dan analisis, dan mencapai Pemahaman Tingkah laku mengenai sasaran yang bergerak untuk menyelesaikan tugas pengesanan peringkat lebih tinggi.

Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna

6. Senario aplikasi visi komputer dalam kehidupan seharian

Senario aplikasi visi komputer adalah sangat luas . · Pengecaman muka untuk kawalan akses dan Alipay

Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna

  • Pengiktirafan plat lesen untuk tempat letak kereta dan stesen tol

Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna

  • ​Pengenalpastian risiko apabila memuat naik video ke tapak web atau APP

Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna

  • Pelbagai alat swafoto pada Douyin dan APP lain (diperlukan Mula-mula kenal pasti kedudukan muka)

Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna

7. Cabaran yang dihadapi oleh penglihatan komputer

Pada masa ini, teknologi penglihatan komputer berkembang pesat dan mempunyai keupayaan awal. skala industri. Pembangunan teknologi penglihatan komputer pada masa hadapan terutamanya menghadapi cabaran berikut: Pertama, bagaimana untuk menggabungkannya dengan lebih baik dengan teknologi lain dalam bidang aplikasi yang berbeza boleh menggunakan data besar secara meluas apabila menyelesaikan masalah tertentu secara beransur-ansur mengatasi manusia, dan Walau bagaimanapun, adalah mustahil untuk mencapai ketepatan yang tinggi pada beberapa masalah; yang kedua ialah bagaimana untuk mengurangkan masa pembangunan dan kos buruh algoritma penglihatan komputer Pada masa ini, algoritma penglihatan komputer memerlukan sejumlah besar data dan anotasi manual, dan memerlukan kitaran penyelidikan dan pembangunan yang panjang untuk mencapai keperluan bidang aplikasi Ketepatan yang diperlukan dan memakan masa yang ketiga adalah bagaimana untuk mempercepatkan reka bentuk dan pembangunan algoritma baru Dengan kemunculan perkakasan pengimejan dan cip kecerdasan buatan , reka bentuk dan pembangunan algoritma penglihatan komputer untuk cip yang berbeza dan peralatan pemerolehan data juga merupakan salah satu cabaran.

8. Kesimpulan

Penglihatan komputer adalah salah satu teknologi yang paling pesat berkembang dan digunakan secara meluas dalam bidang kecerdasan buatan Ia seperti "mata" kecerdasan buatan, menangkap imej untuk semua kehidupan dan menganalisis lebih banyak maklumat. Dengan perubahan algoritma, peningkatan kuasa pengkomputeran perkakasan, ledakan data, dan rangkaian berkelajuan tinggi yang dibawa oleh pembangunan teknologi 5G pada masa hadapan, visi komputer juga akan mempunyai ruang pembangunan yang lebih luas dari segi aplikasi. Mari kita tunggu dan lihat!

Atas ialah kandungan terperinci Satu artikel untuk memahami visi komputer, penuh dengan maklumat berguna. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam