Rumah >Peranti teknologi >AI >Tafsiran konsep pengesanan sasaran dalam penglihatan komputer

Tafsiran konsep pengesanan sasaran dalam penglihatan komputer

WBOY
WBOYke hadapan
2024-01-24 15:18:13702semak imbas

Tafsiran konsep pengesanan sasaran dalam penglihatan komputer

Penjejakan objek ialah tugas penting dalam penglihatan komputer dan digunakan secara meluas dalam pemantauan trafik, robotik, pengimejan perubatan, pengesanan kenderaan automatik dan bidang lain. Ia menggunakan kaedah pembelajaran mendalam untuk meramal atau menganggarkan kedudukan objek sasaran dalam setiap bingkai berturut-turut dalam video selepas menentukan kedudukan awal objek sasaran. Penjejakan objek mempunyai pelbagai aplikasi dalam kehidupan sebenar dan sangat penting dalam bidang penglihatan komputer.

Penjejakan objek biasanya melibatkan proses pengesanan objek. Berikut ialah gambaran ringkas tentang langkah-langkah pengesanan objek:

1. Pengesanan Objek, di mana algoritma mengelaskan dan mengesan objek dengan mencipta kotak sempadan di sekelilingnya.

2. Berikan pengenalan unik (ID) kepada setiap objek.

3. Jejaki pergerakan objek yang dikesan dalam bingkai sambil menyimpan maklumat yang berkaitan.

Jenis penjejakan sasaran

Terdapat dua jenis penjejakan sasaran: penjejakan imej dan penjejakan video.

Penjejakan Imej

Penjejakan imej ialah tugas untuk mengenal pasti dan menjejak imej secara automatik. Terutamanya digunakan dalam bidang realiti tambahan (AR). Sebagai contoh, apabila diberi imej 2D melalui kamera, algoritma mengesan imej satah 2D, yang kemudiannya boleh digunakan untuk menindih objek grafik 3D.

Penjejakan Video

Penjejakan video ialah tugas menjejak objek bergerak dalam video. Idea penjejakan video adalah untuk mengaitkan atau mewujudkan hubungan antara objek sasaran seperti yang muncul dalam setiap bingkai video. Dalam erti kata lain, penjejakan video menganalisis bingkai video secara berurutan dan menggabungkan lokasi masa lalu objek dengan lokasi semasa dengan meramalkan dan mencipta kotak sempadan di sekelilingnya.

Penjejakan video digunakan secara meluas dalam pemantauan lalu lintas, kereta pandu sendiri dan keselamatan kerana ia boleh memproses rakaman secara langsung.

4 Fasa Proses Penjejakan Sasaran

Fasa 1: Permulaan Sasaran

Melibatkan penentuan objek atau sasaran. Digabungkan dengan proses melukis kotak sempadan di sekeliling bingkai awal video. Penjejak kemudiannya mesti menganggarkan atau meramalkan kedudukan objek dalam bingkai yang tinggal semasa melukis kotak sempadan.

Fasa Kedua: Pemodelan Rupa

Pemodelan rupa melibatkan pemodelan rupa visual objek. Apabila objek sasaran melalui pelbagai senario seperti keadaan pencahayaan, sudut, kelajuan, dsb., ia mungkin mengubah rupa objek dan boleh menyebabkan maklumat ralat dan algoritma kehilangan penjejakan objek. Oleh itu, pemodelan rupa adalah perlu supaya algoritma pemodelan dapat menangkap pelbagai perubahan dan herotan yang diperkenalkan apabila objek sasaran bergerak.

Pemodelan rupa terdiri daripada dua bahagian:

  • Perwakilan visual: Ia memfokuskan pada membina ciri dan perwakilan yang teguh yang boleh menerangkan objek
  • Pemodelan statistik: Ia menggunakan teknik pembelajaran statistik untuk membina model bagi model pengecaman objek secara berkesan.

Fasa 3: Anggaran Pergerakan

Anggaran gerakan biasanya mengekstrapolasi keupayaan ramalan model untuk meramalkan lokasi objek pada masa hadapan dengan tepat.

Fasa 4: Penyetempatan sasaran

Setelah lokasi objek dianggarkan, kita boleh menggunakan model visual untuk mengunci pada lokasi sebenar sasaran.

Tahap Penjejakan Objek

Penjejakan objek boleh ditakrifkan sebagai dua peringkat:

Penjejakan Objek Tunggal (SOT)

Penjejakan Objek Tunggal (SOT) bertujuan untuk menjejaki objek tunggal dan bukannya satu kelas objek. Kadang-kadang dipanggil penjejakan objek visual. Dalam SOT, kotak sempadan objek sasaran ditakrifkan dalam bingkai pertama. Matlamat algoritma ini adalah untuk mencari objek yang sama dalam bingkai yang tinggal.

SOT termasuk dalam kategori pengesanan bebas pengesanan kerana kotak sempadan pertama mesti disediakan secara manual kepada penjejak. Ini bermakna bahawa penjejak objek tunggal harus dapat menjejaki sebarang objek yang diberikan, walaupun objek yang tiada model klasifikasi tersedia untuk latihan.

Penjejakan Objek Berbilang (MOT)

Penjejakan Objek Berbilang (MOT) merujuk kepada kaedah algoritma penjejakan menjejaki setiap objek yang diminati dalam video. Pada mulanya, algoritma penjejakan menentukan bilangan objek dalam setiap bingkai dan kemudian menjejaki identiti setiap objek dari satu bingkai ke bingkai seterusnya sehingga mereka meninggalkan bingkai.

Kaedah penjejakan sasaran berasaskan pembelajaran mendalam

Penjejakan sasaran telah memperkenalkan banyak kaedah untuk meningkatkan ketepatan dan kecekapan model penjejakan. Sesetengah kaedah melibatkan kaedah pembelajaran mesin klasik seperti jiran k-hampir atau mesin vektor sokongan. Di bawah ini kita membincangkan beberapa algoritma pembelajaran mendalam untuk tugas penjejakan sasaran.

MDNet

Algoritma penjejakan sasaran yang dilatih menggunakan data berskala besar. MDNet terdiri daripada pra-latihan dan penjejakan visual dalam talian.

Pra-latihan: Dalam pra-latihan, rangkaian perlu mempelajari perwakilan berbilang domain. Untuk mencapai matlamat ini, algoritma dilatih pada berbilang video beranotasi untuk mempelajari perwakilan dan ciri spatial.

Penjejakan visual dalam talian: Setelah pra-latihan selesai, lapisan khusus domain dialih keluar dan rangkaian hanya tinggal lapisan kongsi yang mengandungi perwakilan yang dipelajari. Semasa inferens, lapisan klasifikasi binari ditambah, yang dilatih atau diperhalusi dalam talian.

Teknik ini menjimatkan masa, dan ia telah terbukti sebagai algoritma penjejakan berasaskan dalam talian yang berkesan.

GOTURN

Rangkaian regresi mendalam ialah model berdasarkan latihan luar talian. Algoritma mempelajari hubungan umum antara gerakan objek dan rupa dan boleh digunakan untuk menjejak objek yang tidak muncul dalam set latihan.

Penjejakan Objek Universal menggunakan Rangkaian Regresi atau GOTURN menggunakan kaedah berasaskan regresi untuk menjejak objek. Pada asasnya, mereka mundur terus untuk mencari objek sasaran dalam hanya satu laluan suapan hadapan melalui rangkaian. Rangkaian menerima dua input: kawasan carian bingkai semasa dan sasaran bingkai sebelumnya. Rangkaian kemudian membandingkan imej ini untuk mencari objek sasaran dalam imej semasa.

ROLO

ROLO ialah gabungan rangkaian saraf berulang dan YOLO. Secara amnya, LSTM lebih sesuai digunakan bersama dengan CNN.

ROLO menggabungkan dua rangkaian saraf: satu ialah CNN, digunakan untuk mengekstrak maklumat spatial; satu lagi ialah rangkaian LSTM, digunakan untuk mencari trajektori objek sasaran. Pada setiap langkah masa, maklumat spatial diekstrak dan dihantar ke LSTM, yang kemudiannya mengembalikan lokasi objek yang dijejaki.

DeepSORT

DeepSORT ialah salah satu algoritma penjejakan sasaran yang paling popular dan ia merupakan lanjutan daripada SORT.

SORT ialah algoritma penjejakan berasaskan dalam talian yang menggunakan penapis Kalman untuk menganggarkan kedudukan objek berdasarkan kedudukan sebelumnya. Penapis Kalman sangat berkesan terhadap oklusi.

Selepas memahami SORT, kami boleh menggabungkan teknologi pembelajaran mendalam untuk meningkatkan algoritma SORT. Rangkaian saraf dalam membolehkan SORT menganggarkan lokasi objek dengan lebih ketepatan kerana rangkaian ini kini boleh menerangkan ciri-ciri imej sasaran.

SiamMask

direka untuk menambah baik proses latihan luar talian rangkaian Siam konvolusi sepenuhnya. Rangkaian Siam menerima dua input: imej terpotong dan imej carian yang lebih besar untuk mendapatkan perwakilan ciri spatial yang padat.

Rangkaian Siam menghasilkan output yang mengukur persamaan dua imej input dan menentukan sama ada objek yang sama terdapat dalam kedua-dua imej. Dengan meningkatkan kerugian menggunakan tugas pembahagian binari, rangka kerja ini sangat berkesan untuk penjejakan objek.

JDE

JDE ialah pengesan tembakan tunggal yang direka untuk menyelesaikan masalah pembelajaran berbilang tugas. JDE mempelajari pengesanan objek dan pembenaman penampilan dalam model kongsi.

JDE menggunakan Darknet-53 sebagai tulang belakang untuk mendapatkan perwakilan ciri pada setiap lapisan. Perwakilan ciri ini kemudiannya digabungkan menggunakan pensampelan naik dan sambungan baki. Pengepala ramalan kemudiannya dilampirkan di atas perwakilan ciri bercantum, menghasilkan peta ramalan yang padat. Untuk melaksanakan penjejakan objek, JDE menjana kelas kotak sempadan dan benam penampilan daripada kepala ramalan. Benam penampilan ini dibandingkan dengan benam objek yang dikesan sebelum ini menggunakan matriks perkaitan.

Tracktor++

Tracktor++ ialah algoritma penjejakan dalam talian. Ia menggunakan kaedah pengesanan objek untuk melaksanakan pengesanan dengan melatih rangkaian saraf hanya pada tugas pengesanan. Pada asasnya meramalkan lokasi objek dalam bingkai seterusnya dengan mengira regresi kotak sempadan. Ia tidak melakukan sebarang latihan atau pengoptimuman pada data penjejakan.

Pengesan objek Tracktor++ biasanya R-CNN yang Lebih Pantas dengan 101 lapisan ResNet dan FPN. Ia menggunakan cabang regresi Faster R-CNN untuk mengekstrak ciri daripada bingkai semasa.

Atas ialah kandungan terperinci Tafsiran konsep pengesanan sasaran dalam penglihatan komputer. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:163.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam