搜尋
首頁科技週邊人工智慧一文讀懂電腦視覺,乾貨滿滿

1.前言

電腦視覺(Computer Vision),通常簡稱CV,是一個透過技術幫助電腦「看到」並「看懂」圖像的研究領域,例如使電腦理解照片或視頻的內容。

這篇文章將對電腦視覺進行整體介紹。本文章共分為六個部分,分別是:

  • 電腦視覺為什麼重要
  • 什麼是電腦視覺
  • 電腦視覺的基本原理
  • #電腦視覺的典型任務
  • 電腦視覺在日常生活中的應用場景
  • 電腦視覺面臨的挑戰

2.電腦視覺為什麼重要

在生理學上,視覺(Vision)的產生都始於視覺器官感受細胞的興奮,並於視覺神經系統對收集到的信息進行加工之後形成。我們人類透過視覺直觀地了解眼前事物的形體和狀態,大部分人依靠視覺來完成做飯、越過障礙、讀路牌、看影片以及無數其他任務。事實上,如果不是盲人這類特殊群體,絕大多數人對外界資訊的取得都是透過視覺完成的,而這個佔比高達80%以上──這個比例並不是沒有根據的,著名實驗心理學家赤瑞特拉(Treicher)曾透過大量的實驗證實:人類所獲得的資訊的83%來自視覺,11%來自聽覺,剩下的6%來自嗅覺、觸覺、味覺。所以,對人類來說,視覺無疑是最重要的一種感覺。

不僅人類是“視覺動物”,對大多數動物來說,視覺也都扮演著十分重要的角色。透過視覺,人和動物感知外界物體的大小、明暗、顏色、動靜,獲得對機體生存具有重要意義的各種訊息,透過這些訊息能夠得知,周圍的世界是怎樣的,以及如何和世界互動。

一文讀懂電腦視覺,乾貨滿滿

而在電腦視覺出現之前,影像對電腦來說是黑盒子的狀態。一張圖像對電腦來說只是一個檔案、一串資料。計算機不知道圖片裡的內容到底是什麼,只知道這張圖片是什麼尺寸,佔多少記憶體大小,什麼格式的等等。

一文讀懂電腦視覺,乾貨滿滿 

如果電腦、人工智慧想要在現實世界中發揮重要作用,就必須看懂圖片!因此,半個世紀以來,電腦科學家一直在想辦法讓電腦也擁有視覺,從而產生了「電腦視覺」這個領域。

一文讀懂電腦視覺,乾貨滿滿 

網路的快速發展也讓電腦視覺變得特別重要。下圖是2020年以來網路上新增資料量的走勢圖。灰色圖形是結構化數據,藍色圖形是非結構化資料(大部分都是圖片和影片)。可以很明顯的發現,圖片和影片的數量正在以指數級的速度瘋狂增長。

一文讀懂電腦視覺,乾貨滿滿

互聯網由文字和圖像組成。搜尋文字相對簡單,但為了搜尋圖像,演算法需要知道圖像包含的內容。在很長的一段時間內,人類沒有足夠的技術來理解圖像和影片的內容,只能依靠人工標註來獲取圖像或影片的描述。如何能讓電腦更能理解這些影像訊息,便是當今電腦科技面臨的一大挑戰。為了充分利用圖像或視頻數據,需要讓電腦「查看」圖像或視頻,並理解內容。 

3.什麼是電腦視覺

電腦視覺是人工智慧領域的重要分支,簡單來說,它要解決的問題就是:讓電腦看懂圖像或影片裡的內容。例如:圖片裡的寵物是貓還是狗?圖片裡的人是老張還是老王?影片裡的人在做什麼事情?更進一步的說,電腦視覺就是指用攝影機和電腦取代人眼對目標進行辨識、追蹤和測量等,並進一步做圖形處理,得到更適合人眼觀察或傳送給儀器偵測的影像。作為一個科學學科,與電腦視覺研究相關的理論和技術,試圖建立能夠從影像或多維資料中獲取高層次資訊的人工智慧系統。從工程的角度來看,它尋求利用自動化系統模仿人類視覺系統來完成任務。電腦視覺的最終目標是使電腦能像人類一樣透過視覺觀察和理解世界,並且具有自主適應環境的能力。但能真正實現電腦能夠透過攝影機感知這個世界卻是非常之難,因為雖然攝影機拍攝的影像和我們平時所見是一樣的,但對於電腦來說,任何影像都只是像素值的排列組合,是一堆死板的數字。如何讓電腦從這些死板的數字裡面讀取到有意義的視覺線索,是電腦視覺應該解決的問題。

4.電腦視覺的基本原理

用過相機或手機的都知道,計算機擅長拍出有驚人保真度和細節的照片,從某種程度上來說,計算機的人工「視覺」比人類與生自來的視覺能力強多了。但正如我們平日所說的“聽見不等於聽懂”一樣,“看見”也不等於“看懂”,要想讓計算機真正地“看懂”圖像,那就不是一件簡單的事情了。影像是一個大像素網格,每個像素有顏色,顏色是三種基色的組合:紅,綠,藍。透過組合三種顏色的強度-即叫做RGB值,我們可以得到任何顏色。最簡單的、最適合拿來入門的電腦視覺演算法是:追蹤一個有顏色的物體,例如一個粉紅色的球,我們首先記下球的顏色,保存最中心像素的RGB值,然後給程式餵入圖像,讓程式找最接近這個顏色的像素。演算法可以從左上角開始,檢查每個像素,計算和目標顏色的差異。檢查了每個像素後,最貼近的一部分像素,很可能就是球所在的像素。這個演算法並不限制在這張單張圖片上運行,我們可以把演算法運行在影片的每一幀影像上,追蹤球的位置。當然,因為光線、陰影和其他因素的影響,球的顏色會有變化,不會和我們存的RGB值完全一樣,但會很接近。不過在一些極端的情況下,例如晚上進行足球比賽,追蹤效果可能會非常差;而且如果其中一隊的球衣顏色和球的顏色一樣,演算法就完全「暈了」。因此,除非環境可以嚴格控制,這類顏色追蹤演算法很少會被真正投入使用。而如今更多使用的電腦視覺演算法一般都會涉及「深度學習」(Deep Learning)的方法和技術,其中,卷積神經網路(CNN)因為其優越的性能,使用最為廣泛。由於「深度學習」所涉及的知識過於廣泛,本篇就不對其進行更詳細的敘述了。如想了解更多「深度學習」的相關知識,不妨來看看AI入門課程-《英特爾® OpenVINO™工具套件初級課程》。它從AI的基本概念開始,介紹人工智慧與視覺應用的相關知識,幫助使用者快速理解英特爾®OpenVINO™工具套件的基本概念及應用場景。整個課程包含了影片的處理,深度學習的相關知識,人工智慧應用的推理加速,以及英特爾®OpenVINO™工具套件的Demo演示,由淺入深,一步一步帶你掌握深度學習。

5.計算機視覺的典型任務

  • 圖像分類

#圖像分類是根據圖像的語義資訊對不同類別圖像進行區分,是計算機視覺的核心,是物件偵測、影像分割、物件追蹤、行為分析、人臉辨識等其他高層次視覺任務的基礎。例如下圖,透過影像分類,電腦辨識到影像中有人(person)、樹(tree)、草地(grass)、天空(sky)。

一文讀懂電腦視覺,乾貨滿滿

 影像分類在許多領域都有廣泛的應用,如:安防領域的人臉辨識和智慧視訊分析等,交通領域的交通場景識別,網路領域基於內容的影像檢索和相簿自動歸類,醫學領域的影像辨識等。 

  • 目標偵測

目標偵測任務的目標是給定一張影像或是視訊幀,讓電腦找出其中所有目標的位置,並給出每個目標的具體類別。如下圖,以辨識和偵測人為例,用邊框標記影像中所有人的位置。

一文讀懂電腦視覺,乾貨滿滿

而在多類別目標偵測中,一般使用不同顏色的邊框對偵測到的不同物體的位置進行標記,如下圖所示。

一文讀懂電腦視覺,乾貨滿滿

  • 語意分割

語意分割是電腦視覺中的基本任務,在語意分割中我們需要將視覺輸入分為不同的語意可解釋類別。它將整個影像分成像素組,然後對像素組進行標記和分類。例如,我們可能需要區分影像中屬於汽車的所有像素,並將這些像素塗成藍色。如下圖,把圖像分為人(紅色)、樹木(深綠)、草地(淺綠)、天空(藍色)標籤。

一文讀懂電腦視覺,乾貨滿滿

實例分割實例分割是目標偵測和語意分割的結合,在影像中將目標偵測出來(目標偵測),然後在每個像素上打上標籤(語意分割)。對比上圖、下圖可見,如以人為目標,語意分割不區分屬於相同類別的不同實例(所有人都標為紅色),實例分割區分同類的不同實例(使用不同顏色區分不同的人)。

一文讀懂電腦視覺,乾貨滿滿

目標追蹤目標追蹤是指對影像序列中的運動目標進行偵測、提取、識別和跟踪,獲得運動目標的運動參數,進行處理與分析,實現對運動目標的行為理解,以完成更高一級的偵測任務。

一文讀懂電腦視覺,乾貨滿滿

6.電腦視覺在日常生活中的應用場景

電腦視覺的應用場景非常廣泛,以下列舉幾個生活中常見的應用場景。 · 門禁、支付寶上的人臉辨識 

一文讀懂電腦視覺,乾貨滿滿

  • #停車場、收費站的車牌辨識

一文讀懂電腦視覺,乾貨滿滿

一文讀懂電腦視覺,乾貨滿滿

一文讀懂電腦視覺,乾貨滿滿

############################################################################################ ######上傳影片到網站或APP時的風險識別######################抖音等APP上的各種自拍道具(需要先辨識出人臉的位置)##################7.電腦視覺面臨的挑戰######目前,電腦視覺科技發展迅速,已具備初步的產業規模。未來電腦視覺技術的發展主要面臨以下挑戰:一是如何在不同的應用領域和其他技術更好的結合,電腦視覺在解決某些問題時可以廣泛利用大數據,已經逐漸成熟並且可以超過人類,而在某些問題上卻無法達到很高的精度;二是如何降低電腦視覺演算法的開發時間與人力成本,目前電腦視覺演算法需要大量的數據與人工標註,需要較長的研發週期以達到應用領域所需求的精度與耗時;三是如何加快新型演算法的設計開發,隨著新的成像硬體與人工智慧晶片的出現,針對不同晶片與資料擷取設備的電腦視覺演算法的設計與開發也是挑戰之一。 ######8.結語######電腦視覺作為人工智慧細分領域中發展最快、應用最為廣泛的技術之一,它如同人工智慧的“眼睛”,為各行各業捕捉和分析更多資訊。隨著演算法的更迭、硬體算力的升級、數據的大爆發,以及未來5G技術發展帶來的高速網絡,電腦視覺在應用方面也會有更加廣闊的發展空間,讓我們拭目以待吧! ###

以上是一文讀懂電腦視覺,乾貨滿滿的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
10個生成AI編碼擴展,在VS代碼中,您必須探索10個生成AI編碼擴展,在VS代碼中,您必須探索Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器