首頁  >  文章  >  科技週邊  >  電腦視覺之圖片分類

電腦視覺之圖片分類

WBOY
WBOY轉載
2023-04-07 22:01:011600瀏覽

本文轉載自微信公眾號「 AI源起」,作者北上。轉載本文請聯絡AI源起公眾號。

你會分辨數字嗎?

說起AI,大家心裡想到的一定是如「流浪地球2」中的MOSS一樣的帶有智慧的硬體生物,彷彿無所不知、無所不能,只要給他Internet就會像復聯2中的奧創一樣,利用網路把自身傳播的無所不在,總想著要消滅人類達到「世界和平」的計畫。

電腦視覺之圖片分類

然而實際上來說,現階段的AI離大家在影視作品中感受和體會到的,還有相當大的差距,今天就拿圖片數字辨識為例,一起探索下AI到底是以一種什麼形式實際存在的。文章會以一些關鍵問題為索引,帶你一步步理解。 Follow me, let's go ~

這是一張帶有數字的圖片,相信你一定是看到後立刻就能反應過來,這是一張帶有數字“3”的圖片(即便它比較模糊)。

電腦視覺之圖片分類

第一個問題:真正的智慧體-為什麼你能清楚的知道這是數字「3」?這背後代表了什麼?

當你看向這張圖片,你的眼睛透過光反射在視網膜上將光學訊號轉換為大腦能辨識的生物訊號,並將這部分資訊暫存(僅輔助理解,實際上並不是?)在了你的視網膜上。大腦接受到訊號後,透過你聰明的小腦袋迅速認識到這是一個數字“3”,此時你已經對這張圖片完全理解了,它就是一張“3”。當然,這一切的基礎上,是你從小被教育過,這種形狀的數字「等價於」數字3,而不是5、6等其他數字。

電腦視覺之圖片分類

第二個問題:眼睛、視網膜-電腦對於實體世界的認知是透過什麼形式輸入的?

電腦和AI什麼關係呢?我們可以簡單理解為AI是需要電腦的算力和體系結構一種偽智慧能力,就好比我們自身帶有智慧和生命,但是其實本質上就是碳基生物。眾所周知,電腦世界裡是二進制世界,何謂二進制,簡單來說就是非0即1。我知道你此時一定有疑惑,就靠非0即1的二進制,就能實現這麼多功能,有這麼強大的算力嗎?但先別急,這裡需要明確一個概念,就是二進制可以表示任何進制的數字(可以先認為是對的,具體為什麼需要的話,咱們後續再聊),比如我們常用的十進制下數字13,在二進制下是 1101,想仔細學習的朋友可以看下面圖片的解釋。

電腦視覺之圖片分類

因此我們能明確出,對於一個數字,電腦都能夠透過二進位來「理解」。如果圖片能夠轉換成一串數字,計算機是不是就能從一個只知道0和1的呆瓜,變成可以將圖片進行資訊輸入(理解不理解先擱一邊,就像孩子長個總得先吃飯) 。如下圖,圖片每個小區域可以認為是一個像素,一個像素點就代表了一種顏色,那又要眾所周知了,任何一種顏色都能通過紅色(Red)、綠色(Green)、藍色( Blue)的不同配比調製出來,那我們按照從左到右,從上到下的順序,就能形成一個數字列表,那把這些內容送給計算機。

電腦視覺之圖片分類

到這一步,不管電腦理解與否,我們已經將圖片轉換為了電腦能夠接受的訊號,那電腦的大腦是怎麼辨識圖片中的數字是「3」呢

第三個問題:所謂的AI——電腦該如何判斷這張圖片中的數字是「3」

給電腦這樣兩張圖片,它能告訴你左邊這張圖片是數字“3”,你認為他是具有人工智慧嗎?你可能覺得這也太naive了,這3歲小孩都知道。但如果像右圖是1萬張藍腳鰹鳥等稀奇鳥類的圖片,計算機只用了幾秒鐘就能以99%的準確率一字不差的判斷出來各種稀奇生物,那是不是就有點AI那味了?

電腦視覺之圖片分類

傳統辨識方法-具體來說,我們已經能夠將圖片轉換為數字矩陣了,傳統的圖片辨識方法會將圖片中的特徵進行抽取,例如會利用一些硬規則當做特徵。對於數字“3”,在我們人腦中一看到這個形狀,就下意識反應出來這是“3”,但是對於計算機他是一串數字呀。所以早期在做類似圖片分類任務的時候,工程師需要對數字「3」映射下的數字序列進行處理,這可真是令人頭大。所以如何做特徵就是在傳統圖片辨識分類中,一個至關重要,但是極為繁瑣的過程。

傳統辨識方法優點在於,當辨識結果出錯時候,你可以透過顯示特徵大致判斷錯誤原因,弊端在於特徵工程繁瑣。那有沒有這樣一種方法,可以弱化特徵工程(雖然後面很多任務,特徵工程也極為重要),給一種端到端的解決方案。所謂端到端,就是我只需要給一張數位圖片,和它的分類結果,讓電腦自己學習出辨識的解決方案(是不是有點像人類的學習思路了)。這裡經過時代變遷和電腦的算力大幅提升,基於神經網路的深度學習演算法逐漸有了用武之地。

電腦視覺之圖片分類

深度神經網路辨識方法-這幾個字很深奧,不學電腦不搞演算法的可能直接被唬住了,我用一句話翻譯翻譯什麼叫深度神經網路(狗頭.jpg):輸入資料和指定標籤之間存在某種非線性的關聯,神經網路就是透過多個非線性函數去近似擬合上述的非線性關聯。如下圖,就是一個簡單的深度神經網絡,最左側的圖片(字母“A”),右側呢就是將圖片轉換為數字後,進行“智能”運算的結構體,可以理解為“大腦”。

電腦視覺之圖片分類

#

以上是電腦視覺之圖片分類的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除