大家應該都看過布萊德.伯德執導、湯姆.克魯斯主演的《碟中諜4吧》?茫茫人海的火車站,只要一眨眼的功夫已經被電腦識別出來,隨即被特工盯梢;迎面相逢的美女是致命殺手,手機發出嘀嘀的報警聲,上面已經顯示美女的姓名和訊息。這就是本文想要介紹的人臉辨識演算法,以及如果使用公有雲AI平台訓練模型。
作為目前人工智慧領域中成熟較早、落地較廣的技術之一,人臉辨識的目的是要判斷圖片和影片中人臉的身份。從平常手機的刷臉解鎖、刷臉支付,再到安防領域內的人臉辨識布控,等等,人臉辨識技術都有廣泛的應用。人臉是每個人與生俱來的特徵,該特徵具有唯一性且不易被複製,從而為身份鑑別提供了必要的前提。
人臉辨識的研究始於1960年代,隨著電腦科技和光學影像技術的發展不斷提高,以及近年來神經網路技術的再次興起,尤其是卷積神經網路在影像辨識和偵測中取得的巨大成功,使得人臉辨識系統的效果得到了極大的提升。本文,我們從人臉辨識技術的技術細節講起,帶你初步了解人臉辨識技術的發展過程,文章的後半篇,我們將會使用ModelArts平台的自訂鏡像,帶你看看如何利用公有雲端的運算資源,快速訓練一個可用的人臉辨識模型。
不管是基於傳統影像處理和機器學習技術,還是利用深度學習技術,其中的流程都是一樣的。如圖1所示,人臉辨識系統都包含人臉偵測、對齊、編碼以及匹配四個基本環節組成。所以這部分首先透過對基於傳統影像處理和機器學習演算法的人臉辨識系統進行概述,就可以看出整個深度學習演算法在人臉辨識領域內發展的脈絡。
人臉偵測流程
前面已經說過,人臉辨識的目的就是要判斷影像中的人臉身分是什麼,所以就首先需要先把影像中的人臉偵測出來,其實這一步歸根究底就是一個目標偵測的問題。傳統的影像目標偵測演算法主要有三個部分組成,建議框架生成、特徵工程以及分類,包括著名的RCNN系列演算法的最佳化想法也是基於這三部分進行的。
首先是建議框生成,該步驟最簡單的想法就是在圖片中crop出來一堆待檢測框,然後檢測該框內是否存在目標,如果存在,則該框在原圖中的位置即為目標偵測出的位置,因此在該步驟中對目標的覆蓋率越大,則建議框產生策略越好。常見的建議框產生策略有sliding window、Selective Search、Randomized Prim等等,產生大量的候選框,如下圖所示。
得到大量的候選框後,傳統的人臉偵測演算法接下來最主要的部分就是特徵工程。特徵工程其實就是利用演算法工程師的專家經驗對不同場景的人臉提取各種特徵,例如邊緣特徵、形狀形態特徵、紋理特徵等等,具體的演算法是技術有LBP、Gabor、Haar、SIFT等等特徵提取演算法,將一張以二維矩陣表示的人臉圖片轉換成各種特徵向量的表示。
得到特徵向量之後,就可以透過傳統的機器學習分類器對特徵進行分類,得到是否是人臉的判斷,例如透過adaboost、cascade、SVM、隨機森林等等。透過傳統分類器分類之後就可以得到人臉的區域、特徵向量以及分類置信度等等。透過這些訊息,我們就可以完成人臉對齊、特徵表示以及人臉匹配辨識的工作。
以傳統方法中,經典的HAAR AdaBoost的方法為例,在特徵提取階段,首先會利用haar特徵在圖片中提取出許多簡單的特徵。 Haar特徵如下圖所示。為了滿足不同大小人臉的偵測,通常會利用高斯金字塔對不同解析度的影像進行Haar特徵的擷取。
#Haar特徵的計算方法是將白色區域內的像素和減去黑色區域,因此在人臉和非人臉的區域內,得到的值是不一樣的。一般在具體實現過程中,可以透過積分圖的方法快速實現。一般在歸一化到20*20的訓練圖片中,可供使用的Haar特徵數在一萬個左右,因此在這種特徵規模的情況下,可以利用機器學習的演算法進行分類和識別。
得到Haar特徵後,可以利用Adaboost進行分類,Adaboost演算法是一種將多個比較弱的分類方法合在一起,組合出新的強分類方法。根據此級聯分類器,和訓練好的各個特徵選擇閾值,就可以完成對人臉的偵測。
從上述方法可以看出,傳統的機器學習演算法是基於特徵的演算法,因此需要大量的演算法工程師的專家經驗進行特徵工程和調參等工作,演算法效果也不是很好。而且人工設計在無約束環境中對不同變化情況都穩健很困難的。 過去的圖像演算法是工程師更多的是透過傳統的圖像處理方法,根據現實場景和專家經驗提取大量的特徵,然後對提取的特徵再進行統計學習的處理,這樣整體演算法的性能就非常依賴現實場景和專家經驗,對於人臉這種類別龐大,每類樣本不均衡情況嚴重的無約束場景效果並不是很好。因此,近年來隨著深度學習在影像處理中取得的巨大成功,人臉辨識技術也都以深度學習為主,並且已經達到了非常好的效果。
在深度學習的人臉辨識系統中,該問題被分成了一個目標偵測問題和一個分類問題,而目標檢測問題在深度學習中本質還是一個分類問題和回歸問題,因此隨著卷積神經網路在圖片分類上的成功應用,人臉辨識系統的效果得到了快速且巨大的提升,並以此誕生了大量的視覺演算法公司,並將人臉辨識應用在了社會生活的各個層面。
其實利用神經網路來做人臉辨識並不是什麼新思想,1997年就有研究者為人臉偵測、眼部定位和人臉辨識提出了一種名為基於機率決策的神經網路的方法。這種人臉辨識 PDBNN 被分成了每一個訓練主體一個全連接子網絡,以降低隱藏單元的數量和避免過度擬合。研究者使用密度和邊特徵分別訓練了兩個 PBDNN,然後將它們的輸出組合起來得到最終分類決定。但是受限於當時算力和數據的嚴重不足,演算法相對簡單,因此演算法並沒有得到很好的效果。隨著僅今年反向傳播理論和算力框架等的日益成熟,人臉辨識演算法的效果才開始得到巨大的提升。
在深度學習中,一個完整的人臉辨識系統也包含圖1所示的四個步驟,其中第一個步驟叫做人臉偵測演算法,本質也是一個目標偵測演算法.第二個步驟叫做人臉對齊,目前又基於關鍵點的幾何對齊和基於深度學習的人臉對齊。第三個步驟特徵表示,在深度學習中是透過分類網路的思想,提取分類網路中的一些feature層作為人臉的特徵表示,然後以相同的方式對標準人臉像進行處理,最後透過比對查詢的方式完成整體的人臉辨識系統。以下主要針對人臉偵測和人臉辨識演算法的發展進行簡單綜述。
深度學習在影像分類中的巨大成功後很快就被用於人臉偵測的問題,起初解決問題的思路大多是基於CNN網路的尺度不變性,對圖片進行不同尺度的縮放,然後進行推理並直接對類別和位置資訊進行預測。另外,由於對feature map中的每一個點直接進行位置回歸,得到的人臉框精度比較低,因此有人提出了基於多階段分類器由粗到細的檢測策略檢測人臉,例如主要方法有Cascade CNN、 DenseBox和MTCNN等等。
MTCNN是一個多任務的方法,第一次將人臉區域檢測和人臉關鍵點檢測放在了一起,與Cascade CNN一樣也是基於cascade的框架,但是整體思路更加的巧妙合理,MTCNN整體來說分為三個部分:PNet、RNet和ONet,網路架構如下圖所示。
#首先PNet網路對輸入圖片resize到不同尺寸,作為輸入,直接經過兩層卷積後,回歸人臉分類和人臉檢測框,這部分稱之為粗檢測。將粗檢測得到的人臉從原圖中crop出來後,在輸入的R-Net,再進行一次人臉偵測。最後將得到的人臉最終輸入O-Net,得到的O-Net輸出結果為最終的人臉偵測結果。 MTCNN整體流程相對比較簡單,能夠快速的進行部署與實現,但是MTCNN的缺點也很多。包含多階段任務訓練費時,大量中間結果的保存需要佔用大量的儲存空間。另外,由於改網直接對feature點進行bounding box的迴歸,對於小目標人臉偵測的效果也不是很好。還有,該網絡在推理的過程中為了滿足不同大小人臉檢測需要,要將人臉圖片resize到不同尺寸內,嚴重影響了推理的速度。
隨著目標偵測領域的發展,越來越多的實驗證據證明目標偵測中更多的瓶頸在於底層網路語義低但定位精度相對較高和高層網路語義高但定位精度低的矛盾,目標偵測網路也開始流行anchor-based的策略和跨層融合的策略,例如著名的Faster-rcnn、SSD和yolo系列等。因此,人臉偵測演算法也越來越多的利用anchor和多路輸出來滿足不同大小人臉檢出的效果,其中最著名的演算法就是SSH網路結構。
從上圖中可以看出,SSH網路已經有對不同網路層輸出處理的方法,只需要一遍推理就能完成不同大小人臉的偵測過程,因此稱之為Single Stage。 SSH的網路也比較簡單,就是對VGG不同卷積層驚醒了分支計算並輸出。另外也對高層feature進行了上採樣,與底層feature做Eltwise Sum來完成底層與高層的特徵融合。另外SSH網路也設計了detection module和context module,其中context module作為detection module的一部分,採用了inception的結構,獲取更多上下文資訊以及更大的感受野。
SSH中的detection module模組
SSH中detection module裡的context module模組
SSH利用1×1卷積對輸出最終的回歸和分類的分支結果,並沒有利用全連接層,因此可以保證不同尺寸圖片的輸入都能得到輸出的結果,也是響應了當時全卷積設計方式的潮流。遺憾的是該網絡並沒有輸出landmark點,另外其實上下文結構也沒有用到比較流行的特徵金字塔結構,VGG16的backbone也相對較淺,隨著人臉優化技術的不斷進行,各種各樣的trick也都日趨成熟。因此,最後向大家介紹一下目前人臉偵測演算法中應用較廣的Retinaface網路。
Retinaface由google提出,本質是基於RetinaNet的網路結構,採用特徵金字塔技術,實現了多尺度資訊的融合,對偵測小物件有重要的作用。網路結構如下所示。
從上圖可以看出,Retinaface的backbone網絡為常見的捲積神經網絡,然後加入特徵金子塔結構和Context Module模組,進一步融合上下文的信息,並完成包括分類、檢測、landmark點回歸以及圖像自增強的多種任務。
因為人臉偵測的本質是目標偵測任務,目標偵測未來的方向也適用於人臉的最佳化方向。目前在目標偵測中小目標、遮蔽目標的偵測依舊很困難,另外大部份偵測網路更多的開始部署在端側,因此基於端側的網路模型壓縮和重構加速等等更加考驗演算法工程師對與深度學習檢測演算法的理解與應用。
人臉辨識問題本質是一個分類問題,即每一個人作為一類進行分類檢測,但在實際應用過程中會出現很多問題。第一,人臉類別很多,如果要辨識一個城鎮的所有人,那麼分類類別就將近十萬以上的類別,另外每一個人之間可獲得的標註樣本很少,會出現很多長尾資料。根據上述問題,要對傳統的CNN分類網路進行修改。
我們知道深度卷積網路雖然作為一種黑盒子模型,但是能夠透過資料訓練的方式去表徵圖片或物件的特徵。因此人臉辨識演算法可以透過卷積網路提取大量的人臉特徵向量,然後根據相似度判斷與底庫比較完成人臉的辨識過程,因此演算法網路能不能對不同的人臉產生不同的特徵,對同一人臉產生相似的特徵,將是這類embedding任務的重點,也就是怎麼樣能夠最大化類間距離以及最小化類內距離。
在人臉辨識中,主幹網路可以利用各種卷積神經網路完成特徵提取的工作,例如resnet,inception等等經典的捲積神經網路作為backbone,關鍵在於最後一層loss function的設計與實作。現在從兩個想法分析基於深度學習的人臉辨識演算法中各種損失函數。
思路1:metric learning,包括contrastive loss, triplet loss以及sampling method
思路2:margin based classification,包括softmax with center loss, sphereface, normface, AM-sofrmax(cosface) 和arcface。
1. Metric Larning
#(1)Contrastive loss
深度學習中最早應用metric learning想法之一的便是DeepID2了。其中DeepID2最主要的改進是同一個網路同時訓練verification和classification(有兩個監督訊號)。其中在verification loss的特徵層中引入了contrastive loss。
Contrastive loss不僅考慮了相同類別的距離最小化,也同時考慮了不同類別的距離最大化,透過充分運用訓練樣本的label資訊提升人臉辨識的準確性。因此,該loss函數本質上使得同一個人的照片在特徵空間距離足夠近,不同人在特徵空間里相距足夠遠直到超過某個閾值。 (聽起來和triplet
loss有點像)。
Contrastive loss引入了兩個訊號,並透過兩個訊號對網路進行訓練。其中辨識訊號的表達式如下:
驗證訊號的表達式如下:
#基於這樣的訊號,DeepID2在訓練的時候就不是以一張圖片為單位了,而是以Image Pair為單位,每次輸入兩張圖片,為同一人則為1,如果不是同一人則為-1.
(2)Triplet loss from FaceNet
這篇15年來自Google的FaceNet同樣是人臉辨識領域分水嶺性質的工作。它提出了一個絕大部分人臉問題的統一解決框架,即:識別、驗證、搜索等問題都可以放到特徵空間裡做,需要專註解決的僅僅是如何將人臉更好的映射到特徵空間。
Google在DeepID2的基礎上,拋棄了分類層即Classification Loss,將Contrastive Loss改進為Triplet loss,只為了一個目的:學習到更好的feature。
直接貼出Triplet loss的損失函數,其輸入的不再是Image Pair,而是三張圖片(Triplet),分別為Anchor Face, Negative Face和Positive Face。 Anchor與Positive Face為同一人,與Negative Face為不同的人。那麼Triplet loss的損失函數即可表示為:
此式子的直覺解釋為:在特徵空間裡Anchor與Positive的距離要小於Anchor與Negative的距離並且超過一個Margin Alpha。他與Contrastive loss的直覺差異由下圖所示。
(3)Metric learning的問題
上述的兩個loss function效果很不錯,而且也符合人的客觀認知,在實際專案中也有大量的應用,但此方法仍有一些不足之處。
2. 對於Metric Learning不足進行修正的各種trick
(1 )Finetune
參考論文:Deep Face Recognition
在論文《Deep Face Recognition》中,為了加快triplet loss的訓練,坐著先用softmax訓練人臉辨識模型,然後移除頂層的classification layer,然後用triplet loss對模型進行特徵層finetune,在加速訓練的同時也取得了很不錯的效果。這個方法也是現在訓練triplet loss時最常用的方法。
(2)Triplet loss的修改
#參考論文:In Defense of the Triplet Loss for Person Re-Identification
該作者說出了Triplet loss的缺點。對於Triplet loss訓練所需的一個三元組,anchor(a)、positive(p)、negative(n)來說,需要從訓練集中隨機挑選。由於loss function的驅動,很有可能挑選出來的是很簡單的樣本組合,即很像的正樣本以及很不像的負樣本,而讓網絡一直在簡單樣本上進行學習,會限製網絡的範式能力。因此坐著修改了triplet loss並添加了新的trick,大量實驗證明,這種改進版的方法效果非常好。
在Google提供的facenet triplet loss訓練時,一旦選定B triplets集合,資料就會依照順序排好的3個一組,那麼總共的組合就有3B種,但是這些3B個影像其實有多達種有效的triplets組合,光是使用3B種就很浪費。
在該片論文中,作者提出了一個TriHard loss,其核心思想是在triplet loss的基礎上加入對hard example的處理:對於每一個訓練的batch, 隨機挑選P個ID的行人,每個行人隨機挑選K張不同的圖片,即一個batch含有P×K張圖片。之後對於batch中的每一張圖片a,我們可以挑選一個最難的正樣本和一個最難的負樣本和a組成一個三元組。首先我們定義和a為相同ID的圖片集為A,剩下不同ID的圖片圖片集為B,則TriHard損失表示為:
其中是人為設定的閾值參數。 TriHard loss會計算a和batch中的每一張圖片在特徵空間的歐氏距離,然後選出與a距離最遠(最不像)的正樣本p和距離最近(最像)的負樣本n來計算三元組損失。其中d表示歐式距離。損失函數的另一種寫法如下:
#另外,作者在輪中也提出了幾個實驗得到的觀點:
#該方法考慮了hard example後效果比傳統的triplet loss好。
(3)對loss以及sample方法的修改
#參考論文:Deep Metric Learning via Lifted Structured Feature Embedding
該論文首先提出了現有的三元組方法無法充分利用minibatch SGD training的training batches的優勢,創造性的將the vector of pairwise distances轉換成the matrix of pairwise
distance,然後設計了一個新的結構化損失函數,取得了非常好的效果。如下圖所示,是contrastice embedding,triplet embedding以及lifted structured embedding三種方式的採樣示意圖。
直觀上看,lifted structured embedding涉及的分類模式更多,作者為了避免大量資料造成的訓練困難,作者在此基礎上給出了一個結構化的損失函數。如下圖所示。
其中P是正樣本集合,N是負樣本集合。可以看到比較上述的損失函數,該損失函數開始考慮一個樣本集合的問題。但是,並不是所有樣本對之間的negative edges都攜帶了有用的信息,也就是說隨機採樣的樣本對之間的negative edges攜帶了非常有限的信息,因此我們需要設計一種非隨機的採樣方法。
透過上述的結構化損失函數我們可以看到,在最終計算損失函數時,考慮了最像和最不像的hard pairs(也就是損失函數中max的用處),也就相當於在訓練過程中添加了difficult
neighbors的信息了訓練mini-batch,通過這種方式訓練數據能夠大概率的搜尋到hard negatives和hard positives的樣本,而隨著訓練的不斷進行,對hard樣本的訓練也將達到最大化類間距離和最小化類內距離的目的。
如上圖所示,該文章在進行metric learning的時候並沒有隨機的選擇sample pairs,而是綜合了多類樣本之間較難區分者進行訓練。此外,文中還提到了以為的尋求max的過程或尋求single hardest negative的過程會導致網絡收斂到一個bad local optimum,我猜想可能是因為max的截斷效應,使得梯度比較陡峭或梯度間斷點過多。作者進一步改進了loss
function,採用了smooth upper bound,即下式所示。
(4)對sample方式和對triplet loss的進一步修改
##參考論文:Sampling Matters in Deep Embedding Learning
在現實狀態下,我們隊所有的樣本進行兩兩取樣,計算其距離,最終得到點對距離的分佈有著如下的關係: 那麼根據給定的距離,透過上述函數的反函數就可以得到其取樣機率,根據該機率決定每個距離需要取樣的比例。給定一個anchor,採樣負例的機率為下式: 由於訓練樣本與訓練梯度強相關,因此作者也繪製出了取樣距離、取樣方法與資料梯度變異數的關係,如下圖所示。從圖中可以看出,hard negative mining方法採樣的樣本都處於高方差的區域,如果資料集中有雜訊的話,取樣很容易受到雜訊的影響,導致模型坍塌。隨機採樣的樣本容易集中在低方差的區域,使得loss很小,但此時模型實際上並沒有訓練好。 Semi-hard negative mining採樣的範圍很小,這很可能導致模型在很早的時候就收斂,loss下降很慢,但實際上此時模型也還沒訓練好;而本文提出的方法,能夠實現在整個資料集上均勻取樣。 作者正在觀察constractive loss和triplet loss的時候發現一個問題,就是負樣本在非常hard的時候loss函數非常的平滑,那麼也就意味著梯度會很小,梯度小對於訓練來說就意味著非常hard的樣本不能充分訓練,網絡得不到hard樣本的有效訊息,因此hard樣本的效果就會變差。所以如果在hard樣本周圍loss不是那麼平滑,也就是深度學習中常用的導數為1(像relu一樣),那麼hard模式會不會就解決了梯度消失的問題。另外loss function還要實現triplet loss對正負樣本的兼顧,以及具備margin設計的功能,也就是自適應不同的資料分佈。損失函數如下: 我們稱anchor樣本與正例樣本之間的距離為正例對距離;稱anchor樣本與負例樣本之間的距離為負例對距離。公式中的參數beta定義了正例對距離與負例對距離之間的界限,如果正例對距離Dij大於beta,則損失加大;或者負例對距離Dij小於beta,損失加大。 A控制樣本的分離間隔;當樣本為正例對時,yij為1,樣本為負例對時,yij為-1。下圖為損失函數曲線。 從上圖可以看出為什麼在非常hard的時候會出現梯度消失的情況,因為離0點近的時候藍色的線越來越平滑,梯度也就越來越小了。另外作者對的設定也進行了調優,加入了樣本偏移、類別偏移以及超參,對損失函數進一步優化,能夠根據訓練過程自動修改的值。 3. Margin Based Classification Margin based classification不像在feature層直接計算損失的metric learning那樣對feature加直覺的強烈限制,是依然把人臉辨識當classification 任務進行訓練,透過對softmax (1)Center loss #參考論文:A Discriminative Feature Learning Approach for Deep Face Recognition ECCV 2016的這篇文章主要是提出了一個新的Loss:Center Loss,用以輔助Softmax Loss進行人臉的訓練,為了讓同一個類別壓縮在一起,最終獲取更加discriminative的features 。 center loss意思即為:為每一個類別提供一個類別中心,最小化min-batch中每個樣本與對應類別中心的距離,這樣就可以達到縮小類內距離的目的。下圖為最小化樣本和類別中心距離的損失函數。 為每個batch中每個樣本對應的類別中心,和特徵的維度一樣,用歐式距離作為高維流形體距離表達。因此,在softmax的基礎上,center loss的損失函數為: 個人理解Center loss如同在損失函數中加入了聚類的功能,隨著訓練的進行,樣本自覺地聚類在每一個batch的中心,進一步達到類間差異最大化。但是我覺得,對於高維度特徵,歐氏距離並不能反映聚類的距離,因此這樣簡單的聚類並不能在高維度上取得更好的效果。 (2)L-Softmax #原始的Softmax的目的是使得,將向量相乘的方式變換為向量的模與角度的關係,即,在這個基礎上,L-Softmax希望可以透過增加一個正整數變數m,可以看到: 使得產生的決策邊界可以更嚴格地約束上述不等式,讓類別內的間距更加的緊湊,讓類間的間距更有區分性。所以基於上式和softmax的公式,可以得到L-softmax的公式為: #由於cos是減函數,所以乘以m會使得內積變小,最終隨著訓練,類別本身之間的距離會增加。透過控制m的大小,可以看到類別內和類別間距離的變化,二維圖顯示如下: #作者為了保障在反在傳播和推理過程中能夠滿足類別向量之間的角度都能夠滿足margin的過程,並保證單調遞減,因此構建了一種新的函數形式: ##有人回饋L-Softmax調參難度較大,對m的調參需要反覆進行,才能達到更好的效果。 (3)Normface 參考論文:NormFace: L2 Hypersphere Embedding for Face Verification 這篇論文是一篇很有趣的文章,文章對於權重與特徵歸一化做了許多有趣的探討。文章提出,sphereface雖然好,但它不優美。在測試階段,sphereface透過特徵間的餘弦值來衡量相似性,即以角度為相似性度量。但在訓練過程中也有一個問題,權重沒有歸一化,loss 因此作者在最佳化的過程中,對特徵做了歸一化處理。對應的損失函數也如下所示: # 其中W和f都為歸一化的特徵,兩個點積就是角度餘弦值。參數s的引入是因為數學上的性質,保證了梯度大小的合理性,原文中有比較直觀的解釋,可以閱讀原論文,並不是重點。 s既可以變成可學習的參數,也可以變成超參,論文作者給了很多推薦值,可以在論文中找到。其實,FaceNet中歸一化的歐氏距離,和餘弦距離是統一的。 4. AM-softmax/CosFace #參考論文:Additive Margin Softmax for Face Verification CosFace: Large Margin Cosine Loss for Deep Face Recognition ##看上面的論文,會發現少了一個東西,那就是margin,或者說是margin的意味少了一些,所以AM-softmax在歸一化的基礎上有引入了margin。損失函數如下: 直覺來看,-m比更小,所以損失函數值比Normface裡的更大,因此有了margin的感覺。 m是一個超參數,控制懲罰,當m越大,懲罰越強。方法好的一點是容易復現,而且沒有很多調參的tricks,效果也很好。 與AM-softmax 相比,差別在於Arcface 引入margin 的方式不同,損失函數: 乍一看是不是跟AM-softmax一樣?注意 m 是在餘弦裡面。文章指出基於上式優化得到的特徵間的 boundary 更為優越,具有更強的幾何解釋。 然而這樣引入 margin 是否會有問題?仔細想 cos(θ m) 是否一定比 cos(θ) 小? 最後我們用文章中的圖來解釋這個問題,也由此做一個本章 Margin-based Classification 部分的總結。 這張圖出自Arcface,橫座標為θ 為特徵與類別中心的角度,縱座標為損失函數分子指數部分的值(不考慮s),其值越小損失函數越大。 看了這麼多基於分類的人臉辨識論文,相信你也有種感覺,大家似乎都在損失函數上做文章,或者更具體一點,大家都是在討論如何設計上圖的Target logit-θ 曲線。 這個曲線意味著你要如何最佳化偏離目標的樣本,或者說,根據偏離目標的程度,要給予多大的懲罰。兩點總結: 1. 太強的限制不容易泛化。例如 Sphereface 的損失函數在 m=3 或 4 的時候能滿足類別內最大距離小於類間最小距離的要求。此時損失函數值很大,即 target logits 很小。但並不代表能泛化到訓練集以外的樣本。施加太強的限制反而會降低模型效能,且訓練不易收斂。 2. 選擇最佳化什麼樣的樣本很重要。 Arcface 文章中指出,給予 θ∈[60° , 90°] 的樣本過多懲罰可能會導致訓練不收斂。優化 θ ∈ [30° , 60°] 的樣本可能會提高模型準確率,而過度優化 θ∈[0° , 30°] 的樣本則不會帶來明顯提升。至於更大角度的樣本,偏離目標太遠,強行優化很有可能會降低模型效能。 這也回答了上一節留下的疑問,上圖曲線 Arcface 後面是上升的,這無關緊要甚至還有好處。因為優化大角度的 hard sample 可能沒有好處。這和 FaceNet 中對於樣本選擇的 semi-hard 策略是一個道理。 1. A discriminative feature learning approach for deep face recognition [14] 提出了center loss,加權整合進原始的softmax loss。透過維護一個歐式空間類別中心,縮小類內距離,增強特徵的 discriminative power。 2. Large-margin softmax loss for convolutional neural networks [10] Sphereface 作者的前一篇文章,未歸一化權重,在 softmax loss 中引入了 margin。裡面也牽涉到 Sphereface 的訓練細節。 人臉辨識演算法實作解釋 本文我們部署的人臉辨識演算法模型主要包括兩部分: 如下圖所示,整體演算法實現的流程分為線下和線上兩個部分,在每次對不同的人進行識別之前首先利用訓練好的演算法產生人臉標準底庫,將底庫資料保存在modelarts上。然後在每次推理的過程中,圖片輸入會經過人臉偵測模型和人臉辨識模型得到人臉特徵,然後基於該特徵在底庫中搜尋相似對最高的特徵,完成人臉辨識的過程。 在實作過程中,我們採用了基於Retinaface resnet50 arcface的演算法完成人臉影像的特徵擷取,其中Retinaface作為偵測模型,resnet50 arcface作為特徵提取模型。 在鏡像中,執行訓練的腳本有兩個,分別對應人臉偵測的訓練和人臉辨識的訓練。 該腳本的啟動指令為 其中model_output_path為模型輸出的路徑,data_path為人臉偵測訓練集的輸入路徑,輸入的圖片路徑結構如下: 此腳本的啟動指令為 其中model_output_path為模型輸出的路徑, data_path為人臉偵測訓練集的輸入路徑,輸入的圖片路徑結構如下: 此腳本的啟動指令為:
公式的改造,間接實現了對feature 層施加margin 的限制,使網路最後得到的feature 更discriminative。
function在訓練過程中減小的同時,會使得權重的模越來越大,所以sphereface損失函數的優化方向並不是很嚴謹,其實優化的方向還有一部分去增大特徵的長度了。有部落客做實驗發現,隨著m的增加,座標的尺度也不斷增加,如下圖所示。
(1)ArcFace使用ModelArts訓練人臉模型
run_face_detection_train.sh
<span style="color: rgb(111, 66, 193); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">sh</span> run_face_detection_train.sh data_path model_output_path
detection_train_data/train/images/label.txtval/images/label.txttest/images/label.txt
run_face_recognition_train.sh
<span style="color: rgb(111, 66, 193); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">sh</span> run_face_recognition_train.sh data_path model_output_path
recognition_train_data/cele.idxcele.lstcele.recproperty
run_generate_data_base.sh
<span style="color: rgb(111, 66, 193); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">sh</span> run_generate_data_base.sh data_path detect_model_path recognize_model_path db_output_path
其中data_path為底庫輸入路徑,detect_model_path為偵測模型輸入路徑,recognize_model_path為辨識模型輸入路徑,db_output_path為底庫輸出路徑。
run_face_recognition.sh
該腳本的啟動指令為:
<span style="color: rgb(111, 66, 193); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">sh</span> run_generate_data_base.sh data_path db_path detect_model_path recognize_model_path
其中data_path為測試圖片輸入路徑,db_path為底庫路徑,detect_model_path為偵測模型的輸入路徑,recognize_model_path為辨識模型的輸入路徑
#訓練過程華為雲端ModelArts有訓練作業的功能,可以用來作模型訓練以及對模型訓練的參數和版本進行管理。這個功能對於多版本迭代開發的開發者有一定的幫助。訓練作業中有預設的一些鏡像和演算法,目前對於常用的框架均有預置鏡像(包括Caffe, MXNet, Pytorch, TensorFlow )和華為自己的昇騰晶片的引擎鏡像(Ascend-Powered-Engine)。
本文我們會基於ModelArts的自訂鏡像特性,上傳自己在本機調試完畢的完整鏡像,利用華為雲端的GPU資源訓練模型。
我們是想在華為雲上的ModelArts基於網站上常見的明星的資料訓練完成一個人臉辨識模型。在這個過程中,由於人臉辨識網路是工程師自己設計的網路結構,所以需要透過自訂鏡像進行上傳。所以整個人臉訓練的過程分為以下九個步驟:
#建置本機Docker環境
Docker環境可以在本機電腦上進行構建,也可以在華為雲上購買一台彈性雲伺服器進行Docker環境建置。全過程參考Docker官方的文件進行:
https://docs.docker.com/engine/install/binaries/#install-static-binaries
#從華為雲端下載基礎鏡像
官網說明網址:
https://support.huaweicloud.com/engineers -modelarts/modelarts_23_0085.html#modelarts_23_0085__section19397101102
我們訓練需要使用到的是MXNet的環境,首先需要從華為雲上下載相對應的自訂鏡像的基礎鏡像。官網給的下載指令如下:
在訓練作業基礎映像的規格裡,找到了這個指令的解釋。
https://support.huaweicloud.com/engineers-modelarts/modelarts_23_0217.html
根據我們的腳本要求,我使用的是cuda9的映像:
官方也給了另一種方法,就是使用docker file的。基礎映像的dockerfile也是在訓練作業基礎映像的規格裡找到的。可以參考一下的dockerfile:
https://github.com/huaweicloud/ModelArts-Lab/tree/master/docs/custom_image/custom_base
#根據自己需求建立自訂映像環境
因為比較懶,所以還是沒有使用Dockerfile的方式自己建構鏡像。我採用的是另一種方式!
因為我們的需求就是cuda 9 還有一些相關的python依賴包,假設官方的鏡像提供的是cuda 9的,我們大可以在訓練腳本中跟著這個教程加一個requirement.txt。簡單高效快速就能解決需求! ! !以下是教學~~~
https://support.huaweicloud.com/modelarts_faq/modelarts_05_0063.html
#上傳自訂鏡像到SWR
官網教學:
#上傳鏡像的頁面寫著,檔案解壓縮後不得超過2GB。但是官方提供的基礎鏡像就3.11GB,我們加上需要的預訓練的模型後鏡像是5 GB,所以不能使用頁面進行上傳的工作,必須使用客戶端。上傳鏡像首先要建立組織,
如果覺得產品文件理解還是比較難,可以試試看SWR頁面的pull/push鏡像體驗:
這裡後面引導了客戶如何將本地鏡像推上雲端,第一步是登陸倉庫:
第二步拉取鏡像,這個我們就用自己打的自訂鏡像代替,
第三步修改組織,使用根據產品文件建立的組織名。在這一步驟需要將本地的一個鏡像重新命名為雲上識別的鏡像命。具體看下圖解釋:
第四步驟推送鏡像,
當熟練這四步驟技巧的時候,可以脫離這個教程,使用客戶端進行上傳。使用客戶端登陸然後上傳。客戶端登陸可以使用產生臨時docker loging指令。這個頁面在」我的映像「-> 」客戶端上傳「->」產生臨時docker login指令「中:
##在本機docker環境中,使用這個產生的臨時docker login指令登陸後,使用下面的指令進行上傳映像:
使用華為雲端訓練作業進行訓練華為雲端ModelArts提供訓練作業給使用者進行模型訓練。在訓練作業中有預置鏡像和可以選擇自訂鏡像。預置的鏡像包含市面上大部分框架,沒有特殊要求的時候,使用這些框架的鏡像進行訓練也是很方便的。本次測試還是使用的自訂鏡像。
自訂鏡像中不僅需要在映像中進行配置自己的環境,假如改變了訓練作業啟動的方式,還需要修改訓練的啟動腳本。從華為雲端ModelArts官網拉取下來的官方鏡像的/home/work/路徑下有一個啟動腳本”run_train.sh”,自訂的啟動腳本需要基於這個腳本進行修改。主要是要注意 “dls_get_app”,這個是從OBS下載相關的指令。其他的部分則根據自己的訓練腳本進行修改。
如果需要上傳訓練結果或模型到OBS,需要參考」dls_get_app」加上」dls_upload_model」的指令。在我們這次訓練中,上傳的腳本如下:
#訓練作業進行偵錯的時候,目前可以使用免費提供的一小時V100。 ModelArts的訓練作業一個比較好的地方是方便了我們版本管理。版本中會記錄所有透過運行參數傳入到訓練腳本裡的所有參數,也可以使用版本比較進行參數比較。還有個比較方便的地方是可以基於某一個版本進行修改,減少了重新輸入所有參數這一步驟,比較方便調試。
在訓練作業中訓練完成後,也可以在ModelArts中進行模型部署上線。
後記目前針對人臉辨識演算法的最佳化已經到達一個瓶頸期,但是在技術層面針對人臉臉部結構的相似性、人臉的姿態、年齡變化、複雜環境的光照變化、人臉的飾物遮擋等還面臨這很多的問題,因此基於多種演算法技術的融合解決人臉辨識中的各種問題仍然在安防、互聯網中有著巨大的市場。另外,隨著人臉支付的逐漸完善,人臉辨識系統也應用於銀行、商場等等,因此人臉辨識的安全問題和防攻擊問題也是一個亟待解決的問題,例如活體偵測、3D臉部辨識等等。
最後,人臉辨識作為目前深度學習中應用比較成熟的項目,其發展也與深度學習本身技術發展息息相關,目前在許多優化上,深度學習最大的缺點是沒有相應的數學理論支撐,優化所提升的性能也很有限,因此對深度學習演算法本身的研究也是未來的重點。
以上是一文看懂人臉辨識演算法技術發展脈絡的詳細內容。更多資訊請關注PHP中文網其他相關文章!