2021年11月,微軟發布了一個多模態視覺基礎模型Florence(佛羅倫薩),橫掃超過40個基準任務,輕鬆適用於如分類、目標檢測、VQA、看圖說話、視頻檢索和動作識別等多個任務。
時隔一年半,Florence正式開啟商用階段!
最近,微軟全球人工智慧首席技術長黃學東官宣布了微軟 Florence 基礎模型的公開預覽版。
Florence模型經過數十億文字-圖像對的訓練,目前已整合進Azure 認知視覺服務中,在「價格」和「表現」上都已到達「生產環境」的要求,目前處於免費試用階段。
改進後的視覺服務使開發人員能夠在不同行業創建前沿的、適應市場的、負責任的電腦視覺應用程式。客戶可以將他們的數據無縫地數位化、分析並連接到自然語言的交互中,從圖像和視頻內容中獲取更精確的信息,保護用戶遠離有害內容,增強安全性,並提升事件響應速度。
Florence的實際能力也很強大,使用者可以在Vision Studio中進行「開箱即用」的體驗。
體驗網址:https://portal.vision.cognitive.azure.com/gallery/featured
具體包括:
# Dense Captions(詳細的描述):可以自動提供內容豐富的描述資訊、設計建議、可存取的替代文字、搜尋引擎優化、智慧照片管理等以支援數位化內容。
圖像檢索:使用自然語言查詢,無縫地度量圖像和文字之間的相似性,從而改善搜尋推薦和廣告。
背景移除:可以方便地從原始背景中分割出人物和物體,並替換為其他背景場景,從而改變影像的外觀和感覺。
模型客製化:降低交付客製化模型的成本和時間,能夠以更高精度來匹配獨特的業務需求,即便只有少量的可用影像。
影片摘要:搜尋和互動影片內容,與人類同樣直觀的方式進行思考和寫作。可以協助找到相關內容,並且不需要額外的元資料。
Reddit消費品產品經理Tiffany Ong表示,透過微軟的Vision技術,可以使用戶更容易發現和理解Reddit上的內容。
新建立的圖片描述可以讓使用者更容易存取Reddit,使用圖像描述來幫助用戶提高文章的搜尋結果,讓Reddit用戶有更多機會來探索網站上的圖片,參與對話,並最終建立聯繫和社區感知。
Florence能夠為每張圖片產生多達10000個標籤,使得Reddit能夠更好地控制圖片中的物件數量,並幫助產生更好的影像描述。
Microsoft 365
除了微軟資料中心之外,微軟也正在提升Microsoft 365應用程式(包括Teams、 PowerPoint、 Outlook、 Word、 Designer、 OneDrive)中視覺服務的能力。
在影像分割能力的幫助下,Teams正在推動數位空間的創新型,把虛擬會議的體驗提升到新高度。
PowerPoint、 Outlook和Word利用自動替換文字的圖像描述來提高可訪問性。
Microsoft Designer和OneDrive正在使用改進的圖像描述、圖像搜尋和背景生成來簡化圖像的可發現性和編輯。
Microsoft資料中心正在利用Vision Services來增強安全性和基礎架構的可靠性。
LinkedIn的無障礙工程負責人Jennison Asuncon表示,LinkedIn上有超過40%的貼文包含至少一張圖片,對於盲人或低視力的使用者來說,視覺服務能夠讓所有使用者都有平等的閱讀機會,並使他們能夠參與線上對話。
透過Azure視覺認知服務,LinkedIn可以提供自動圖像描述來編輯和支援可選文本,這是一種全新的體驗。
不僅我對此感到興奮,我的同事剛剛分享了一個他們參加活動的照片,LinkedIn的執行長Ryan Roslansky也在照片裡。
負責任地創新
回顧負責任的人工智慧原則,可以了解到微軟是如何致力於開發人工智慧系統,以提升世界的可訪問性。
微軟致力於幫助各個組織充分利用人工智慧,並正在大力投資於提供技術、資源和專業知識的項目,以增強那些致力於創造一個更永續、更安全和更容易進入的世界的人的能力。
包括微軟、Google在內的多個科技巨頭在人工智慧發展方向上出奇地一致,認為「多模態模型」是提高人工智慧系統能力的最佳途徑,也就是單一模型可以同時理解語言、圖像、視訊和音訊等,並且能夠完成單模態模型無法完成的任務,例如為視訊添加文字描述等。
為什麼不把幾個「單模態」模型串在一起,以達到同樣的目的,比如說用一個模型來理解圖像,而另一個模型用來理解語言?
第一個原因是,由其他模態提供的背景信息,多模態模型可以在某些情況下比單模態模型在同一任務中表現得更好。
比如說,一個能夠理解圖像、定價數據和購買歷史的人工智慧助理可以比一個「只理解定價數據」的AI能夠提供更好的個人化產品建議。
並且從計算的角度來看,多模態模型往往更有效率,可以提升資料處理的速度,降低後端的成本。
毫無疑問,所有商業公司都渴望降本增效。
Florence能夠理解圖像、視訊和語言以及這些模態之間的關係,從而可以做到一些單模態無法完成的任務,例如測量圖像和文字之間的相似度,分割照片中的對象,然後把它們貼到另一個背景上。
幾乎所有AI模型的訓練都面臨數據版權問題,Azure AI的企業副總裁(CVP)John Montgomery在回答有關“Florence的訓練數據”時沒有透露太多信息,只是說Florence使用的是「負責任地取得」的資料來源,包括來自合作夥伴的資料;此外,Montgomery表示,訓練資料中刪除了可能有問題的內容,也是公開訓練資料集的常見特點。
Montgomery認為,當使用大型基礎模型時,最重要的是要確保訓練資料集的質量,為每個視覺任務的適應模型創建基礎,微軟針對每個視覺任務的調整模型都經過了公平性、對抗性和挑戰性案例的測試,並實現了與Azure Open AI Service 和DALL-E 相同的內容審核服務。
在未來,消費者可以使用Florence做更多的事情,例如偵測製造過程中的缺陷,以及在零售店實現自助結帳。
不過Montgomery指出這些用例實際上並不需要多模態視覺模型,但他斷言,多模態在這個過程中可以增加一些有價值的東西。
Florence是一個經過「完全重新思考」的視覺模型,一旦在圖像和文字之間實現了簡單且高品質的翻譯過程,就會打開一個全新的、充滿未知可能性的世界。
客戶能夠體驗到顯著改進的圖像搜索,將圖像和視覺模型以及語言和語音等其它模型類型訓練成全新類型的應用,並輕鬆提高自定義模型的質量。
以上是微軟贏麻了!數十億文字-圖像對訓練,多模態Florence開啟免費體驗,登上Azure的詳細內容。更多資訊請關注PHP中文網其他相關文章!