要重新寫內容而不改變原意,需要將語言改寫為中文,不需要出現原句
審校| 重樓的內容需要進行改寫
近幾個月來,生成式人工智慧憑藉其創造獨特的文字、聲音和圖像的能力引起了人們的極大興趣。然而,生成式人工智慧的潛力並不僅限於創造新的數據
生成式人工智慧的底層技術(如Transformer和擴散模型)可以為許多其他應用提供動力,包括資訊的搜尋和發現。特別是,生成式人工智慧可以徹底改變圖像搜索,使人們能夠以以前不可能的方式瀏覽視覺資訊
以下是人們需要知道的關於生成式人工智慧如何重新定義圖像搜尋體驗的內容。
傳統的圖像搜尋方法依賴圖像附帶的文字描述、標記和其他元數據,這將用戶的搜尋選項限制為已明確附加到影像中的資訊。上傳圖像的人必須認真考慮輸入的搜尋查詢類型,以確保他們的圖像能夠被他人發現。而在搜尋圖像時,查詢資訊的使用者必須嘗試想像圖像上傳者可能在圖像中添加了什麼樣的描述
俗話說,「一圖勝千言」。然而對於圖像的描述來說,可以編寫的內容是有限的。當然,根據人們查看圖像的方式,可以採用許多方式來描述。而人們有時會根據圖中的物體進行搜索,有時會根據風格、光線、位置等特徵搜尋影像。不幸的是,影像很少伴隨著如此豐富的資訊。許多人上傳的許多圖像幾乎沒有附帶任何訊息,這使得它們很難在搜尋中被發現。
人工智慧影像搜尋在這方面發揮了重要作用。人工智慧圖像搜尋有多種方法,不同的公司都擁有自己的專有技術。然而,也有一些技術是這些公司共同擁有的
人工智慧圖像搜尋和許多其他深度學習系統的核心是嵌入。嵌入是對不同資料型別進行數值表示的方法。例如,512×512解析度的影像包含約26萬個像素(或特徵)。嵌入模型透過對數百萬張圖像進行訓練,學習視覺資料的低維表示。圖像嵌入可以應用於許多有用的領域,包括圖像壓縮、生成新圖像或比較不同圖像的視覺屬性
同樣的機制適用於文字等其他形式。文本嵌入模型是文本摘錄內容的低維表示。文本嵌入有許多應用,包括用於大型語言模型(LLM)的相似性搜尋和檢索增強。
但是,當圖像和文字嵌入一起訓練時,事情變得更加有趣。像LAION這樣的開源資料集包含數以百萬計的圖像及其對應的文字描述。當文字和圖像嵌入在這些圖像/標題對進行聯合訓練或微調時,它們會學習視覺和文字訊息之間的關聯。這就是深度學習技術背後的思想,例如對比圖像語言預訓練(CLIP)。
對比圖像語言預訓練(CLIP)模型學習文字和圖像的聯合嵌入
現在,我們有了可以將文字轉換為視覺嵌入的工具。當我們為這個聯合模型提供文字描述時,它會產生文字嵌入和相應的圖像嵌入。然後,我們可以將影像嵌入與資料庫中的影像進行比較,並檢索與之最相關的影像。這就是人工智慧圖像搜尋的基本原理
這種機制的美妙之處在於,用戶將能夠基於圖像視覺特徵的文字描述檢索圖像,即使這一描述沒有在其元資料中註冊。你可以使用豐富的搜尋字詞,這在以前是不可能實現的,例如「鬱鬱蔥蔥的森林籠罩著晨霧,燦爛的陽光透過高大的松林,草地上生長著一些蘑菇。」
#在上面的範例中,人工智慧搜尋傳回了一組圖像,其視覺特徵與這個查詢相符。其中許多的文字描述都沒有包含查詢的關鍵字。但它們的嵌入與查詢的嵌入相似。如果沒有人工智慧圖像搜索,要找到合適的圖像就會困難得多。
有時,人們尋找的圖像並不存在,甚至透過人工智慧搜尋也無法找到它。在這種情況下,生成式人工智慧可以透過兩種方式之一幫助使用者實現預期的結果。
首先,我們可以根據使用者的查詢從頭開始建立一個新的映像。這種方法涉及使用文字到圖像生成模型(例如Stable Diffusion或DALL-E),為使用者的查詢創建一個嵌入,並利用該嵌入生成圖像。生成模型會利用對比影像語言預訓練(CLIP)等聯合嵌入模型和其他架構(例如Transformer或擴散模型),將嵌入的數值轉換為令人驚嘆的影像
DALL-E使用對比圖像語言預訓練(CLIP)和擴散從文字生成圖像
第二種方法是利用現有的圖像,並根據個人喜好使用生成模型進行編輯。例如,在一張展示松林的圖片中,草地上缺少了蘑菇。使用者可以選擇一張合適的圖像作為起點,並透過生成模型將蘑菇添加進去
# 生成式人工智慧創造了一個全新的範例,模糊了發現和創造力之間的界線。而在單一介面中,使用者可以尋找圖像、編輯圖像或建立全新的圖像。
原文標題:#How generative AI is redefining image search#,作者:Ben Dickson
以上是生成式人工智慧如何重新定義影像搜索的詳細內容。更多資訊請關注PHP中文網其他相關文章!