要重新寫內容而不改變原意,需要將語言改寫為中文,不需要出現原句
審校| 重樓的內容需要進行改寫
近幾個月來,生成式人工智慧憑藉其創造獨特的文字、聲音和圖像的能力引起了人們的極大興趣。然而,生成式人工智慧的潛力並不僅限於創造新的數據
生成式人工智慧的底層技術(如Transformer和擴散模型)可以為許多其他應用提供動力,包括資訊的搜尋和發現。特別是,生成式人工智慧可以徹底改變圖像搜索,使人們能夠以以前不可能的方式瀏覽視覺資訊
以下是人們需要知道的關於生成式人工智慧如何重新定義圖像搜尋體驗的內容。
圖像和文字嵌入
傳統的圖像搜尋方法依賴圖像附帶的文字描述、標記和其他元數據,這將用戶的搜尋選項限制為已明確附加到影像中的資訊。上傳圖像的人必須認真考慮輸入的搜尋查詢類型,以確保他們的圖像能夠被他人發現。而在搜尋圖像時,查詢資訊的使用者必須嘗試想像圖像上傳者可能在圖像中添加了什麼樣的描述
俗話說,「一圖勝千言」。然而對於圖像的描述來說,可以編寫的內容是有限的。當然,根據人們查看圖像的方式,可以採用許多方式來描述。而人們有時會根據圖中的物體進行搜索,有時會根據風格、光線、位置等特徵搜尋影像。不幸的是,影像很少伴隨著如此豐富的資訊。許多人上傳的許多圖像幾乎沒有附帶任何訊息,這使得它們很難在搜尋中被發現。
人工智慧影像搜尋在這方面發揮了重要作用。人工智慧圖像搜尋有多種方法,不同的公司都擁有自己的專有技術。然而,也有一些技術是這些公司共同擁有的
人工智慧圖像搜尋和許多其他深度學習系統的核心是嵌入。嵌入是對不同資料型別進行數值表示的方法。例如,512×512解析度的影像包含約26萬個像素(或特徵)。嵌入模型透過對數百萬張圖像進行訓練,學習視覺資料的低維表示。圖像嵌入可以應用於許多有用的領域,包括圖像壓縮、生成新圖像或比較不同圖像的視覺屬性
同樣的機制適用於文字等其他形式。文本嵌入模型是文本摘錄內容的低維表示。文本嵌入有許多應用,包括用於大型語言模型(LLM)的相似性搜尋和檢索增強。
人工智慧圖像搜尋的工作原理
但是,當圖像和文字嵌入一起訓練時,事情變得更加有趣。像LAION這樣的開源資料集包含數以百萬計的圖像及其對應的文字描述。當文字和圖像嵌入在這些圖像/標題對進行聯合訓練或微調時,它們會學習視覺和文字訊息之間的關聯。這就是深度學習技術背後的思想,例如對比圖像語言預訓練(CLIP)。
對比圖像語言預訓練(CLIP)模型學習文字和圖像的聯合嵌入
現在,我們有了可以將文字轉換為視覺嵌入的工具。當我們為這個聯合模型提供文字描述時,它會產生文字嵌入和相應的圖像嵌入。然後,我們可以將影像嵌入與資料庫中的影像進行比較,並檢索與之最相關的影像。這就是人工智慧圖像搜尋的基本原理
這種機制的美妙之處在於,用戶將能夠基於圖像視覺特徵的文字描述檢索圖像,即使這一描述沒有在其元資料中註冊。你可以使用豐富的搜尋字詞,這在以前是不可能實現的,例如「鬱鬱蔥蔥的森林籠罩著晨霧,燦爛的陽光透過高大的松林,草地上生長著一些蘑菇。」
在上面的範例中,人工智慧搜尋傳回了一組圖像,其視覺特徵與這個查詢相符。其中許多的文字描述都沒有包含查詢的關鍵字。但它們的嵌入與查詢的嵌入相似。如果沒有人工智慧圖像搜索,要找到合適的圖像就會困難得多。
從發現到創造
有時,人們尋找的圖像並不存在,甚至透過人工智慧搜尋也無法找到它。在這種情況下,生成式人工智慧可以透過兩種方式之一幫助使用者實現預期的結果。
首先,我們可以根據使用者的查詢從頭開始建立一個新的映像。這種方法涉及使用文字到圖像生成模型(例如Stable Diffusion或DALL-E),為使用者的查詢創建一個嵌入,並利用該嵌入生成圖像。生成模型會利用對比影像語言預訓練(CLIP)等聯合嵌入模型和其他架構(例如Transformer或擴散模型),將嵌入的數值轉換為令人驚嘆的影像
DALL-E使用對比圖像語言預訓練(CLIP)和擴散從文字生成圖像
第二種方法是利用現有的圖像,並根據個人喜好使用生成模型進行編輯。例如,在一張展示松林的圖片中,草地上缺少了蘑菇。使用者可以選擇一張合適的圖像作為起點,並透過生成模型將蘑菇添加進去
# 生成式人工智慧創造了一個全新的範例,模糊了發現和創造力之間的界線。而在單一介面中,使用者可以尋找圖像、編輯圖像或建立全新的圖像。
原文標題:#How generative AI is redefining image search#,作者:Ben Dickson
以上是生成式人工智慧如何重新定義影像搜索的詳細內容。更多資訊請關注PHP中文網其他相關文章!

儘管它無法提供訓練有素的治療師的人類聯繫和直覺,但研究表明,許多人很樂意與相對無面和匿名的AI機器人分享他們的擔憂和擔憂。 這是否總是好我

人工智能(AI)是一種技術數十年的技術,正在徹底改變食品零售業。 從大規模的效率提高和成本降低到精簡的各種業務功能的流程,AI的影響是Undeniabl

讓我們來談談。 對創新的AI突破的分析是我正在進行的AI中正在進行的《福布斯》列覆蓋範圍的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。此外,對於我的comp

保持專業形象需要偶爾的衣櫃更新。 在線購物方便時,它缺乏面對面嘗試的確定性。 我的解決方案? AI驅動的個性化。 我設想AI助手策劃服裝Selecti

谷歌翻譯新增語言學習功能 據Android Authority報導,應用專家AssembleDebug發現,最新版本的谷歌翻譯應用包含一個新的“練習”模式的測試代碼,旨在幫助用戶通過個性化活動來提高他們的語言技能。此功能目前對用戶不可見,但AssembleDebug能夠部分激活它並查看其一些新的用戶界面元素。 激活後,該功能會在屏幕底部添加一個新的“畢業帽”圖標,標有“Beta”徽章,表明“練習”功能最初將以實驗形式發布。 相關的彈出提示顯示“練習為你量身定制的活動!”,這意味著谷歌將生成定制的

麻省理工學院的研究人員正在開發Nanda,這是為AI代理設計的開創性的Web協議。 Nanda的縮寫是網絡代理和分散的AI,通過添加Internet功能,使AI Agen能夠構建人類的模型上下文協議(MCP)。

Meta的最新冒險:與Chatgpt競爭的AI應用程序 Facebook,Instagram,WhatsApp和Threads的母公司Meta正在啟動新的AI功能應用程序。 這個獨立的應用程序Meta AI旨在直接與Openai的Chatgpt競爭。 槓桿

導航AI網絡攻擊的上升潮流 最近,CISO的傑森·克林頓(Jason Clinton)擬人化,強調了與非人類身份相關的新興風險 - 作為機器對機器的通信增殖,維護這些“身份”


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

禪工作室 13.0.1
強大的PHP整合開發環境

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

WebStorm Mac版
好用的JavaScript開發工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器