簡介
人工通用智慧(AGI)可以被認為是一個人工智慧系統,它能夠像人類一樣理解、處理和回應智力任務。這是一項具有挑戰性的任務,需要深入了解人腦的工作方式,以便我們能夠複製它。然而,ChatGPT的出現引起了研究界對開發此類系統的巨大興趣。微軟已經發布了這樣一個由AI驅動的關鍵系統,名為HuggingGPT(Microsoft Jarvis)。
在深入了解HuggingGPT的新內容以及它工作原理的相關細節之前,讓我們先了解ChatGPT的問題,以及為什麼它在解決複雜的AI任務方面很困難。像ChatGPT這樣的大型語言模型擅長於解釋文字資料和處理一般任務。然而,它們經常在特定任務中掙扎,並可能產生荒謬的反應。你可能在解決複雜的數學問題時遇到來自ChatGPT的虛假答案。另一方面,我們有專家級的AI模型,如Stable Diffusion和DALL-E等,它們對各自的學科領域有更深入的了解,但在更廣泛的任務上卻舉步維艱。除非我們在LLM和專業AI模型之間建立起聯繫,否則我們無法完全利用LLM的潛力來解決具有挑戰性的AI任務。這就是HuggingGPT所做的,它結合了兩者的優勢,創造了更有效、更準確、更多的AI系統。
什麼是HuggingGPT?
根據微軟最近發表的一篇論文,HuggingGPT利用LLM的強大功能,把它作為控制器,將其與機器學習社群(HuggingFace)中的各種AI模型連接起來,使它能夠使用外部工具,以提高工作效率。 HuggingFace是一個為開發人員和研究人員提供大量工具和資源的網站。它還擁有各種各樣的專業和高精確度的模型。 HuggingGPT將這些模型用於不同領域和模式的複雜AI任務,從而取得了令人印象深刻的結果。在涉及文字和圖像時,它具有與OPenAI GPT-4類似的多模式功能。但是,它也將你連接到互聯網上,你可以提供一個外部Web連結來詢問有關問題。
假設你想讓模型對寫在圖像上的文字進行音訊閱讀。 HuggingGPT將使用最適合的模型串行地執行這項任務。首先,它將從圖像中導出文本,並將其結果用於音頻生成。可以在下面的圖片中查看回應詳細資訊。簡直太神奇了!
對視訊和音訊模式的多模式合作進行定性分析
HuggingGPT是如何運作的?
HuggingGPT是一個協作系統,它使用LLM作為接口,向專家模型發送使用者請求。從使用者提示到模型直到收到回應的完整過程可以分解為以下不連續的步驟:
1.任務規劃
在這個階段,HuggingGPT利用ChatGPT來理解使用者的提示,然後將查詢分解為小的可操作任務。它還確定了這些任務的依賴關係,並定義了它們的執行順序。 HuggingGPT有四個插槽用於任務解析,分別是任務類型、任務ID、任務依賴性和任務參數。 HuggingGPT和用戶之間的聊天記錄被記錄下來並顯示在顯示資源歷史的螢幕上。
2.模型選擇
基於使用者環境和可用的模型,HuggingGPT使用一個情境中的任務-模型分配機制,為一個特定的任務選擇最合適的模型。根據這個機制,模型的選擇被認為是單選題,它最初根據任務的類型篩選出模型。之後,根據下載次數對模型進行排名,因為它被認為是反映模型品質的可靠措施。 Top-K模型是根據這個排名選擇的。這裡的K只是一個反映模型數量的常數,例如,如果它被設定為3,那麼它將選擇下載次數最多的3個模型。
3.任務執行
在這裡,任務被指派給一個特定的模型,它對其進行推理並傳回結果。為了提高這個過程的效率,HuggingGPT可以同時運行不同的模型,只要它們不需要相同的資源。例如,如果給出一個提示,產生貓和狗的圖片,那麼不同的模型可以並行運行來執行這個任務。然而,有時模型可能需要相同的資源,這就是為什麼HuggingGPT會維護一個
4.產生回應
最後一步是產生對使用者的回應。首先,它整合了前幾個階段的所有資訊和推理結果。這些資訊以一種結構化的格式呈現。例如,如果提示是檢測影像中獅子的數量,它將繪製具有偵測機率的適當的邊界框。然後,LLM(ChatGPT)使用這種格式,並以人類友好的語言呈現它。
設定HuggingGPT
HuggingGPT建立在Hugging Face最先進的GPT-3.5架構之上,它是一個深度神經網路模型,可以產生自然語言文字。以下是如何在本機上設定它的步驟:
系統需求
預設設定需要Ubuntu 16.04 LTS,至少24GB的VRAM,至少12GB(最小)、16GB(標準)或80GB (完整)的RAM,以及至少284GB的磁碟空間。此外,需要42GB的空間用於damo-vilab/text-to-video-ms-1.7b,126GB用於ControlNet,66GB用於stable-diffusion-v1-5,50GB用於其他資源。對於「lite」配置,只需要Ubuntu 16.04 LTS。
開始使用的步驟
首先,將server/configs/config.default.yaml檔案中的OpenAI Key和Hugging Face Token替換為你的金鑰。或者,你可以將它們分別放在環境變數OPENAI_API_KEY和HUGGINGFACE_ACCESS_TOKEN中
執行以下命令:
對於Server:
- #設定Python環境並安裝所需的依賴項。
<code># 设置环境cd serverconda create -n jarvis pythnotallow=3.8conda activate jarvisconda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidiapip install -r requirements.txt</code>
- 下載所需的模型。
<code># 下载模型。确保`git-lfs`已经安装。cd modelsbash download.sh # required when `inference_mode` is `local` or `hybrid`.</code>
- 執行伺服器
<code># 运行服务器cd ..python models_server.py --config configs/config.default.yaml # required when `inference_mode` is `local` or `hybrid`python awesome_chat.py --config configs/config.default.yaml --mode server # for text-davinci-003</code>
現在你可以透過傳送HTTP請求到Web API端點來存取Jarvis的服務。發送請求到:
- /hugginggpt端點,使用POST方法存取完整的服務。
- /tasks端點,使用POST方法存取階段1的中間結果。
- /results端點,使用POST方法存取階段1-3的中間結果。
這些請求應該是JSON格式的,應該包括代表使用者輸入的資訊清單。
對於Web:
- 在伺服器模式下啟動應用程式awesome_chat.py後,在電腦上安裝node js和npm。
- 導覽至web目錄並安裝以下相依性:
<code>cd webnpm installnpm run dev</code>
- #將http://{LAN_IP_of_the_server}:{port}/設定為web/src/config/ index.ts的HUGGINGGPT_BASE_URL,以防你在其他機器上執行Web客戶端。
- 如果要使用影片產生功能,請使用H.264手動編譯ffmpeg。
<code># 可选:安装 ffmpeg# 这个命令需要在没有错误的情况下执行。LD_LIBRARY_PATH=/usr/local/lib /usr/local/bin/ffmpeg -i input.mp4 -vcodec libx264 output.mp4</code>
- 雙擊設定圖標,切換回ChatGPT。
對於CLI:
使用CLI設定Jarvis是非常簡單的。只需執行下面提到的命令:
<code>cd serverpython awesome_chat.py --config configs/config.default.yaml --mode cli</code>
對於Gradio:
Gradio演示也在Hugging Face Space上託管。你可以在輸入OPENAI_API_KEY和HUGGINGFACE_ACCESS_TOKEN後進行試驗。
要在本地運行它:
- 安裝所需的依賴項,從Hugging Face Space複製專案儲存庫,然後導航到專案目錄
- 使用以下命令啟動模型伺服器,然後啟動Gradio演示:
<code>python models_server.py --config configs/config.gradio.yamlpython run_gradio_demo.py --config configs/config.gradio.yaml</code>
- 在瀏覽器中透過http://localhost:7860存取演示,並透過輸入各種輸入進行測試
- 作為選擇,你也可以透過執行以下命令以Docker映像的形式運行該演示:
<code>docker run -it -p 7860:7860 --platform=linux/amd64 registry.hf.space/microsoft-hugginggpt:latest python app.py</code>
注意:如果有任何問題,請參考官方Github Repo(https://github. com/microsoft/JARVIS)。
最後的思考
HuggingGPT也有某些需要在此強調一下的限制。例如,系統的效率是一個主要瓶頸,在前面提到的所有階段,HuggingGPT都需要與LLM進行多次互動。這些互動會導致使用者體驗的降低和延遲的增加。同樣,最大的上下文長度也受到允許的令牌數量的限制。另一個問題是系統的可靠性,因為LLM可能會誤解提示並產生錯誤的任務序列,這反過來又會影響整個過程。儘管如此,它在解決複雜的AI任務方面具有很大的潛力,並且是AGI的一個很好的進步。一起期待這項研究會把AI的未來帶往哪個方向吧!
以上是HuggingGPT:處理AI任務的神奇工具的詳細內容。更多資訊請關注PHP中文網其他相關文章!

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版
SublimeText3 Linux最新版

記事本++7.3.1
好用且免費的程式碼編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中