搜尋
首頁科技週邊人工智慧超越法學碩士:這就是為什麼小語言模型是人工智慧的未來

快速連結

摘要
  • Open AI、Google、Microsoft 和Meta 等大公司正在投資SLM。
  • SLM 在整個行業中越來越受歡迎,並且更適合作為未來的人工智慧。
  • SLM 的範例包括 Google Nano、Microsoft 的 Phi-3 和 Open AI 的 GPT-4o mini。

大型語言模型 (LLM) 隨著 Open AI 的 ChatGPT 的發布而出現。從那時起,有幾家公司也推出了 LLM,但現在越來越多的公司傾向於小語言模型 (SLM)。

SLM 勢頭強勁,但它們是什麼,與 LLM 有何不同?

什麼是小語言模型?

小語言模型(SLM)是一種參數較少的人工智慧模型(將其視為訓練期間學習的模型中的值)。與大型同類產品一樣,SLM 可以產生文字並執行其他任務。然而,SLM 使用較少的資料集進行訓練,參數較少,並且需要較少的運算能力來訓練和運行。

SLM 專注於關鍵功能,其佔用空間小意味著它們可以部署在不同的設備上,包括那些沒有行動裝置等高階硬體。例如,Google 的 Nano 是一個從頭開始建置的裝置上 SLM,可在行動裝置上運作。據該公司稱,由於尺寸較小,Nano 可以在有或沒有網路連接的情況下在本地運行。

small language model gemini nano use examples
Google> 🎜>
除了Nano,還有很多來自AI 領域領先和新興公司的其他 SLM。一些受歡迎的 SLM 包括 Microsoft 的 Phi-3、OpenAI 的 GPT-4o mini、Anthropic 的 Claude 3 Haiku、Meta 的 Llama 3 和 Mistral AI 的 Mixtral 8x7B。
還有其他選項,您可能認為是 LLM,但實際上它們是SLM。考慮到大多數公司正在採用多模型方法,在其產品組合中發布不只一種語言模型,同時提供 LLM 和 SLM,這一點尤其正確。一個例子是 GPT-4,它有多種型號,包括
GPT-4、GPT-4o (Omni) 和 GPT-4o mini

小語言模型與大型語言模型

在討論 SLM 時,我們不能忽略它們的大對應物:LLM。 SLM 和 LLM 之間的關鍵區別在於模型大小,它是根據參數來衡量的。

截至撰寫本文時,人工智慧產業對於最大數量尚未達成共識模型的參數數量不應超過被視為 SLM 的參數或被視為 LLM 所需的最小數量。然而,SLM 通常有數百萬到數十億個參數,而 LLM 則更多,高達數萬億個。

例如,2020 年發布的GPT-3 有1750 億個參數(而據傳GPT-4 模型的數量約為1.76 兆),而微軟的2024 Phi-3-mini、Phi-3 -small 和Phi-3-medium SLM 分別測量3.8、7 和140 億個參數。

small language models versus large language models chart
微軟

SLM 和 LLM 之間的另一個區別因素是用於訓練的資料量。 SLM 使用少量資料進行訓練,而 LLM 使用大型資料集。這種差異也會影響模型解決複雜任務的能力。

由於訓練中使用的資料量很大,LLM 更適合解決需要高階推理的不同類型的複雜任務,而 SLM 更適合解決更簡單的任務任務。與 LLM 不同,SLM 使用較少的訓練數據,但所使用的數據必須具有更高的質量,才能在一個小包中實現 LLM 中的許多功能。

為什麼小語言模型是未來

對於大多數用例,SLM 更有能力成為公司和消費者用來執行各種任務的主流模型。當然,法學碩士有其優勢,並且更適合某些用例,例如解決複雜的任務。然而,由於以下原因,SLM 是大多數用例的未來。

1. 降低訓練與維修成本

server raid configurations feature
季莫菲耶夫弗拉基米爾/Shutterstock

SLM 比 LLM 需要更少的培訓數據,這使得它們成為培訓數據、財務或兩者都有限的個人和中小型公司最可行的選擇。 LLM 需要大量的訓練數據,進而需要大量的運算資源來訓練和運作。

為了正確看待這一點,OpenAI 的首席執行官Sam Altman 證實,他們的訓練花費了超過1 億美元GPT-4 在麻省理工學院的一次活動中發表演講時(根據連線)。另一個例子是 Meta 的 OPT-175B LLM。 Meta 表示它是使用 992 個 NVIDIA A100 80GB GPU 進行訓練的,根據 CNBC 每台成本約為 10,000 美元。這樣一來,成本大約為 900 萬美元,還不包括能源、工資等其他費用。

依照這樣的數字,中小型公司培養 LLM 是不可行的。相較之下,SLM 在資源方面的進入門檻較低,營運成本也較低,因此,更多的公司會接受它們。

2. 更好的效能

A person talking to their phone with the ChatGPT icon hovering over the screen.
GB> Shutterstock

性能是 SLM 因其緊湊的尺寸而擊敗 LLM 的另一個領域。 SLM 的延遲更短,更適合需要更快回應的場景,例如即時應用程式。例如,在數位助理等語音回應系統中,更快的回應是首選。

在裝置上運行(稍後將詳細介紹)也意味著您的請求不必訪問線上伺服器並返回到回應您的查詢,從而獲得更快的回應。

3. 更準確

A phone screen with the ChatGPT logo and an 'x,' and the Claude logo blurred in the background. >Shutterstock

當談到生成式人工智慧時,有一件事保持不變:垃圾進,垃圾出。目前的法學碩士已經使用原始網路數據的大型數據集進行了培訓。因此,它們可能並非在所有情況下都是準確的。這是ChatGPT和類似模型的問題之一,也是為什麼你不應該相信人工智慧聊天機器人所說的一切。另一方面,SLM 使用比 LLM 更高品質的資料進行訓練,因此具有更高的準確性。

SLM 還可以透過針對特定任務或領域的集中訓練來進一步微調,從而在這些任務或領域中獲得更高的準確性與更大、更通用的模型相比。

4. 可以在設備上運行

small language model mockup on smartphone
皮特漢森/Shutterstock

SLM 比 LLM 需要更少的運算能力,因此是邊緣運算案例的理想選擇。它們可以部署在智慧型手機和自動駕駛汽車等邊緣設備上,這些設備沒有大量的運算能力或資源。谷歌的 Nano 模型可以在設備上運行,即使沒有有效的互聯網連接也可以工作。

這種能力為公司和消費者帶來了雙贏的局面。首先,這是隱私的勝利,因為用戶資料是在本地處理而不是發送到雲端,這一點很重要,因為更多的人工智慧被整合到我們的智慧型手機中,幾乎包含了我們的所有細節。這對公司來說也是一個勝利,因為他們不需要部署和運行大型伺服器來處理人工智慧任務。

SLM 正在獲得動力,其中最大的行業參與者,如 Open AI、Google、Microsoft、 Anthropic 和 Meta 發布了此類模型。這些模型更適合更簡單的任務,這也是我們大多數人使用法學碩士的目的;因此,他們是未來。

但是法學碩士不會去任何地方。相反,它們將用於高級應用程序,結合不同領域的資訊來創建新的東西,例如醫學研究。

以上是超越法學碩士:這就是為什麼小語言模型是人工智慧的未來的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新的最佳及時工程技術的年度彙編最新的最佳及時工程技術的年度彙編Apr 10, 2025 am 11:22 AM

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題

歐洲的AI大陸行動計劃:Gigafactories,Data Labs和Green AI歐洲的AI大陸行動計劃:Gigafactories,Data Labs和Green AIApr 10, 2025 am 11:21 AM

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。 一個關鍵要素是建立了AI Gigafactories網絡,每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟的直接代理商故事是否足以創造更多的粉絲?微軟的直接代理商故事是否足以創造更多的粉絲?Apr 10, 2025 am 11:20 AM

微軟對AI代理申請的統一方法:企業的明顯勝利 微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。 與許多技術公告陷入困境不同

向員工出售AI策略:Shopify首席執行官的宣言向員工出售AI策略:Shopify首席執行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

IBM啟動具有完整AI集成的Z17大型機IBM啟動具有完整AI集成的Z17大型機Apr 10, 2025 am 11:18 AM

IBM的Z17大型機:集成AI用於增強業務運營 上個月,在IBM的紐約總部,我收到了Z17功能的預覽。 以Z16的成功為基礎(於2022年推出並證明持續的收入增長

5 Chatgpt提示取決於別人並完全相信自己5 Chatgpt提示取決於別人並完全相信自己Apr 10, 2025 am 11:17 AM

解鎖不可動搖的信心,消除了對外部驗證的需求! 這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。 只需複制,粘貼和自定義包圍

AI與您的思想危險相似AI與您的思想危險相似Apr 10, 2025 am 11:16 AM

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相,展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。 窺探內部:Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展,該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼,而是理解它在人工神經元層面如何做到這一點。 想像一下,試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A

龍翼展示高通的邊緣動力龍翼展示高通的邊緣動力Apr 10, 2025 am 11:14 AM

高通的龍翼:企業和基礎設施的戰略飛躍 高通公司通過其新的Dragonwing品牌在全球範圍內積極擴展其範圍,以全球為目標。 這不僅僅是雷布蘭

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用