首頁 >科技週邊 >人工智慧 >超越法學碩士:這就是為什麼小語言模型是人工智慧的未來

超越法學碩士:這就是為什麼小語言模型是人工智慧的未來

Jennifer Aniston
Jennifer Aniston原創
2024-12-13 15:53:02443瀏覽

快速連結

摘要
  • Open AI、Google、Microsoft 和Meta 等大公司正在投資SLM。
  • SLM 在整個行業中越來越受歡迎,並且更適合作為未來的人工智慧。
  • SLM 的範例包括 Google Nano、Microsoft 的 Phi-3 和 Open AI 的 GPT-4o mini。

大型語言模型 (LLM) 隨著 Open AI 的 ChatGPT 的發布而出現。從那時起,有幾家公司也推出了 LLM,但現在越來越多的公司傾向於小語言模型 (SLM)。

SLM 勢頭強勁,但它們是什麼,與 LLM 有何不同?

什麼是小語言模型?

小語言模型(SLM)是一種參數較少的人工智慧模型(將其視為訓練期間學習的模型中的值)。與大型同類產品一樣,SLM 可以產生文字並執行其他任務。然而,SLM 使用較少的資料集進行訓練,參數較少,並且需要較少的運算能力來訓練和運行。

SLM 專注於關鍵功能,其佔用空間小意味著它們可以部署在不同的設備上,包括那些沒有行動裝置等高階硬體。例如,Google 的 Nano 是一個從頭開始建置的裝置上 SLM,可在行動裝置上運作。據該公司稱,由於尺寸較小,Nano 可以在有或沒有網路連接的情況下在本地運行。

small language model gemini nano use examples
Google> 🎜>
除了Nano,還有很多來自AI 領域領先和新興公司的其他 SLM。一些受歡迎的 SLM 包括 Microsoft 的 Phi-3、OpenAI 的 GPT-4o mini、Anthropic 的 Claude 3 Haiku、Meta 的 Llama 3 和 Mistral AI 的 Mixtral 8x7B。
還有其他選項,您可能認為是 LLM,但實際上它們是SLM。考慮到大多數公司正在採用多模型方法,在其產品組合中發布不只一種語言模型,同時提供 LLM 和 SLM,這一點尤其正確。一個例子是 GPT-4,它有多種型號,包括
GPT-4、GPT-4o (Omni) 和 GPT-4o mini

小語言模型與大型語言模型

在討論 SLM 時,我們不能忽略它們的大對應物:LLM。 SLM 和 LLM 之間的關鍵區別在於模型大小,它是根據參數來衡量的。

截至撰寫本文時,人工智慧產業對於最大數量尚未達成共識模型的參數數量不應超過被視為 SLM 的參數或被視為 LLM 所需的最小數量。然而,SLM 通常有數百萬到數十億個參數,而 LLM 則更多,高達數萬億個。

例如,2020 年發布的GPT-3 有1750 億個參數(而據傳GPT-4 模型的數量約為1.76 兆),而微軟的2024 Phi-3-mini、Phi-3 -small 和Phi-3-medium SLM 分別測量3.8、7 和140 億個參數。

SLM 和 LLM 之間的另一個區別因素是用於訓練的資料量。 SLM 使用少量資料進行訓練,而 LLM 使用大型資料集。這種差異也會影響模型解決複雜任務的能力。

由於訓練中使用的資料量很大,LLM 更適合解決需要高階推理的不同類型的複雜任務,而 SLM 更適合解決更簡單的任務任務。與 LLM 不同,SLM 使用較少的訓練數據,但所使用的數據必須具有更高的質量,才能在一個小包中實現 LLM 中的許多功能。

為什麼小語言模型是未來

對於大多數用例,SLM 更有能力成為公司和消費者用來執行各種任務的主流模型。當然,法學碩士有其優勢,並且更適合某些用例,例如解決複雜的任務。然而,由於以下原因,SLM 是大多數用例的未來。

1. 降低訓練與維修成本

季莫菲耶夫弗拉基米爾/Shutterstock

SLM 比 LLM 需要更少的培訓數據,這使得它們成為培訓數據、財務或兩者都有限的個人和中小型公司最可行的選擇。 LLM 需要大量的訓練數據,進而需要大量的運算資源來訓練和運作。

為了正確看待這一點,OpenAI 的首席執行官Sam Altman 證實,他們的訓練花費了超過1 億美元GPT-4 在麻省理工學院的一次活動中發表演講時(根據連線)。另一個例子是 Meta 的 OPT-175B LLM。 Meta 表示它是使用 992 個 NVIDIA A100 80GB GPU 進行訓練的,根據 CNBC 每台成本約為 10,000 美元。這樣一來,成本大約為 900 萬美元,還不包括能源、工資等其他費用。

依照這樣的數字,中小型公司培養 LLM 是不可行的。相較之下,SLM 在資源方面的進入門檻較低,營運成本也較低,因此,更多的公司會接受它們。

2. 更好的效能

A person talking to their phone with the ChatGPT icon hovering over the screen.
GB> Shutterstock

性能是 SLM 因其緊湊的尺寸而擊敗 LLM 的另一個領域。 SLM 的延遲更短,更適合需要更快回應的場景,例如即時應用程式。例如,在數位助理等語音回應系統中,更快的回應是首選。

在裝置上運行(稍後將詳細介紹)也意味著您的請求不必訪問線上伺服器並返回到回應您的查詢,從而獲得更快的回應。

3. 更準確

A phone screen with the ChatGPT logo and an 'x,' and the Claude logo blurred in the background. >Shutterstock

當談到生成式人工智慧時,有一件事保持不變:垃圾進,垃圾出。目前的法學碩士已經使用原始網路數據的大型數據集進行了培訓。因此,它們可能並非在所有情況下都是準確的。這是ChatGPT和類似模型的問題之一,也是為什麼你不應該相信人工智慧聊天機器人所說的一切。另一方面,SLM 使用比 LLM 更高品質的資料進行訓練,因此具有更高的準確性。

SLM 還可以透過針對特定任務或領域的集中訓練來進一步微調,從而在這些任務或領域中獲得更高的準確性與更大、更通用的模型相比。

4. 可以在設備上運行

small language model mockup on smartphone
皮特漢森/Shutterstock

SLM 比 LLM 需要更少的運算能力,因此是邊緣運算案例的理想選擇。它們可以部署在智慧型手機和自動駕駛汽車等邊緣設備上,這些設備沒有大量的運算能力或資源。谷歌的 Nano 模型可以在設備上運行,即使沒有有效的互聯網連接也可以工作。

這種能力為公司和消費者帶來了雙贏的局面。首先,這是隱私的勝利,因為用戶資料是在本地處理而不是發送到雲端,這一點很重要,因為更多的人工智慧被整合到我們的智慧型手機中,幾乎包含了我們的所有細節。這對公司來說也是一個勝利,因為他們不需要部署和運行大型伺服器來處理人工智慧任務。

SLM 正在獲得動力,其中最大的行業參與者,如 Open AI、Google、Microsoft、 Anthropic 和 Meta 發布了此類模型。這些模型更適合更簡單的任務,這也是我們大多數人使用法學碩士的目的;因此,他們是未來。

但是法學碩士不會去任何地方。相反,它們將用於高級應用程序,結合不同領域的資訊來創建新的東西,例如醫學研究。

以上是超越法學碩士:這就是為什麼小語言模型是人工智慧的未來的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn