首頁 >科技週邊 >人工智慧 >Llama 3 與 GPT-4:哪個比較好?

Llama 3 與 GPT-4:哪個比較好?

William Shakespeare
William Shakespeare原創
2024-12-13 16:24:00767瀏覽

快速連結

Llama 3 和 GPT-4 是兩種可供大眾使用的最先進的大語言模型 (LLM)。讓我們透過在多模態、上下文長度、效能和成本方面比較這兩種模型來看看哪個 LLM 更好。

什麼是 GPT-4?

Asking GPT-4o using ChatGPT

GPT-4是OpenAI開發的最新大語言模型(LLM)。它建立在舊版 GPT-3 模型的基礎上,同時使用不同的訓練技術和使用更大資料集的最佳化。這顯著增加了 GPT-4 的參數大小,據傳 GPT-4 的較小專家模型總共有 1.7 兆個參數。透過新的訓練、最佳化和更多參數,GPT-4 在推理、解決問題、上下文理解和更好地處理細微指令方面提供了改進。

此模型目前有三種變體:

  • GPT-4: GPT-3 的演變,在速度、準確性和知識庫方面有了顯著改進。
  • GPT-4 Turbo: GPT-4 的最佳化版本,旨在提供更快的效能,同時降低營運成本。
  • GPT-4o (Omni): 透過整合多模式輸入和輸出(包括文字、視覺和音訊)來擴展 GPT-4 的功能。

您現在可以透過訂閱OpenAI 的API 服務、與ChatGPT 互動或透過Descript、Perplexity AI 和來自Microsoft 的各種copilots 等服務來存取所有三個GPT-4 模型.

駱駝 3 是什麼?

Asking Llama 3 using chat

Llama 3 是由Meta AI(Facebook、Instagram 和WhatsApp 的母公司)開發的開源法學碩士,使用監督微調、拒絕抽樣和策略優化相結合的方式進行訓練,並使用包括數百萬個在內的多樣化資料集進行訓練。人工註解的範例。其訓練重點是高品質的提示和偏好排名,旨在創建一個多功能且有能力的AI模型。

目前有兩個Llama 3模型可供大眾使用:Llama 3 8B和Llama 3 70B。 「B」代表十億,指的是模型的參數大小。 Meta 也正在訓練 Llama 3 400B 模型,預計 2024 年底推出。

您可以透過其產生人工智慧聊天機器人 Meta AI 存取 Llama 3。或者,您可以透過下載 Llama 3 模型並透過 Ollama、Open WebUI 或 LM Studio 載入它們,在電腦上本地運行 LLM。

多模態

GPT-4o的發表終於實現了具有多模式能力的GPT-4的初步行銷。現在可以透過使用 GPT-4o 模型與 ChatGPT 互動來存取這些多模式功能。截至 2024 年 6 月,GPT-4o 沒有任何產生視訊和音訊的整合方式。然而,它確實具有基於視訊和音訊輸入生成文字和圖像的功能。

Llama 3 也計劃為即將推出的 Llama 3 400B 提供多模式模型。它很可能會整合與 CLIP(對比語言成像器預訓練)類似的技術,以使用零樣本學習技術產生影像。但由於 Llama 400B 仍處於訓練階段,8B 和 70B 模型產生影像的唯一方法是使用 LLaVa、Visual-LLaMA 和 LLaMA-VID 等擴展。截至目前,Llama 3 純粹是基於語言的模型,可以將文字、圖像和音訊作為輸入來產生文字。

上下文長度

上下文長度是指模型一次可以處理的文字量。在考慮法學碩士的能力時,這是一個重要因素,因為它決定了模型在與使用者互動時可以使用的上下文量。一般來說,上下文長度越高,LLM 就越好,因為它提供了更高層次的連貫性、連續性,並且可以減少互動過程中錯誤的重複。

Model

Training Data Description

Params

Context Length

GQA

Token Count

Knowledge Cutoff

Llama 3

Mix of publicly available online data

8B

8k

Yes

15T

March, 2023

Llama 3

Mix of publicly available online data

70B

8k

Yes

15T

December, 2023

模型
訓練資料描述 參數 上下文長度 GQA 令牌計數 知識截止
Llama 3 公開線上資料的混合 8B 8k 15T 2023年3 月
駱駝3 公開線上資料的混合 70B 8k 15T 2023 年12 月

Llama 3 模型的上下文長度有效為 8,000 個標記(約 6,400 個單字)。這意味著 Llama 3 模型將在您的互動中記憶大約 6,400 個單字的上下文。超過 8,000 個令牌限制的任何單字都將被遺忘,並且在互動過程中不會提供任何進一步的上下文。

多模式旗艦型號,比 GPT-4 Turbo 更便宜、更快。

Model

Description

Context Window

Training Data

GPT-4o

Multimodal flagship model, cheaper and faster than GPT-4 Turbo.

128,000 tokens (API)

Up to Oct 2023

GPT-4-Turbo

Streamlined GPT-4 Turbo model with vision capabilities.

128,000 tokens (API)

Up to Dec 2023

GPT-4

First GPT-4 model

8,192 tokens

Up to Sep 2021

Model
描述 上下文視窗 訓練資料
GPT-4o 128,000 個代幣(API) 截至2023 年10 月
GPT- 4-Turbo 流線型 GPT-4 Turbo 型號具有視覺功能。 128,000 個代幣(API) 截至2023 年12 月 GPT-4 第一個GPT-4 模型 8,192 個代幣 截至2021 年9 月 td>

相較之下,GPT-4 現在支援ChatGPT 使用者的上下文長度明顯更大,為32,000 個令牌(約25,600 個單字),為使用API​​ 端點的使用者支援128,000 個令牌(約102,400 個單字)。這使得 GPT-4 模型在管理廣泛的對話以及閱讀長文件甚至整本書的能力方面具有優勢。

效能

讓我們透過查看Llama 3 2024 年4 月18 日的Meta AI 基準報告GPT-4 2024 年5 月14 日的GitHub 報告來比較性能由OpenAI 提供。以下是結果:

Model

MMLU

GPQA

MATH

HumanEval

DROP

GPT-4o

88.7

53.6

76.6

90.2

83.4

GPT-4 Turbo

86.5

49.1

72.2

87.6

85.4

Llama3 8B

68.4

34.2

30.0

62.2

58.4

Llama3 70B

82.0

39.5

50.4

81.7

79.7

Llama3 400B

86.1

48.0

57.8

84.1

83.5

模型
MMLU GPQA 數學 HumanEval DROP
GPT-4o 88.7 53.6 76.6 90.2 83.4
GPT-4渦輪 86.5 49.1 72.2 87.6 85.4
Llama3 8B 68.4 34.2 30.0 62.2 58.4
Llama3 70B 82.0 39.5 50.4 81.7 79.7 /td>
Llama3 400B 86.1 48.0 57.8 84.1 83.5

以下是每個標準的評估內容:

  • MMLU(大規模多任務語言理解): 評估模型理解和回答各種學術問題的能力科目。
  • GPTQA(一般問答): 評估模型回答開放域事實問題的技能
  • 數學: 測驗模型的能力解決數學問題。
  • HumanEval: 衡量模型根據人類給定的程式設計提示產生正確程式碼的能力。
  • DROP(段落離散推理): 評估模型根據文本段落執行離散推理和回答問題的能力。

最近的基準測試突顯了 GPT-4 和 Llama 3 模型之間的效能差異。儘管 Llama 3 8B 模型似乎明顯落後,但 70B 和 400B 模型在學術和常識、閱讀和理解、推理和邏輯以及 GPT-4o 和 GPT-4 Turbo 模型方面提供了較低但相似的結果。編碼。然而,在純數學方面,Llama 3 模型的表現還無法接近 GPT-4。

成本

成本是關鍵許多使用者的因素。 OpenAI 的 GPT-4o 模型向所有 ChatGPT 用戶免費提供,每 3 小時限制 16 個訊息。如果您需要更多,則必須訂閱 ChatGPT Plus,每月花費 20 美元,將 GPT-4o 的訊息限制擴展到 80 條,同時還可以存取其他 GPT-4 模型。

開啟另一方面,Llama 3 8B 和70B 型號都是免費和開源的,這對於尋求經濟高效的解決方案而不影響性能的開發人員和研究人員來說是一個顯著的優勢。表演。

可訪問性

GPT-4 模型可透過 OpenAI 的 ChatGPT 生成式 AI 聊天機器人及其 API 廣泛存取。您也可以在 Microsoft Copilot 上使用 GPT-4,這是免費使用 GPT-4 的一種方式。這種廣泛的可用性確保用戶可以在不同的用例中輕鬆利用其功能。相較之下,Llama 3 是一個開源項目,提供模型靈活性並鼓勵人工智慧社群內更廣泛的實驗和協作。這種開放取用方法可以使人工智慧技術民主化,使其可供更廣泛的受眾使用。

雖然兩種模型都很容易取得,但 GPT-4 更容易使用,因為它整合到了流行的生產力工具和服務中。另一方面,Llama 3 主要整合到 Amazon Bedrock、Ollama 和 DataBricks 等研究和商業平台(Meta AI 聊天輔助除外),這對更大的非技術用戶市場沒有吸引力。

GPT-4 與 Llama 3:哪個比較好?

那麼,哪個LLM比較好呢?我不得不說 GPT-4 是更好的 LLM。 GPT-4 在多模態方面表現出色,具有處理文字、影像和音訊輸入的高級功能,而 Llama 3 的類似功能仍在開發中。 GPT-4 還提供了更大的上下文長度和更好的性能,並且可以透過流行的工具和服務廣泛訪問,使其更加用戶友好。

但是,重要的是要強調 Llama 3 模型的表現非常出色一個免費的開源專案。因此,Llama 3 仍然是一位傑出的法學碩士,因其免費和開源的性質而受到研究人員和企業的青睞,同時提供令人印象深刻的性能、靈活性和可靠的隱私功能。雖然普通消費者可能不會立即使用 Llama 3,但它仍然是許多研究人員和企業最可行的選擇。

總而言之,儘管GPT-4 因其先進的多模態功能、更大的上下文長度和Llama 3 無縫集成到廣泛使用的工具中,以其開源特性提供了有價值的替代方案,允許更大程度的客製化和節省成本。因此,就應用而言,GPT-4 非常適合那些尋求模型的易用性和全面功能的人,而 Llama 3 則非常適合尋求靈活性和適應性的開發人員和研究人員。

以上是Llama 3 與 GPT-4:哪個比較好?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn