搜尋
首頁科技週邊人工智慧通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5

趕在春節前,通義千問大模型(Qwen)的 1.5 版上線了。今天上午,新版本的消息引發了 AI 社群關注。

新版大機型包括六個型號尺寸:0.5B、1.8B、4B、7B、14B和72B。其中,最強版本的效能超越了GPT 3.5和Mistral-Medium。此版本包含Base模型和Chat模型,並提供多語言支援。

阿里通義千問團隊表示,相關技術也已經上線到了通義千問官網和通義千問 App。

除此之外,今天Qwen 1.5 的發布還有以下一些重點:

  • ##支援32K 上下文長度;
  • 開放了Base Chat 模型的checkpoint;
  • 可與Transformers 一起本地運行;
  • ##同時發布了GPTQ Int-4 / Int8、AWQ 和GGUF 權重。
透過使用更先進的大型模型作為評委,通義千問團隊對Qwen1.5在兩個廣泛使用的基準MT-Bench和Alpaca-Eval上進行了初步評估。評估結果如下:

通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5

儘管Qwen1.5-72B-Chat 模型相對於GPT-4-Turbo 有些落後,但在MT-Bench 和Alpaca-Eval v2 上的測試中,它展現了令人矚目的性能。實際上,Qwen1.5-72B-Chat 在性能上超過了Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct 和TULU 2 DPO 70B 這些模型,與最近備受關注的Mistral Medium 模型相媲美。這顯示 Qwen1.5-72B-Chat 模式在自然語言處理方面具備了相當的實力。

通義千問團隊指出,儘管大模型的評分可能與回答的長度有關,但人類的觀察結果表明,Qwen1.5並沒有因為產生過長的回答而影響評分。根據AlpacaEval 2.0的數據,Qwen1.5-Chat的平均長度為1618,與GPT-4的長度相同,比GPT-4-Turbo短。

通義千問的開發者表示,近幾個月以來,他們一直致力於建立一個卓越的模型,並不斷提升開發者的使用體驗。

通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5

相較於以往版本,本次更新著重於提升了Chat 模型與人類偏好的對齊程度,並且顯著增強了模型的多語言處理能力。在序列長度方面,所有規模模型均已實現 32768 個 tokens 的上下文長度範圍支援。同時,預訓練 Base 模型的品質也有關鍵優化,預計在微調過程中為人們帶來更佳體驗。

基礎能力

關於模型基礎能力的評測,通義千問團隊在MMLU(5-shot)、C-Eval、 Humaneval、GS8K、BBH 等基準資料集上對Qwen1.5 進行了評估。

通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5

在不同模型尺寸下,Qwen1.5 都在評估基準中表現出強大的性能,72B 的版本在所有基準測試中都超越了Llama2-70B,展示了其在語言理解、推理和數學方面的能力。

最近一段時間,小型模型的建構是業內熱點之一,通義千問團隊將模型參數小於70 億的Qwen1.5 模型與社區中重要的小型模型進行了比較:

通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5

在參數規模低於70 億的範圍內Qwen1.5 與業界領先的小型模型相比具有很強的競爭力。

多語言能力

在來自歐洲、東亞和東南亞的12 種不同語言上,通義千問團隊評估了Base 模型的多語言能力。從開源社群的公開資料集中,阿里研究者建構如下表所示的評測集合,共涵蓋四個不同的維度:考試、理解、翻譯、數學。下表提供了每個測試集的詳細信息,包括其評測配置、評價指標以及所涉及的具體語言種類。

通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5

詳細的結果如下:

#

上述結果表明,Qwen1.5 Base 模型在12 種不同語言的多語言能力方面表現出色,在學科知識、語言理解、翻譯、數學等各個維度的評估中,均展現了不錯的結果。更進一步地,在Chat 模型的多語言能力上,可以觀察到如下結果:

通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5

長序列

隨著長序列理解的需求不斷增加,阿里在新版本上提升了千問模型的相應能力,全系列Qwen1.5 模型支援32K tokens 的上下文。通義千問團隊在 L-Eval 基準上評估了 Qwen1.5 模型的性能,該基準衡量了模型根據長上下文產生響應的能力。結果如下:

通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5

從結果來看,即使像Qwen1.5-7B-Chat 這樣的小規模模型,也能表現出與GPT -3.5 可比較的性能,而最大的模型Qwen1.5-72B-Chat 僅略微落後於GPT4-32k。

值得一提的是,以上結果僅展示了 Qwen 1.5 在 32K tokens 長度下的效果,並不代表模型最大隻能支持 32K 長度。開發者可以在 config.json 中,將 max_position_embedding 嘗試修改為更大的值,觀察模型在更長上下文理解場景下,是否可以實現令人滿意的效果。

連結外部系統

如今,通用語言模型的一大魅力在於其與外部系統對接的潛在能力。 RAG 作為一個在社群中快速興起的任務,有效應對了大語言模型面臨的一些典型挑戰,例如幻覺、無法取得即時更新或私人資料等問題。此外,語言模型在使用 API 和根據指令及範例編寫程式碼方面,展現出了強大的能力。大模型能夠使用程式碼解釋器或扮演 AI 智能體,發揮更廣闊的價值。

通義千問團隊對 Qwen1.5 系列 Chat 模型在 RAG 任務上的端到端效果進行了評估。評測基於RGB 測試集,是用於中英文RAG 評估的集合:

通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5

通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5

然後,通義千問團隊在T-Eval 基準測試中評估了Qwen1.5 作為通用智能體運作的能力。所有Qwen1.5 模型都沒有專門面向基準進行最佳化:

通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5

通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5

為了測試工具呼叫能力,阿里使用自身開源的評估基準測試模型正確選擇、呼叫工具的能力,結果如下:

通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5

#最後,由於Python 程式碼解釋器已成為高級LLM 越來越強大的工具,通義千問團隊也在先前開源的評估基準上評估了新模型利用這工具的能力:

通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5

結果表明,較大的Qwen1.5-Chat 模型通常優於較小的模型,其中Qwen1.5-72B-Chat 接近GPT-4 的工具使用效能。不過,在數學解題和視覺化等代碼解釋器任務中,即使是最大的 Qwen1.5-72B-Chat 模型也會因編碼能力而明顯落後於 GPT-4。阿里表示,將在未來的版本中,在預訓練和對齊過程中提高所有 Qwen 模型的編碼能力。

Qwen1.5 與 HuggingFace transformers 程式碼庫進行了整合。從 4.37.0 版本開始,開發者可以直接使用 transformers 庫原生程式碼,而不載入任何自訂程式碼(指定 trust_remote_code 選項)來使用 Qwen1.5。

在開源生態上,阿里已經與vLLM、SGLang(用於部署)、AutoAWQ、AutoGPTQ(用於量化)、Axolotl、LLaMA-Factory(用於微調)以及llama.cpp(用於本地LLM 推理)等框架合作,所有這些框架現在都支持Qwen1.5。 Qwen1.5 系列目前也可以在 Ollama 和 LMStudio 等平台上使用。

以上是通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
人工智能治療師在這裡:您需要了解的14個開創性的心理健康工具人工智能治療師在這裡:您需要了解的14個開創性的心理健康工具Apr 30, 2025 am 11:17 AM

儘管它無法提供訓練有素的治療師的人類聯繫和直覺,但研究表明,許多人很樂意與相對無面和匿名的AI機器人分享他們的擔憂和擔憂。 這是否總是好我

叫AI到雜貨店過道叫AI到雜貨店過道Apr 30, 2025 am 11:16 AM

人工智能(AI)是一種技術數十年的技術,正在徹底改變食品零售業。 從大規模的效率提高和成本降低到精簡的各種業務功能的流程,AI的影響是Undeniabl

從生成的AI中進行佩普談話來提升您的精神從生成的AI中進行佩普談話來提升您的精神Apr 30, 2025 am 11:15 AM

讓我們來談談。 對創新的AI突破的分析是我正在進行的AI中正在進行的《福布斯》列覆蓋範圍的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。此外,對於我的comp

為什麼AI驅動的超個性化是所有企業必須的為什麼AI驅動的超個性化是所有企業必須的Apr 30, 2025 am 11:14 AM

保持專業形象需要偶爾的衣櫃更新。 在線購物方便時,它缺乏面對面嘗試的確定性。 我的解決方案? AI驅動的個性化。 我設想AI助手策劃服裝Selecti

忘記Duolingo:Google Translate的新AI功能教授語言忘記Duolingo:Google Translate的新AI功能教授語言Apr 30, 2025 am 11:13 AM

谷歌翻譯新增語言學習功能 據Android Authority報導,應用專家AssembleDebug發現,最新版本的谷歌翻譯應用包含一個新的“練習”模式的測試代碼,旨在幫助用戶通過個性化活動來提高他們的語言技能。此功能目前對用戶不可見,但AssembleDebug能夠部分激活它並查看其一些新的用戶界面元素。 激活後,該功能會在屏幕底部添加一個新的“畢業帽”圖標,標有“Beta”徽章,表明“練習”功能最初將以實驗形式發布。 相關的彈出提示顯示“練習為你量身定制的活動!”,這意味著谷歌將生成定制的

他們正在為AI製作TCP/IP,這就是Nanda他們正在為AI製作TCP/IP,這就是NandaApr 30, 2025 am 11:12 AM

麻省理工學院的研究人員正在開發Nanda,這是為AI代理設計的開創性的Web協議。 Nanda的縮寫是網絡代理和分散的AI,通過添加Internet功能,使AI Agen能夠構建人類的模型上下文協議(MCP)。

提示:DeepFake檢測是一項蓬勃發展的業務提示:DeepFake檢測是一項蓬勃發展的業務Apr 30, 2025 am 11:11 AM

Meta的最新冒險:與Chatgpt競爭的AI應用程序 Facebook,Instagram,WhatsApp和Threads的母公司Meta正在啟動新的AI功能應用程序。 這個獨立的應用程序Meta AI旨在直接與Openai的Chatgpt競爭。 槓桿

接下來的兩年在AI網絡安全方面為業務領導者接下來的兩年在AI網絡安全方面為業務領導者Apr 30, 2025 am 11:10 AM

導航AI網絡攻擊的上升潮流 最近,CISO的傑森·克林頓(Jason Clinton)擬人化,強調了與非人類身份相關的新興風險 - 作為機器對機器的通信增殖,維護這些“身份”

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。