搜尋
首頁科技週邊人工智慧清華系千億基座對話模型ChatGLM啟動內測,開源單卡版模型

ChatGPT 的發布,攪動了整個 AI 領域,各大科技公司、新創公司以及大學團隊都在跟進。近段時間,機器之心通報了多家新創公司、大學團隊的研究成果。

昨日,又一國產AI 對話大模型重磅登場:由清華技術成果轉化的公司智譜AI 基於GLM-130B 千億基座模型的ChatGLM 現已開啟邀請制內測。

值得一提的是,此次智譜 AI 也開源了中英雙語對話模型 ChatGLM-6B,支援在單張消費級顯示卡上進行推理使用。

清華系千億基座對話模型ChatGLM啟動內測,開源單卡版模型

#內測申請網址:chatglm.cn

據了解,ChatGLM 目前版本模型的能力提升主要來自獨特的千億基座模型GLM-130B。它是不同於 BERT、GPT-3 以及 T5 的架構,是一個包含多目標函數的自回歸預訓練模型。

2022 年8 月,清華大學聯合智譜AI 向研究界和工業界開放了擁有1300 億參數的中英雙語稠密模型GLM-130B,該模型有一些獨特的優點:

  • 雙語:同時支援中文和英文;
  • 高精度(英文):在公開的英文自然語言榜單LAMBADA、MMLU 和Big-bench-lite 上優於GPT-3 175B(API: davinci,基座模型)、OPT-175B 和BLOOM-176B;
  • 高精度(中文):在7 個零樣本CLUE 資料集和5 個零樣本FewCLUE 資料集上明顯優於ERNIE TITAN 3.0 260B 和YUAN 1.0-245B;
  • 快速推理:首個實現INT4 量化的千億模型,支援用一台4 卡3090 或8 卡2080Ti 伺服器進行快速且基本無損推理;
  • 可複現性:所有結果(超過30個任務)皆可透過我們的開源程式碼和模型參數復現;
  • 跨平台:支援在國產的海光DCU、華為昇騰910 和申威處理器及美國的英偉達晶片上進行訓練與推理。

如今, 參考ChatGPT 的設計思路,​​ChatGLM 在千億基座模型GLM-130B 中註入了代碼預訓練,透過有監督微調(Supervised Fine-Tuning)等技術實現人類意圖對齊。

機器之心獲得了內測邀請碼,這裡簡單和ChatGLM 進行了對話,效果如下:

清華系千億基座對話模型ChatGLM啟動內測,開源單卡版模型

它能夠理解「站CP」的實際涵義:

#給ChatGLM 一個數學問題試試:

清華系千億基座對話模型ChatGLM啟動內測,開源單卡版模型

自從學會了二元一次方程,像這種基礎的「雞兔同籠」問題就再也難不倒它了:

清華系千億基座對話模型ChatGLM啟動內測,開源單卡版模型

開源 ChatGLM-6B

ChatGLM-6B 是一個開源的、支援中英雙語問答的對話語言模型,並針對中文進行了最佳化。該模型基於 General Language Model (GLM) 架構,具有 62 億參數。結合模型量化技術,使用者可以在消費級的顯示卡上進行本地部署(INT4 量化等級下最低只需 6GB 記憶體)。 ChatGLM-6B 使用了和 ChatGLM 相同的技術,針對中文問答和對話進行了最佳化。經過約1T 標識符的中英雙語訓練,輔以監督微調、反饋自助、人類反饋強化學習等技術的加持,62 億參數的ChatGLM-6B 雖然規模不及千億模型,但大大降低了推理成本,提升了效率,並且已經能產生相當符合人類偏好的回答。

模型開源位址:https://github.com/THUDM/ChatGLM-6B

具體來說,ChatGLM-6B 具備以下特點:

  • 充分的中英雙語預訓練:ChatGLM-6B 在1:1 比例的中英語料上訓練了1T 的token 量,兼具雙語能力。
  • 優化的模型架構和大小:吸收 GLM-130B 訓練經驗,修正了二維 RoPE 位置編碼實現,使用傳統 FFN 結構。 6B(62 億)的參數大小,也使得研究者和個人開發者自己微調和部署 ChatGLM-6B 成為可能。
  • 較低的部署門檻:FP16 半精度下,ChatGLM-6B 需要至少13 GB 的顯存進行推理,結合模型量化技術,這一需求可以進一步降低到10GB(INT8 ) 和6GB(INT4),使得ChatGLM-6B 可以部署在消費級顯示卡上。
  • 更長的序列長度:相較於 GLM-10B(序列長度 1024),ChatGLM-6B 序列長度達 2048,支援更長對話和應用。
  • 人類意圖對齊訓練:使用了監督微調(Supervised Fine-Tuning)、反饋自助(Feedback Bootstrap)、人類反饋強化學習(Reinforcement Learning from Human Feedback)等方式,使模型初具理解人類指令意圖的能力。輸出格式為 markdown,方便展示。

不過由於ChatGLM-6B 模型的容量較小,不可避免的存在一些限制和不足,包括:

  • 相對較弱的模型記憶和語言能力。在面對許多事實性知識任務時,ChatGLM-6B 可能會產生不正確的訊息,也不太擅長邏輯類問題(如數學、程式設計)的解答。
  • 可能會產生有害說明或偏見的內容:ChatGLM-6B 只是一個初步與人類意圖對齊的語言模型,可能會產生有害、有偏見的內容。
  • 較弱的多輪對話能力:ChatGLM-6B 的上下文理解能力還不夠充分,在面對長答案生成和多輪對話的場景時,可能會出現上下文丟失和理解錯誤的情況。

GLM 團隊表示,ChatGLM 距離國際頂尖大模型研究和產品仍有一定差距,未來將持續研發並開源更新版本的 ChatGLM 和相關模型。 GLM 團隊也歡迎大家下載 ChatGLM-6B,基於它進行研究和(非商用)應用程式開發。

以上是清華系千億基座對話模型ChatGLM啟動內測,開源單卡版模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

AI分析師的崛起:為什麼這可能是AI革命中最重要的工作AI分析師的崛起:為什麼這可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境