搜尋
首頁科技週邊人工智慧挑戰OpenAI的新模型免費上線,40%計算量表現逼近GPT-4

本周四,美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。

据介绍,Inflection-2.5将结合强大的LLM技术和Inflection独有的“同理心微调”特性,综合了高情商和高智商的特点。它可以通过联网获取事实信息,性能媲美GPT-4和Gemini等领先的大型模型。

Inflection-2.5 现已向所有 Pi 用户开放,可在 PC 端、iOS 和安卓 App 上免费使用。机器之心简单测试后发现,与GPT-4相比仍有一定差距,但仍值得一试。感兴趣的用户可以自行体验。

挑戰OpenAI的新模型免費上線,40%計算量表現逼近GPT-4

链接:https://pi.ai/talk

值得注意的是,Inflection-2.5 实现了接近 GPT-4 的性能,而训练过程却仅使用 GPT-4 40% 的算力。

Inflection AI指出,新一代大型模型在智能编码和数学等领域取得了显著进展。这些进展将转化为对关键行业基准的具体改进,从而确保Pi一直站在技术的前沿。另外,Pi还整合了世界一流的实时网络搜索功能,以确保用户能够获得高质量的突发新闻和最新资讯。

Inflection-2.5 vs GPT-4

Inflection-1 训练使用的 FLOP 约为 GPT-4 的 4%,在各种「IQ 导向」型任务中,其平均性能约为 GPT-4 水平的 72%。现在,Inflection-2.5 尽管只使用 GPT-4 40% 的 FLOP 来进行训练,但其平均性能却达到了 GPT-4 的 94% 以上。如下图所示,Inflection-2.5 的性能取得了全面的显著提升,其中 STEM 领域知识的改进最大。

挑戰OpenAI的新模型免費上線,40%計算量表現逼近GPT-4

Inflection-2.5 在两项不同 STEM 考试 —— 匈牙利数学考试、物理学研究生入学考试(GRE)—— 的成绩如下:

挑戰OpenAI的新模型免費上線,40%計算量表現逼近GPT-4

如下表所示,该研究还在 MMLU 基准、GPQA Diamond 基准上评估了 Inflection-2.5。MMLU 基准涵盖 STEM、人文、社会科学等领域的 57 个学科,能够有效地测试 LLM 的综合知识能力,而 GPQA Diamond 基准是一个极其困难的专家级基准。

挑戰OpenAI的新模型免費上線,40%計算量表現逼近GPT-4

在 BIG-Bench-Hard 基准上,Inflection-2.5 比 Inflection-1 性能提高了 10% 以上,并且可与 GPT-4 相媲美。BIG-Bench-Hard 基准主要涵盖大型语言模型难以解决的问题。

挑戰OpenAI的新模型免費上線,40%計算量表現逼近GPT-4

该研究还在 MT-Bench 基准上进行了评估。然而,研究团队意识到该基准在推理、数学和编码类别中有很大一部分(近 25%)的样本示例具有不正确的参考解决方案或前提有缺陷。因此,该研究更正了这些示例,并再次进行评估实验,结果如下表所示:

挑戰OpenAI的新模型免費上線,40%計算量表現逼近GPT-4

在 GSM8k 和 MATH 基准上的评估结果表明,Inflection-2.5 在数学和编码能力方面比 Inflection-1 有显著改进:

挑戰OpenAI的新模型免費上線,40%計算量表現逼近GPT-4

为了进一步测试 Inflection-2.5 的编码能力,该研究在 MBPP 和 HumanEval 两个编码基准上进行了评估实验,结果如下表所示:

挑戰OpenAI的新模型免費上線,40%計算量表現逼近GPT-4

研究團隊在 HellaSwag 和 ARC-C、以及各種模型常識和科學基準上評估了 Inflection-2.5。從下圖結果來看,Inflection-2.5 在這些基準上實現了強勁性能。

挑戰OpenAI的新模型免費上線,40%計算量表現逼近GPT-4

此外,以上所有評估都是使用現在支援 Pi 的模型完成的。但也需要注意,由於網路檢索(上述基準沒有使用網路檢索)、few-shot 提示的結構以及其他生產方面的影響,使用者體驗可能略有差異。

總的來說,Inflection-2.5 保持了 Pi「走心」的特性和極高的安全標準,成為了一個更全面的有用模型。

最近一段時間,大語言模式的技術競爭進入了白熱化階段,在眾多科技公司中,Mistral AI(Mistral  Large )、Anthropic(Claude 3)脫穎而出,提出的新技術實現了與GPT-4、Gemini Ultra 接近的能力。昨天出現的 Inflection-2.5,似乎也要加入第一梯隊的行列。

身為矽谷明星新創公司,Inflection AI 的來頭不小,它成立與2022 年,三位共同創辦人分別是原DeepMind 共同創辦人Mustafa Suleyman、Linkedln 共同創辦人Reid Hoffman,還有前DeepMind 首席科學家Karen Simonyan。

挑戰OpenAI的新模型免費上線,40%計算量表現逼近GPT-4

去年6 月,Inflection AI 宣布獲得13 億美元融資,由微軟、英偉達以及Reid Hoffman、比爾・蓋茨、谷歌前CEO艾瑞克・施密特領投。目前,Inflection AI 已成為全球第四大生成式 AI 新創公司。

以上是挑戰OpenAI的新模型免費上線,40%計算量表現逼近GPT-4的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
如何使用Huggingface Smollm建立個人AI助手如何使用Huggingface Smollm建立個人AI助手Apr 18, 2025 am 11:52 AM

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析Apr 18, 2025 am 11:49 AM

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭Apr 18, 2025 am 11:44 AM

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

Python內置數據結構的綜合指南 - 分析VidhyaPython內置數據結構的綜合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

與替代方案相比,Openai新型號的第一印象與替代方案相比,Openai新型號的第一印象Apr 18, 2025 am 11:41 AM

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

AI投資組合|如何為AI職業建立投資組合?AI投資組合|如何為AI職業建立投資組合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

代理AI對安全操作可能意味著什麼代理AI對安全操作可能意味著什麼Apr 18, 2025 am 11:36 AM

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

Google與Openai:AI為學生打架Google與Openai:AI為學生打架Apr 18, 2025 am 11:31 AM

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
威爾R.E.P.O.有交叉遊戲嗎?
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器