本周四,美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。
据介绍,Inflection-2.5将结合强大的LLM技术和Inflection独有的“同理心微调”特性,综合了高情商和高智商的特点。它可以通过联网获取事实信息,性能媲美GPT-4和Gemini等领先的大型模型。
Inflection-2.5 现已向所有 Pi 用户开放,可在 PC 端、iOS 和安卓 App 上免费使用。机器之心简单测试后发现,与GPT-4相比仍有一定差距,但仍值得一试。感兴趣的用户可以自行体验。
链接:https://pi.ai/talk
值得注意的是,Inflection-2.5 实现了接近 GPT-4 的性能,而训练过程却仅使用 GPT-4 40% 的算力。
Inflection AI指出,新一代大型模型在智能编码和数学等领域取得了显著进展。这些进展将转化为对关键行业基准的具体改进,从而确保Pi一直站在技术的前沿。另外,Pi还整合了世界一流的实时网络搜索功能,以确保用户能够获得高质量的突发新闻和最新资讯。
Inflection-2.5 vs GPT-4
Inflection-1 训练使用的 FLOP 约为 GPT-4 的 4%,在各种「IQ 导向」型任务中,其平均性能约为 GPT-4 水平的 72%。现在,Inflection-2.5 尽管只使用 GPT-4 40% 的 FLOP 来进行训练,但其平均性能却达到了 GPT-4 的 94% 以上。如下图所示,Inflection-2.5 的性能取得了全面的显著提升,其中 STEM 领域知识的改进最大。
Inflection-2.5 在两项不同 STEM 考试 —— 匈牙利数学考试、物理学研究生入学考试(GRE)—— 的成绩如下:
如下表所示,该研究还在 MMLU 基准、GPQA Diamond 基准上评估了 Inflection-2.5。MMLU 基准涵盖 STEM、人文、社会科学等领域的 57 个学科,能够有效地测试 LLM 的综合知识能力,而 GPQA Diamond 基准是一个极其困难的专家级基准。
在 BIG-Bench-Hard 基准上,Inflection-2.5 比 Inflection-1 性能提高了 10% 以上,并且可与 GPT-4 相媲美。BIG-Bench-Hard 基准主要涵盖大型语言模型难以解决的问题。
该研究还在 MT-Bench 基准上进行了评估。然而,研究团队意识到该基准在推理、数学和编码类别中有很大一部分(近 25%)的样本示例具有不正确的参考解决方案或前提有缺陷。因此,该研究更正了这些示例,并再次进行评估实验,结果如下表所示:
在 GSM8k 和 MATH 基准上的评估结果表明,Inflection-2.5 在数学和编码能力方面比 Inflection-1 有显著改进:
为了进一步测试 Inflection-2.5 的编码能力,该研究在 MBPP 和 HumanEval 两个编码基准上进行了评估实验,结果如下表所示:
研究團隊在 HellaSwag 和 ARC-C、以及各種模型常識和科學基準上評估了 Inflection-2.5。從下圖結果來看,Inflection-2.5 在這些基準上實現了強勁性能。
此外,以上所有評估都是使用現在支援 Pi 的模型完成的。但也需要注意,由於網路檢索(上述基準沒有使用網路檢索)、few-shot 提示的結構以及其他生產方面的影響,使用者體驗可能略有差異。
總的來說,Inflection-2.5 保持了 Pi「走心」的特性和極高的安全標準,成為了一個更全面的有用模型。
最近一段時間,大語言模式的技術競爭進入了白熱化階段,在眾多科技公司中,Mistral AI(Mistral Large )、Anthropic(Claude 3)脫穎而出,提出的新技術實現了與GPT-4、Gemini Ultra 接近的能力。昨天出現的 Inflection-2.5,似乎也要加入第一梯隊的行列。
身為矽谷明星新創公司,Inflection AI 的來頭不小,它成立與2022 年,三位共同創辦人分別是原DeepMind 共同創辦人Mustafa Suleyman、Linkedln 共同創辦人Reid Hoffman,還有前DeepMind 首席科學家Karen Simonyan。
去年6 月,Inflection AI 宣布獲得13 億美元融資,由微軟、英偉達以及Reid Hoffman、比爾・蓋茨、谷歌前CEO艾瑞克・施密特領投。目前,Inflection AI 已成為全球第四大生成式 AI 新創公司。
以上是挑戰OpenAI的新模型免費上線,40%計算量表現逼近GPT-4的詳細內容。更多資訊請關注PHP中文網其他相關文章!

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver CS6
視覺化網頁開發工具

WebStorm Mac版
好用的JavaScript開發工具

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

記事本++7.3.1
好用且免費的程式碼編輯器