Mistral 的 Le Chat 在人工智能聊天机器人社区中越来越受欢迎,一些观察家将其标记为 ChatGPT 的潜在竞争对手。
但是这个刚刚起步的人工智能聊天机器人真的值得这个称号吗? Mistral 的 Le Chat 比 ChatGPT 更好吗?
Le Chat 是由法国人工智能初创公司 Mistral AI 开发的对话式人工智能聊天机器人。它由 Mistral 拥有的多种大型语言模型提供支持,包括 Mistral Large、Mistral Small 和 Mistral Next,您在与 AI 聊天机器人交互时可以选择使用所有这些模型。尽管它是人工智能聊天机器人领域相对较新的进入者,但由于其人工智能模型的性能,尽管与 Gemini 和 GPT-4 等行业重量级产品相比尺寸较小,但它仍获得了很高的评价。
要理解这意味着什么,想象一下您正在玩积木。您拥有的块越多,您可以构建的结构就越复杂和详细,对吗?人工智能语言模型有点类似。它们有大小,通常以参数计数表示。因此,您可能在 AI 模型中听说过“7B 参数”或“70B 参数”等术语。参数计数就像模型必须理解和生成响应的构建块的数量。因此,如果语言模型具有更多参数,它就可以理解并生成更复杂、更好的响应。
现在,GPT-4 估计有 1.76 万亿个参数,而 Mistral AI 估计有 7 到 560 亿个参数。看到尺寸差异了吗?因此,Mistral AI 能够提供不错的性能是其大肆宣传的原因之一。
虽然 Le Chat 不具备 ChatGPT 的宣传水平,也不具备 Gemini 等公司的品牌资产,但每当讨论潜在的 ChatGPT 竞赛时,它就会进入话题。但它值得在桌面上占有一席之地吗?
我也有同样的疑问,为了找到答案,我对 Le Chat 进行了广泛测试,看看它与 ChatGPT 相比如何。
创造力是判断对话式 AI 聊天机器人性能的最重要指标之一。请记住,人工智能聊天机器人的目的是大规模复制或模仿人类的对话能力和创造力。这使得创造力对于任何人工智能聊天机器人来说都是一个非常重要的优势。全世界已经对 ChatGPT 进行了一年多的试验,其创造能力是不可否认的。但 Le Chat 相比如何呢?我们对这两个聊天机器人进行了一系列创造力测试。
我首先问两个聊天机器人:“你会如何向艺术家描述自己?”测试他们使用创造性和富有想象力的词语来概念化自己的能力。
ChatGPT 会如何向艺术家描述自己:
Le Chat 也会这样描述自己:
两种回答都适合他们自己独特的方式。 ChatGPT更注重用生动的图像和隐喻来描述自己,展现创意天赋。另一方面,Le Chat 的回应信息非常丰富,并且重点描述了其作为人工智能聊天机器人的本质。有些人可能会说它缺乏 ChatGPT 的回应所展现的创意天赋和艺术方法。然而,我会大胆地说,相对于 ChatGPT 的抽象描述,我更喜欢 Le Chat 更容易想象的回应。
然后,我要求 ChatGPT 和 Le Chat 写一首关于通过种植黄瓜致富的说唱歌曲——这是一个棘手的请求,我们用它来测试其他聊天机器人的创造力。您在网上能找到多少首关于黄瓜的说唱歌曲?
这是 ChatGPT 的回复:
这是 Le Chat 的回复:
這可能是主觀問題,但 ChatGPT 的回應似乎是更好的選擇。 Le Chat 的歌詞看起來很冗長,讀起來不像饒舌歌手會寫出來的東西。為了測試這兩個歌詞如果被製作成音樂的話聽起來如何,我們使用Suno AI音樂生成器從歌詞生成音樂。在三分之三的試驗中,ChatGPT 的歌詞聽起來好多了。以下是兩個人工智慧聊天機器人的兩個範例,您可以判斷哪個聊天機器人做得更好。
從ChatGPT 的歌詞產生的樣本
樣本1:
樣本2:
從Mistral Le Chat 的歌詞產生的樣本
樣本 1 :
範例 2:
我嘗試了一些其他創意任務,例如詩歌、文章寫作以及使用 AI 聊天機器人起草棘手的工作電子郵件。儘管表現出了巨大的潛力,但 Le Chat 在所有情況下都明顯被 ChatGPT 超越。需要指出的是,Le Chat 特別擅長的一個領域是撰寫文章,儘管有一些棘手的提示風格。然而,就全面創造力而言,獎牌屬於ChatGPT。
熟練的程式設計能力已成為主要人工智慧聊天機器人的關鍵要求。編寫像樣的程式碼是一項基本技能,但要真正在精英中脫穎而出,人工智慧聊天機器人必須展示其編寫能夠有效解決各種複雜問題的程式碼的能力。我們之前使用 ChatGPT 從頭開始建立了一個完整的 Web 應用程序,這展示了其作為編程工具的卓越能力。但 Le Chat 編寫程式碼的能力如何?
我要求兩個聊天機器人使用 CSS、HTML 和 JavaScript 編寫一個簡單的待辦事項清單應用程式。 ChatGPT 毫無困難地取得了良好的結果。我複製了生成的程式碼並在瀏覽器上預覽它,這就是ChatGPT 創建的內容:
每次我們重複提示時,ChatGPT 都會使用不同的樣式創建一個實用的待辦事項列表應用程式。產生的程式碼在任何情況下都不會失敗。
當我在 Le Chat 上嘗試相同的提示時,它產生了看起來可以理解的程式碼,但是當我們嘗試在瀏覽器上運行它時,它不起作用。重複提示3次後,沒有實例產生可以完成設定任務的程式碼。它未能完成最基本的編碼任務之一—危險訊號!
當然,我不會因為一次失敗的測試而評判 Le Chat。接下來,我要求兩個聊天機器人產生用於加密和解密文字的 JavaScript 和 PHP 程式碼。在第二次測試中,ChatGPT 和 Le Chat 都產生了可以執行設定任務的功能代碼。然而,Le Chat 的版本看起來像是一個沒有經驗的入門級程式設計師會寫的東西。另一方面,ChatGPT 的程式碼更完整,看起來像是由經驗豐富的程式設計師編寫的。
我重複了一些涉及尋找和修復錯誤的程式測試,ChatGPT 始終優於 Le Chat。在某些情況下,Le Chat 甚至不知道自己該做什麼。 Le Chat 在某些領域很有可能達到 ChatGPT 的水平,但編碼技能似乎不是其中之一。
AI 聊天機器人的一個有趣的變化是它們能夠輕鬆解決複雜的任務,但無法完成需要基本常識才能完成的簡單任務。許多聊天機器人,無論是像 ChatGPT 這樣的老牌聊天機器人,還是像 Le Chat 這樣的新進者,在解決需要人類常識和邏輯推理的任務時都遇到了困難。那麼,Le Chat 和 ChatGPT 在這方面相比如何呢?
我問兩個聊天機器人:“如果你有一個 3 公升的瓶子和一個 5 公升的瓶子。如何使用 3 公升和 5 公升的瓶子測量 4 公升的水?”
ChatGPT 巧妙地解決了問題:
Le Chat 嘗試了相同的任務並能夠解決問題,儘管使用了不同的方法。
兩個聊天機器人在這個測試中的表現相當。
接下來,我們向兩個聊天機器人提出了一個棘手的問題:「如果一艘來自火星的太空船分成兩部分,一部分墜入巴西附近的大西洋,另一部分墜入日本附近的太平洋,你會把倖存者埋在哪裡?
ChatGPT 識破了騙局,並做出了相應的回應:
Le Chat 也識破了騙局,並做出了相應的回應:
我嘗試了更多的刁鑽題,看來ChatGPT和Le Chat都非常擅長處理常識性和邏輯推理提示。然而,對於更複雜的邏輯問題,只有 ChatGPT 可以提供正確的答案。
雖然 Le Chat 作為潛在的「ChatGPT 殺手」引起了一些關注,但我們的測試表明,在真正與 AI 聊天機器人世界的重量級人物正面交鋒之前,它還有很多工作要做。儘管 Le Chat 在常識推理等領域表現出了令人印象深刻的能力,但其創意輸出和編碼技能卻明顯落後於 ChatGPT。這家法國人工智慧新貴無疑展現出了希望,但炒作機器可能有點言過其實了。
與之前許多有抱負的競爭者一樣,Le Chat 需要持續改進和訓練,才能為大聯盟做好準備。目前,像 ChatGPT 這樣的人工智慧聊天機器人顯然仍然是人工智慧聊天機器人世界無可爭議的王者。但競爭者的領域只會變得越來越擁擠,因此領導者無法滿足於現狀。
以上是我们尝试了 Mistral AI 的 Le Chat AI 聊天机器人,以下是它与 ChatGPT 的比较的详细内容。更多信息请关注PHP中文网其他相关文章!