人工智慧並不總是能把事情做好,這並不奇怪。有時候,甚至會產生幻覺。然而,蘋果研究人員最近的一項研究表明,人工智慧用於形式推理的數學模型存在更嚴重的缺陷。
✕ 刪除廣告作為研究的一部分,蘋果科學家詢問了人工智慧大型語言模型(法學碩士)一個問題,以略有不同的方式多次提出,當他們發現法學碩士提供了意想不到的答案改變時,他們感到驚訝。當涉及到數字時,這些差異最為突出。
這項由arxiv.org 發布的研究得出的結論是,「不同設備之間存在顯著的性能差異」。同一問題的不同實例,挑戰了目前依賴單點精確度指標的 GSM8K 結果的可靠性。 」 GSM8K 是一個資料集,其中包含8000 多個不同的小學數學問題和答案。
✕ 刪除廣告Apple 研究人員發現此性能的差異可能高達10%。即使提示中的微小變化也可能導致LLM 答案的可靠性出現巨大問題。起來像是在使用邏輯來為您的查詢提供答案,但邏輯並不是正在使用的內容。 ,即使改變幾個不重要的單字也會改變這種模式識別。實驗,然後添加了一些有關獼猴桃大小的無關緊要的信息。然後,儘管獼猴桃大小數據對問題的結果沒有實際影響,但他們還是從對照中改變了他們對問題的答案。 🎜>
由於LLM 在我們的文化中變得越來越重要,這一消息引發了我們是否可以信任AI 的巨大擔憂為我們的詢問提供準確的答案。也強調了在使用大型語言模型時準確驗證收到的訊息的必要性。這意味著您需要進行一些批判性思考和盡職調查,而不是盲目依賴人工智慧。話又說回來,如果您是經常使用人工智慧的人,您可能已經知道這一點。
✕ 刪除廣告以上是蘋果公司的一項新研究顯示人工智慧推理有嚴重缺陷的詳細內容。更多資訊請關注PHP中文網其他相關文章!