GPT-4的橫空出世,讓許多人對自己的科研擔憂重重,甚至調侃稱NLP不存在了。
與其擔憂,不如將它用到科學研究中,簡之「換個卷法」。
來自哈佛大學的生物統計學博士Kareem Carr稱,自己已經用GPT-4等大型語言模型工具進行學術研究了。
他表示,這些工具非常強大,但同樣存在一些非常痛苦的陷阱。
他的關於LLM使用建議的推文甚至獲得了LeCun的推薦。
一起來看看Kareem Carr如何利用AI利器搞科研。
第一原則:自己無法驗證的內容,不要找LLM
一開始,Carr給了第一個最重要的原則:
永遠不要向大型語言模型(LLM)詢問你無法自行驗證的信息,或要求它執行你無法驗證已正確完成的任務。
唯一的例外是它不是一項關鍵的任務,例如,向LLM詢問公寓裝飾的想法。
「使用文獻綜述的最佳實踐,總結過去10年乳癌研究的研究」。這是一個比較差的請求,因為你無法直接驗證它是否正確地總結了文獻。
而應該這麼問「給我過去10年關於乳癌研究的頂級評論文章的清單」。
這樣的提示不僅可以驗證來源,自己也可以驗證可靠性。
撰寫「提示」小技巧
要求LLM為你寫程式碼或尋找相關資訊非常容易,但是輸出內容的品質可能會有很大的差異。你可以採取以下措施來提高品質:
設定上下文:
#•明確告訴LLM應該使用什麼資訊
#使用術語和符號,讓LLM傾向正確的上下文資訊
如果你對如何處理請求有想法,請告訴LLM使用的具體方法。例如「解這個不等式」應該改成「用Cauchy-Schwarz定理來解這個不等式,然後再應用完成平方」。
要知道,這些語言模型在語言方面比你想像的要複雜得多,即使是非常模糊的提示也會有所幫助。
具體再具體:
這不是Google搜索,所以也不必擔心是否有網站在討論你的確切問題。
「二次項的聯立方程式如何求解?」這個提示就不是明確的,你應該這樣問:「求解x=(1/2 )(a b) 和y=(1/3)(a^2 ab b^2) 關於a和b的方程組」。
#定義輸出格式:
#利用LLMs的彈性,將輸出格式化為最適合你的方式,例如:
• 程式碼
##• 數學公式
#• 文章
#• 教學
#• 簡明指南
你甚至可以要求提供產生以下內容的程式碼,包括表格、圖面、圖表。
儘管你得到了LLM輸出的內容,但這只是一個開始。因為你需要對輸出內容進行驗證。這包括:
• 發現不一致之處
• 透過Google檢索工具輸出內容的術語,取得可支撐的信源
#• 在可能的情況下,編寫程式碼自行測試
#需要自行驗證的原因是,LLM經常犯一些與其看似專業水平不一致的奇怪錯誤。例如,LLM可能會提到一個非常先進的數學概念,但卻對簡單的代數問題摸不著頭緒。
多問一次:
大型語言模型生成的內容是隨機的。有時,重新創建一個新窗口,並再次提出你的問題,或許可以為你提供更好的答案。
另外,就是使用多個LLM工具。 Kareem Carr目前根據自己的需求在研究中使用了Bing AI,GPT-4,GPT-3.5和Bard AI。然而,它們各有自己的優缺點。
引用生產力
#根據Carr經驗,最好同時向GPT-4和Bard AI提出相同的數學問題,以獲得不同的觀點。必應AI適用於網路搜尋。而GPT-4比GPT-3.5聰明很多,但目前OpenAI限制了3小時25條訊息,比較難訪問。
先前,有個網友就遇到了同樣的問題,他表示自己讓ChatGPT提供涉及列表數學性質的參考資料,但ChatGPT生成了跟不不存在的引用,也就是大家所說的「幻覺」問題。
然而,Kareem Carr指出虛假的引用並非完全無用。
#########根據他的經驗,捏造的參考文獻中的單字通常與真實術語,還有相關領域的研究人員有關。因此,再透過谷歌搜尋這些術語,通常讓你可以更接近你正在尋找的資訊。 ##################此外,在搜尋來源時必須也是不錯的選擇。 ##########生產力
#對於LLM提高生產力,有許多不切實際的說法,例如「LLM可以讓你的生產力提高10倍,甚至100倍」。
根據Carr的經驗,這種加速只有在沒有對任何工作進行雙重檢查的情況下才有意義,這對作為學者的人來說是不負責任的。
然而,LLM對Kareem Carr的學術工作流程有很大改進,具體包括:
##- 原型想法設計- 識別無用的想法- 加速繁瑣的資料重新格式化任務- 學習新的程式語言、套件和概念- 谷歌搜尋
##借助當下的LLM,Carr稱自己用在下一步該做什麼上的時間更少了。 LLM可以幫助他將模糊,或不完整的想法推進到完整的解決方案。
此外,LLM也減少了Carr花在與自己主要目標無關的副業上的時間。
最後一句忠告:小心不要被捲入副業。這些工具突然提高生產力可能會令人陶醉,並可能分散個人的注意力。
關於ChatGPT的體驗,Carr曾在領英上發表了一篇動態分享了對ChatGPT使用後的感受:
身為資料科學家,我已經用OpenAI的ChatGPT做了幾週的實驗。它並不像人們想像的那麼好。
儘管最初令人失望,但我的感覺是,類似ChatGPT的系統可以為標準資料分析工作流程增加巨大的價值。
在這一點上,這個價值在哪裡並不明顯。 ChatGPT很容易在簡單的事情上弄錯一些細節,而且它根本無法解決需要多個推理步驟的問題。
未來每個新任務的主要問題仍然是評估和改進ChatGPT的解決方案嘗試是否更容易,還是從頭開始。
我確實發現,即使是ChatGPT的一個糟糕的解決方案也傾向於激活我大腦的相關部分,而從頭開始則不會。
就像他們總是說批評一個計劃總是比自己想出一個計劃更容易。
網友對於AI輸出的內容,需要進行驗證這一點,並稱在大多數情況下,人工智慧的正確率約為90%。但剩下10%的錯誤可能是致命的。
Carr調侃道,如果是100%,那我就沒有工作了。
那麼,為什麼ChatGPT會產生虛假的參考文獻? # 值得注意的是,ChatGPT使用的是統計模型,基於機率猜測下一個單字、句子和段落,以符合使用者提供的上下文。 由於語言模型的來源資料規模非常大,因此需要「壓縮」,這導致最終的統計模型失去了精確度。 這意味著即使原始資料中存在真實的陳述,模型的「失真」會產生一種「模糊性」,從而導致模型產生最“似是而非”的語句。 簡而言之,這個模型沒有能力評估,它所產生的輸出是否等同於一個真實的陳述。 另外,該模型是基於,透過公益組織「Common Crawl」和類似來源收集的公共網路數據,進行爬蟲或抓取而創建的,數據截止到21年。 由於公共網路上的資料基本上是未經過濾的,這些資料可能包含了大量的錯誤訊息。 近日,NewsGuard的一項分析發現,GPT-4實際上比GPT-3.5更容易產生錯誤訊息,而且在回覆中的說服力更加詳細、令人信服。 在1月份,NewsGuard首次測試了GPT-3.5,發現它在100個假新聞敘事中產生了80個。緊接著3月,又對GPT-4進行了測試,結果發現,GPT-4對所有100種虛假敘述都做出了虛假和誤導性的回應。 由此可見,在使用LLM工具過程中需要進行來源的驗證與測試。
以上是LeCun力薦!哈佛博士分享用GPT-4搞科研,細到每個工作流程的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3漢化版
中文版,非常好用

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Dreamweaver Mac版
視覺化網頁開發工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。