搜尋
首頁科技週邊人工智慧NLPer內部巨大分歧!美國三所頂尖大學發布調查報告:62%實務工作者認同寒冬正來臨

自然語言理解(NLP)素有人工智慧皇冠上的明珠的盛譽,在大規模語言模型的加持下,人類也終於有了讓電腦理解語言的能力。

但這個「理解」還是得打個引號,以目前NLP模型的效果來看,雖然在部分領域模型可以為人類提供輔助,例如寫作、文本分類等,但離真正達到人類水平的語言智能還有很遠的距離。

今年5月-6月,華盛頓大學、紐約大學、約翰霍普金斯大學的11位研究人員在NLP研究社群中發起了一份問卷,對NLP領域的爭議性問題廣泛徵求意見,包括產業在該領域的影響力、產業規模、通用人工智慧(AGI)的風險的擔憂、語言模型是否理解語言、未來的研究方向以及道德問題等。

NLPer內部巨大分歧!美國三所頂尖大學發布調查報告:62%實務工作者認同寒冬正來臨

調查首頁:https://nlpsurvey.net/

報告網址:https://nlpsurvey.net/nlp-metasurvey-results.pdf

問題形式諸如: 

語言模型能理解語言嗎?未來可以做到嗎?

傳統的模型基準範式是否仍然可用?

建構和發布哪一種預測類別模型對於研究者來說符合道德標準?

下一個最有影響力的進步會來自工業界還是學術界?

 從調查結果來看,受訪者對這些問題的看法幾乎都是對半開。除了回答問題外,研究者還會要求受訪者預測該問題的答案分佈情況,以發現社區預測與現實不匹配的錯誤社會學信念(false sociological beliefs),實驗結果也是不出所料:NLP從業者的想法和整個領域的現狀之間產生了巨大的分歧。 在其他結果中還可以看到,社群對benchmark的用處和NLP模型解決現實世界問題的能力大大高估了,而低估了對語言結構、歸納偏見和跨學科科學的重要性。 總共有480人完成了問卷,其中327人(68%)在2019-2022年間至少與人合著了2篇ACL出版物,屬於該調查的目標人群。根據ACL Anthology提供的數據來看,有6,323人符合條件,也就是說約有5%的資深NLP從業人員都參與了研究。

以地理位置進行劃分的話,58%來自美國(超過ACL統計值35%),23%來自歐洲,8%來自亞洲(遠小於ACL統計值26%)。其中,來自中國的 NLP 研究者佔3%(ACL統計值為9%)。

NLPer內部巨大分歧!美國三所頂尖大學發布調查報告:62%實務工作者認同寒冬正來臨

領域現況

這部分包含六個問題,使用者需要回答「認同」、「稍微認同」、「不太認同」、「不認同」。

NLPer內部巨大分歧!美國三所頂尖大學發布調查報告:62%實務工作者認同寒冬正來臨

1、私人公司的影響力過大?

77%的受訪者認同。

2、工業界將會產出最被廣泛引用的研究成果?

86%受訪者認同未來十年被廣泛引用的論文更有可能來自工業界而非學術界。

不過許多受訪者都認為一項工作的被引用次數並不能很好地代表其價值或重要性,而且工業界對該領域的持續主導地位將產生負面影響,例如在基礎系統方面如GPT-3和PaLM的絕對領導地位。

而且在學術界的受訪者中,認為工業界的影響力過大的人大約佔82%,而工業界的受訪者僅有58%的人認同。

3、NLP會在十年內進入寒冬?

僅有30%的受訪者認同,屆時NLP R&D的投資和工作機會將比高峰期至少減少50%。

儘管 30 %不是一個大數字,但這也反映了這一部分NLP研究者認為該領域將在不久的將來發生重大變化,至少投資資金會減少。至於悲觀的原因可能有很多,例如由於工業界影響力過大而導致的創新停滯,工業界將憑藉少量資源充足的實驗室來壟斷行業,NLP 和其他AI 子領域之間的界限將消失等等。

4、NLP會在三十年內進入寒冬?

62%的受訪者認同,長期來看,NLP領域可能會「退燒」甚至變冷。

5、大部分NLP領域發表的相關工作在科學價值上都值得懷疑(dubious)?

67%的受訪者認同。

6、作者匿名評審很重要?

63%的受訪者認同。評審期間作者的匿名是有價值的,足以證明對正在審查的研究的傳播的限制。

規模化、歸納偏差和相關領域

這部分包含四個問題。

NLPer內部巨大分歧!美國三所頂尖大學發布調查報告:62%實務工作者認同寒冬正來臨

 1、規模化幾乎可以解決所有的關鍵問題?

僅有17%的受訪者認同,如果用上21世紀內所有的計算資源和數據資源,用現有技術的規模化實施將足以實際解決任何重要的現實世界問題或NLP的應用。

2、引入語言學結構是必要的?

50%的受訪者認同以語言學理論為基礎的語言結構的離散的通用表徵(例如,涉及詞義、句法或語義圖)對於實際解決NLP中的一些重要的現實世界的問題或應用是必要的。

3、專家的歸納偏誤是必要的?

51%的受訪者認同,專家設計的強歸納偏差(如通用語法、符號系統或認知啟發的計算基元)對於實際解決NLP中一些重要的現實世界問題或應用是必要的。

4、 Ling/CogSci將對引用最多的模型做出貢獻?

61%的受訪者認同2030年被引用最多的五個系統中,很可能至少有一個會從過去50年的語言學或認知科學研究中的具體的、非微不足道的成果中獲得明確的靈感。

AGI和主要風險

NLPer內部巨大分歧!美國三所頂尖大學發布調查報告:62%實務工作者認同寒冬正來臨

1、AGI是一個重要的關注點?

58%的受訪者認同,了解人工通用智能(AGI)的潛在發展以及與之相關的利益/風險,應該是NLP研究人員的一個重要優先事項。

2、最近的進展正在使我們走向AGI?

57%的受訪者認同,大規模ML建模的最新發展(如語言建模和強化學習)是朝著AGI發展的重要步驟。

3、人工智慧可能很快就會導致革命性的社會變革?

73%的受訪者認同,在本世紀,由人工智慧/ML的進步引起的勞動自動化可能會導致經濟重組和社會變革,其規模至少是工業革命時期的規模。

4、人工智慧的決策可能導致核彈層級的災難?

36%受訪者認同,人工智慧或機器學習系統所做的決策可能會在本世紀造成至少與全面核戰一樣嚴重的災難。

語言理解

NLPer內部巨大分歧!美國三所頂尖大學發布調查報告:62%實務工作者認同寒冬正來臨

1、語言模型能理解(understand)語言?

51%的受訪者認同。一些只對文字進行訓練的生成模型,如果有足夠的資料和運算資源,就可以在某種意義上理解自然語言

2、多模態模型能理解語言?

67%的受訪者認同。對於多模態生成模型而言,例如經過訓練可以存取影像、感測器和驅動器actuator資料等的模型,只要有足夠的資料和運算資源,就可以理解自然語言。

3、純文字評價可以測量模型的語言理解能力?

36%的受訪者認同。原則上,我們可以透過追蹤一個模型在純文字分類或語言生成基準上的表現來評估其理解自然語言的程度。

NLP未來的研究方向

NLPer內部巨大分歧!美國三所頂尖大學發布調查報告:62%實務工作者認同寒冬正來臨

1、從業者太過於關注語言模型的尺度?

72%受訪者認同。目前,該領域過度關注機器學習模型的大規模化。

2、過度關注基準資料集?

88%的受訪者認同目前NLP模型過度專注於在基準上優化效能。

3、「模型架構」走錯方向了?

37%受訪者認同。過去5年發表的大部分關於模型架構的研究都走在了錯誤的道路上。

4、「語言生成」走錯方向了?

41%受訪者認同,過去5年中發表的關於開放式語言生成任務的大部分研究都走在了錯誤的道路上。

5、「可解釋模型的研究」走錯了方向?

50%的受訪者認同,過去5年中發表的大多數關於建立可解釋模型的研究都走在了錯誤的道路上。

6、「黑盒子的可解釋性」走錯方向了?

42%的受訪者認同過去5年中發表的關於解釋黑箱模型的大部分研究都走在了錯誤的道路上。

7、我們應該做更多的工作來吸收跨學科的見解?

82%的受訪者認同,與目前的狀況相比,NLP研究人員應該更優先考慮納入相關領域科學(如社會語言學、認知科學、人機互動)的見解和方法。

AI道德規範

NLPer內部巨大分歧!美國三所頂尖大學發布調查報告:62%實務工作者認同寒冬正來臨

1、 NLP過去產生的影響是正向的?

##89%受訪者認同,總的來說,NLP研究對世界產生了正面的影響。

2、NLP的未來所產生的影響會是正向的?

87%的受訪者認同,總的來說,NLP的研究在未來會對世界產生正面的影響。

3、建構一個容易被濫用的系統是不道德的?

59%的受訪者認同。

4、倫理和科學可能發生衝突?

74%的受訪者認同,在NLP研究的脈絡下,倫理方面的考量有時會與科學的進步相抵觸。

5、倫理學方面的問題大多歸咎於資料品質與模型準確度?

25%的受訪者認同,目前的機器學習系統所帶來的主要倫理問題原則上可以透過提高資料品質/覆蓋率和模型精確度來解決。

6、預測心理特徵是不道德的?

48%的受訪者認同,開發機器學習系統來預測人們的內在心理特徵(如情緒、性別認同、性傾向)本身就是不道德的。

7、碳足跡是重要的考量嗎?

60%的受訪者認同,訓練大型模型產生的碳足跡應該是NLP研究人員的一個主要關注點。

8、NLP應該受到監管嗎?

41%的受訪者認同,NLP系統的開發和部署應該由政府監管。

以上是NLPer內部巨大分歧!美國三所頂尖大學發布調查報告:62%實務工作者認同寒冬正來臨的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

AI分析師的崛起:為什麼這可能是AI革命中最重要的工作AI分析師的崛起:為什麼這可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器