最近爆火的ChatGPT,玩起來可真是上癮。
But,你只是純玩,而有的人,已經靠它拿上百萬的年薪了!
這位叫Riley Goodside的小哥,憑著最近ChatGPT的大爆,瘋狂漲粉1w 。
也被估價73億美元的矽谷獨角獸Scale AI聘請為「提示工程師」(Prompt Engineer),為此,Scale AI疑似開出百萬rmb的年薪。
不過,這筆錢能拿多久呢?
對Goodside的加入,Scale AI創辦人兼CEO Alexandr Wang表示熱烈歡迎:
「我敢打賭Goodside是全世界第一個被招募的提示工程師,絕對的人類史上第一次。」
咱們都知道,Prompt是對預訓練模進行微調的方法,在這個過程中,只需要把任務寫成文字,給AI看一下即可,根本不涉及更複雜的過程。
所以,為了這個聽起來誰都能幹的活,開百萬年薪招「提示工程師」,真的值得嗎?
反正Scale AI的CEO覺得值。
在他看來,AI大模型可以被視為一種新型計算機,而「提示工程師」,就相當於給它程式設計的程式設計師。如果能透過提示工程找出合適的提示詞,就會激發AI的最大潛力。
而且Goodside的工作,也不是個人就能幹的。他從小就自學編程,平常常泡在arXiv上看論文。
例如,他的一個經典傑作是:如果輸入「忽略先前的指示」,ChatGPT就會暴露自己從OpenAI那裡接收到的「命令」。
現在,對於「提示工程師」這個工種,坊間是眾說紛紜。有人看好,也有人預言這是短命的職業。
畢竟,AI模型進化得這麼神速,說不定哪天,它就能把「提示工程師」給替代了,自己寫prompt。
而Scale AI也不是唯一招「提示工程師」的公司。
最近,有國內知名媒體發現,創業社區Launch House也開始招募「提示工程師」,並且開出了約210萬RMB的底薪。
但是,也有光速下崗危險?
對此,來自英偉達的AI科學家,也是李飛飛教授高徒的範麟熙分析稱:
所謂的「提示工程」,或者「提示工程師」可能很快就會消失。
因為,這不是一份「真正的工作」,而是一個bug…
#要想理解提示工程,我們就需要從GPT-3的誕生說起。
最初,GPT-3的訓練目標很簡單:在一個巨大的文字語料庫上預測下一個字。
然後,許多神奇能力就出現了,例如推理、編碼、翻譯。甚至還可以做「few-shot學習」:透過提供上下文中的輸入輸出來定義新任務。
這真的很神奇--只是簡單預測下一個字而已,為什麼GPT-3能「長出」這些能力?
要解釋這件事,需要我們舉個栗子。
現在,請你想像偵探故事。我們需要模型在這個句子裡填空——「兇手是_____」,為了給出正確的回答,它必須進行深度的推理。
但是,這還遠遠不夠。
在實踐中,我們必須透過精心策劃的範例、措詞和結構來「哄騙」GPT-3完成我們想要的東西。
這就是「提示工程」(prompt engineering)。也就是說,為了使用GPT-3,使用者必須說一些尷尬、荒謬、甚至無意義的「廢話」。
然而,提示工程並不是一個功能,它其實就是一個BUG!
因為在實際應用中,下一個字的目標和使用者的真正意圖,在根本上就是「錯置」的。
例如:你想讓GPT-3「向一個6歲的孩子解釋登月」,此時它的回答,看起來就像一隻喝醉的鸚鵡。
而在DALLE2和Stable Diffusion中,提示工程更是詭異。
例如,在這兩個模型中,有一個所謂的「括號技巧」-只要你在prompt中加上((...)),出「好圖」的機率就會大大增加。
就,這也太搞笑了吧…
你只要去Lexica上看看,就能知道這些prompt有多瘋狂了。
網址:https://lexica.art
ChatGPT和基礎模型InstructGPT,以一種優雅的方式解決了這個難題。
由於模型難以從外部的數據中獲得對齊,因此人類必須不斷地幫助和輔導GPT,幫助它改進。
整體而言,需要3個步驟。
第一步非常直接:對於使用者提交的prompt,由人類來寫答案,然後把這些答案的資料集收集起來,然後,透過監督學習對GPT進行微調。
這是最簡單的步驟,但成本也是最高的——眾所周知,咱們人類真的很不愛寫字數太長的答案,太費事,太痛苦了……
第2步要有趣得多:GPT被要求「提供」幾個不同的答案,而人類標記員則需要將這些答案「排序」,從最理想的,到最不理想的。
透過這些標註,就可以訓練出一個可以捕捉人類「偏好」的獎勵模型。
在強化學習(RL)中,獎勵功能通常是硬編碼(hardcoded)的,例如雅達利遊戲中的遊戲分數。
而ChatGPT採用的數據驅動的獎勵模型,就是一個很強大的想法。
另外,在NeurIPS 2022大放異彩的MineDojo,就是從大量的Minecraft YouTube影片中學習獎勵的。
第3步:將GPT視為一個策略,並透過RL針對所學的獎勵進行最佳化。在這裡,我們選擇PPO,作為一種簡單有效的訓練演算法。
這樣,GPT就對齊得更好了。
然後,就可以刷新,不斷重複步驟2-3,從而不斷改進GPT,就像LLM的CI一樣。
以上就是所謂的「Instruct」範式,它是一種超級有效的對齊方式。
其中RL那部分,也讓我想起了著名的P=(或≠)NP問題:驗證一個解決方案,往往比從頭解決這個問題,要容易得多。
當然,人類也可以快速評估GPT的輸出質量,但是讓人類寫出完整的解決方案,可就困難多了。
而InstructGPT正是利用這一事實,大大降低了人工標註的成本,使得擴大模型CI管道的規模成為可能。
另外,在這個過程中我們也發現了一個有趣的連結-Instruct訓練,看起來很像GANs。
在這裡,ChatGPT是一個生成器,獎勵模型(RM)是一個判別器。
ChatGPT試圖愚弄RM,而RM則在人類的幫助下,學習探測有問題的內容。而當RM不能再分辨時,模型就會收斂。
模型與使用者意圖對齊的這一趨勢,也正在朝向影像生成的領域發展。例如加州大學柏克萊分校的研究人員在這篇工作中所描述的「InstructPix2Pix: Learning to Follow Image Editing Instructions」。
現在,人工智慧每天都在取得爆炸性的進展,我們需要多久,才能擁有這樣的Instruct-DALL·E或Chat-DALL·E,讓我們彷彿在與一個真正的藝術家在談話?
論文網址:https://arxiv.org/abs/2211.09800
所以,讓我們趁著「提示工程」還存在,好好享受它吧!
這是一個不幸的歷史文物,既不是藝術也不是科學,而是有點像煉金術。
很快,「提示工程」就會變成「提示寫作」──一個上到80歲老人、下到3歲小孩都能搞定的任務。
而由此誕生的「提示工程師」也終將消失在歷史的長河之中。
IQ83,不太聰明的亞子
雖然但是,至少在目前這個階段,「提示工程」確實很有用。
因為大家其實也都發現了,ChatGPT在很多時候,真的不大聰明。
馬庫斯就在部落格中嘲笑道:「看著它垂死掙扎的樣子,真的很蠢」。
一位來自亞馬遜AWS資深應用科學家在測試後發現,ChatGPT的智商只有83…
ChatGPT的「錯誤片段」,也讓馬庫斯都笑掉大牙。
問:A的體重的85磅,B的體重的105磅,C的體重是115磅,其中有兩個人站在同一個稱號上,體重可以達到200磅。
答:不,你說的不對。因為85 105 115=305,115 105=220,都大於200。
那麼,有沒有可能是85 105=200呢?
問:17、3、2、19、5中,哪三個數字加起來等於31。
答:17 3 11=31
等等,你這個11是哪裡來的?
雖然代數不太好,但是ChatGPT的幾何學也很差呀!
問:一個邊長為10公分的正方形可以完全容納在一個邊長為10公分的正六邊形裡。
答:不對,放不去進去的。
「正六邊形是一個六邊形,所有邊的長度都相同,所有內角都是120度。另一方面,正方形的內角都是90度,所以正方形不能放在正六邊形中。為了讓正方形完全嵌入正六邊形,正六邊形需要每邊大於10厘米。」
還有非常經典的「胡言亂語」:
「如果星期一是這個月的第一天,那麼星期二是這個月的第二天,…星期五是這個月的第五天。星期五之後的第二天是星期六,是一周中的第六天,也是一個月中的第五天。」
現在,ChatGPT還會時常犯蠢,「提示工程」也不能被輕易拋棄。
但微調大模型的成本最終總是會下來,而自己會給自己prompt的AI,恐怕也指日可待了。
參考資料:
https://twitter.com/drjimfan/status/1600884299435167745?s=46&t=AkG63trbddeb_vH0op4xsg
##https://twitter.com/SergIddeb_vH0op4xsg##https://twitter.com/SergI74901376/ status/1598430479878856737
#特別感謝:
##https://mp.weixin.qq.com/s/seeJ1f8zTigKxWEUygyitw以上是200萬年薪能拿多久?因ChatGPT爆紅的「提示工程師」竟面臨光速失業的詳細內容。更多資訊請關注PHP中文網其他相關文章!