由10面IOI金牌在手的創業團隊Cognition AI開發的全球首個AI程式設計師智能體Devin,一發布就讓科技圈坐立不安。
在示範中,Devin幾乎已經可以獨立完成許多需要普通程式設計師花費大量時間才能完成的任務,而且表現一點也不遜色於普通程式設計師。
但是,產品能力的邊界在哪裡,實際體驗和演示時候有差距,還的看上手實測之後的效果。
這位史丹佛的小哥在Devin發布的第一時間就聯繫了團隊,獲得了第一手體驗的資格。
他讓Devin幫它做了幾個難度不一的項目,錄製了一個視頻,在推上寫下了自己的使用感受。
下一個任務是讓Devin做一個可以讓一般使用者直接與大模型下棋的網站。
#使用者每走一步棋,系統會將其轉換成提示詞傳遞給GPT- 4,GPT-4會做出回應,這個回應再轉化為具體的下棋步驟展現在棋盤上。
依照小哥的要求,系統需要由相當多的零件組成。
他個人最為關注在這個系統的開發過程中,Devin能不能做到以下幾點:
令小哥想不到的是,Devin不僅要求小哥提供API金鑰,而且在試用過程中還可以正確地保護它。
不過,Devin目前回饋速度還相當慢,小哥推測是因為後台發生的代理提示遠遠比要看到的要多得多。
從小哥發起請求開始,它花了大約19分鐘才詢問API金鑰。
小哥猜測,如果延遲是由於他們在後台運行大量提示造成的,那麼延遲應該會隨著時間的推移而加快。
因為他們以後可以存取專用GPU或與Claude或OpenAI合作降低延遲(估計是GPT-4或Claude Opus)。
Devin首先制定了一個規劃。
在右上角,使用者可以切換「跟隨」狀態,這樣使用者可以將螢幕自動移動到#Devin目前啟動了的選項卡上。
小哥沒有打開跟隨狀態,因為他希望隨時觀察各個位置的變化。
規劃器會隨時保持針對目前任務的更新狀態。
Shell看起來和普通的Shell沒什麼差別,但用起來真的很有趣!
Devin在工作過程中會開啟多個shell,在shell的底部,使用者可以拖曳藍色滑桿來往前檢視Devin所寫的指令。
下圖是它當在嘗試偵錯棋盤未渲染的內容。
#同時,小哥要求它再執行一個資料分析的任務。
小哥要Devin去「創造一張過去五十年南極洲海水溫度的地圖」。
對於這個要求,小哥覺得有兩個面向可能很具有挑戰性:
Devin能像一個優秀的程式設計師一樣聰明地閱讀自述文件,並且還執行一些基本的EDA來理解資料結構。
資料居然是ascii文件,小哥覺得有點奇怪。
小哥點擊對話「調試Python腳本...」中的其中一個步驟時,它會打開與該步驟相關的程式碼庫部分,因此可以追蹤某一個具體時間點發生的情況。
小哥比較擔心的是,如果不是必須要詢問API金鑰,Devin似乎會不停地編碼停不下來。
所以他試了試是否可以更改他先前提出的請求或指定其他內容,中斷Devin的編碼過程。
因為對於大部分使用者在編碼時,都有可能會改變主意或是有一些新的東西想要添加進系統之中,能夠處理這種情況是很有必要的。
這是編碼過程中的截圖:
#瀏覽器介面的呈現方式如下:
然後小哥又提了針對資料視覺化的任務又提了一個要求,讓系統將高溫設定為藍色,低溫設定為紅色。
為了不中斷編碼的過程,似乎Devin又開啟了一個工作執行緒來記錄小哥的臨時要求。
最終,Devin將APP部署到了Netlify上了,一個應用程式已經上線了。
網頁的連結:https://t.co/wTbtz2waDn
就像人類寫的程式一樣,第一個版本一定是有Bug的。
因為小哥要求的是南極洲的溫度記錄,似乎對於Devin來說它理解起來有些障礙。
於是小哥把要求顯示的位置改為了北美。
#小哥並沒有給出Devin修改了Bug的結果,只是初步總結了用Devin開發的第一個網站的使用體驗。
先說優點:
#Devin產品化做得很好,他給人的使用體驗是一個完整的產品而不是只是一個簡單的對話框。
AI是系統最關鍵的部分,但支撐AI功能的產品化的結構是Devin的亮點。
Devin能夠完成自動部署,API金鑰保護,隨時修改並新增需求等等非常好的各種功能。
產品的完成度已經非常高了,遠遠超過了一般的演示Demo。
再說缺點:
#Devin的反應還很慢,當然小哥也說,因為他用的是1M的Starlink來上網,所以反應慢很有可能是他自己的原因。
其次就是還不能允許使用者直接自己編輯程式碼,而且也沒辦法協作完成。
當然,最初那個下棋的應用,難住了Devin,最後沒有完成部署。而那個數據視覺化的任務,似乎也有些Bug。
最終,小哥用Devin做了一個chrom插件,可以幫助用戶把Github repo轉換成Claude prompt。
外掛程式下載位址:https://t.co/k3l8JTWK7Z
網友看了這個實測之後還是覺得有點失望,畢竟這個任務一個初級程式設計師是能做到的,但是Devin的視覺化專案的結果只做出了一個有Bug的網頁。
看來Devin本質上還只是一個可以上網的大模型,現在要讓他解決實際問題還有難度。
以上是Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠的詳細內容。更多資訊請關注PHP中文網其他相關文章!