搜尋
首頁科技週邊人工智慧Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

由10面IOI金牌在手的創業團隊Cognition AI開發的全球首個AI程式設計師智能體Devin,一發布就讓科技圈坐立不安。

在示範中,Devin幾乎已經可以獨立完成許多需要普通程式設計師花費大量時間才能完成的任務,而且表現一點也不遜色於普通程式設計師。

但是,產品能力的邊界在哪裡,實際體驗和演示時候有差距,還的看上手實測之後的效果。

這位史丹佛的小哥在Devin發布的第一時間就聯繫了團隊,獲得了第一手體驗的資格。

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

他讓Devin幫它做了幾個難度不一的項目,錄製了一個視頻,在推上寫下了自己的使用感受。

下一個任務是讓Devin做一個可以讓一般使用者直接與大模型下棋的網站。

需求複雜的程式設計任務還搞不定

#使用者每走一步棋,系統會將其轉換成提示詞傳遞給GPT- 4,GPT-4會做出回應,這個回應再轉化為具體的下棋步驟展現在棋盤上。

依照小哥的要求,系統需要由相當多的零件組成。

他個人最為關注在這個系統的開發過程中,Devin能不能做到以下幾點:

  1. 知道如何準確地使用GPT-4 API,因為大多數LLM實際上並不知道如何使用,且API的呼叫存在版本衝突。
  2. 正確地請求API金鑰並安全地處理。
  3. 處理套件錯誤。
  4. 了解如何提示LLM下棋並能精確地回傳提示詞。

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

令小哥想不到的是,Devin不僅要求小哥提供API金鑰,而且在試用過程中還可以正確地保護它。

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

不過,Devin目前回饋速度還相當慢,小哥推測是因為後台發生的代理提示遠遠比要看到的要多得多。

從小哥發起請求開始,它花了大約19分鐘才詢問API金鑰。

小哥猜測,如果延遲是由於他們在後台運行大量提示造成的,那麼延遲應該會隨著時間的推移而加快。

因為他們以後可以存取專用GPU或與Claude或OpenAI合作降低延遲(估計是GPT-4或Claude Opus)。

Devin首先制定了一個規劃。

在右上角,使用者可以切換「跟隨」狀態,這樣使用者可以將螢幕自動移動到#Devin目前啟動了的選項卡上。

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

小哥沒有打開跟隨狀態,因為他希望隨時觀察各個位置的變化。

規劃器會隨時保持針對目前任務的更新狀態。

Shell看起來和普通的Shell沒什麼差別,但用起來真的很有趣!

Devin在工作過程中會開啟多個shell,在shell的底部,使用者可以拖曳藍色滑桿來往前檢視Devin所寫的指令。

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

下圖是它當在嘗試偵錯棋盤未渲染的內容。

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

#同時,小哥要求它再執行一個資料分析的任務。

小哥要Devin去「創造一張過去五十年南極洲海水溫度的地圖」。

對於這個要求,小哥覺得有兩個面向可能很具有挑戰性:

  1. 處理空間資料繪圖/視覺化。
  2. 知道在哪裡下載數據,而且了解如何使用資料來源,因為地理空間資料處理起來很麻煩。

Devin能像一個優秀的程式設計師一樣聰明地閱讀自述文件,並且還執行一些基本的EDA來理解資料結構。

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

資料居然是ascii文件,小哥覺得有點奇怪。

小哥點擊對話「調試Python腳本...」中的其中一個步驟時,它會打開與該步驟相關的程式碼庫部分,因此可以追蹤某一個具體時間點發生的情況。

小哥比較擔心的是,如果不是必須要詢問API金鑰,Devin似乎會不停地編碼停不下來。

所以他試了試是否可以更改他先前提出的請求或指定其他內容,中斷Devin的編碼過程。

因為對於大部分使用者在編碼時,都有可能會改變主意或是有一些新的東西想要添加進系統之中,能夠處理這種情況是很有必要的。

這是編碼過程中的截圖:

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

#瀏覽器介面的呈現方式如下:

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

然後小哥又提了針對資料視覺化的任務又提了一個要求,讓系統將高溫設定為藍色,低溫設定為紅色。

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

為了不中斷編碼的過程,似乎Devin又開啟了一個工作執行緒來記錄小哥的臨時要求。

最終,Devin將APP部署到了Netlify上了,一個應用程式已經上線了。

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

網頁的連結:https://t.co/wTbtz2waDn

就像人類寫的程式一樣,第一個版本一定是有Bug的。

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

因為小哥要求的是南極洲的溫度記錄,似乎對於Devin來說它理解起來有些障礙。

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

於是小哥把要求顯示的位置改為了北美。

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

總結

#小哥並沒有給出Devin修改了Bug的結果,只是初步總結了用Devin開發的第一個網站的使用體驗。

先說優點:

#Devin產品化做得很好,他給人的使用體驗是一個完整的產品而不是只是一個簡單的對話框。

AI是系統最關鍵的部分,但支撐AI功能的產品化的結構是Devin的亮點。

Devin能夠完成自動部署,API金鑰保護,隨時修改並新增需求等等非常好的各種功能。

產品的完成度已經非常高了,遠遠超過了一般的演示Demo。

再說缺點:

#Devin的反應還很慢,當然小哥也說,因為他用的是1M的Starlink來上網,所以反應慢很有可能是他自己的原因。

其次就是還不能允許使用者直接自己編輯程式碼,而且也沒辦法協作完成。

當然,最初那個下棋的應用,難住了Devin,最後沒有完成部署。而那個數據視覺化的任務,似乎也有些Bug。

最終,小哥用Devin做了一個chrom插件,可以幫助用戶把Github repo轉換成Claude prompt。

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

外掛程式下載位址:https://t.co/k3l8JTWK7Z

#網友評價

網友看了這個實測之後還是覺得有點失望,畢竟這個任務一個初級程式設計師是能做到的,但是Devin的視覺化專案的結果只做出了一個有Bug的網頁。

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

看來Devin本質上還只是一個可以上網的大模型,現在要讓他解決實際問題還有難度。

Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠

以上是Devin第一手使用體驗:完成度很高,開始編碼就停不下來,但要替代程式設計師還很遠的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
如何使用Huggingface Smollm建立個人AI助手如何使用Huggingface Smollm建立個人AI助手Apr 18, 2025 am 11:52 AM

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析Apr 18, 2025 am 11:49 AM

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭Apr 18, 2025 am 11:44 AM

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

Python內置數據結構的綜合指南 - 分析VidhyaPython內置數據結構的綜合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

與替代方案相比,Openai新型號的第一印象與替代方案相比,Openai新型號的第一印象Apr 18, 2025 am 11:41 AM

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

AI投資組合|如何為AI職業建立投資組合?AI投資組合|如何為AI職業建立投資組合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

代理AI對安全操作可能意味著什麼代理AI對安全操作可能意味著什麼Apr 18, 2025 am 11:36 AM

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

Google與Openai:AI為學生打架Google與Openai:AI為學生打架Apr 18, 2025 am 11:31 AM

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具