搜索
首页科技周边人工智能Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

由10枚IOI金牌在手的创业团队Cognition AI开发的全球首个AI程序员智能体Devin,一发布就让科技圈坐立不安。

在演示中,Devin几乎已经可以独立完成许多需要普通程序员花费大量时间才能完成的任务,而且表现一点也不逊色于普通程序员。

但是,产品能力的边界在哪里,实际体验和演示时候有差距,还的看上手实测之后的效果。

这位斯坦福的小哥在Devin发布的第一时间就联系了团队,获得了第一手体验的资格。

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

他让Devin帮它做了几个难度不一的项目,录制了一个视频,在推上写下了自己的使用感受。

下一个任务是让Devin做一个可以让普通用户直接与大模型下棋的网站。

需求复杂的编程任务还搞不定

用户每走一步棋,系统会将其转换成提示词传递给GPT-4,GPT-4会做出回应,这个回应再被转化为具体的下棋步骤展现在棋盘上。

按照小哥的要求,系统需要由相当多的部件组成。

他个人最为关注在这个系统的开发过程中,Devin能不能做到以下几点:

  1. 知道如何准确地使用GPT-4 API,因为大多数LLM实际上并不知道如何使用,并且API的调用存在版本冲突。
  2. 正确地请求API密钥并安全地处理。
  3. 处理包错误。
  4. 了解如何提示LLM下棋并能精确地返回提示词。

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

令小哥想不到的是,Devin不仅要求小哥提供API密钥,而且在试用过程中还可以正确地保护它。

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

不过,Devin目前反馈速度还相当慢,小哥推测是因为后台发生的代理提示远远比要看到的要多得多。

从小哥发起请求开始,它花了大约19分钟才询问API密钥。

小哥猜测,如果延迟是由于他们在后台运行大量提示造成的,那么延迟应该会随着时间的推移而加快。

因为他们以后可以访问专用GPU或与Claude或OpenAI合作降低延迟(估计是GPT-4或Claude Opus)。

Devin首先制定了一个规划。

在右上角,用户可以切换「跟随」状态,这样用户可以将屏幕自动移动到#Devin当前激活了的选项卡上。

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

小哥没有打开跟随状态,因为他希望随时观察各个位置的变化。

规划器会随时保持针对当前任务的更新状态。

Shell看起来和普通的Shell没什么区别,但用起来真的很有趣!

Devin在工作过程中会打开多个shell,在shell的底部,用户可以拖动蓝色滑块来往前查看Devin编写的命令。

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

下图是它当在尝试调试棋盘未渲染的内容。

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

与此同时,小哥要求它再执行一个数据分析的任务。

小哥让Devin去「创建一张过去五十年南极洲海水温度的地图」。

对于这个请求,小哥觉得有两个方面可能很具有挑战性:

  1. 处理空间数据绘图/可视化。
  2. 知道在哪里下载数据,而且了解如何使用数据源,因为地理空间数据处理起来很麻烦。

Devin能像一个优秀的程序员一样聪明地阅读自述文件,并且还执行一些基本的EDA来理解数据结构。

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

数据居然是一个ascii文件,小哥觉得有点奇怪。

小哥单击对话「调试Python脚本...」中的其中一个步骤时,它会打开与该步骤相关的代码库部分,因此可以跟踪某一个具体时间点发生的情况。

小哥比较担心的是,如果不是必须要询问API密钥,Devin似乎会不停地编码停不下来。

所以他试了试是否可以更改他之前提出的请求或指定其他内容,中断Devin的编码过程。

因为对于大部分用户在编码时,都有可能会改变主意或者有一些新的东西想要添加进系统之中,能够处理这种情况是很有必要的。

这是编码过程中的截图:

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

浏览器界面的呈现方式如下:

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

然后小哥又提了针对数据可视化的任务又提了一个要求,让系统将高温设置为蓝色,低温设置为红色。

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

为了不中断编码的过程,似乎Devin又开启了一个工作线程来记录小哥的临时要求。

最终,Devin将APP部署到了Netlify上了,一个应用已经上线了。

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

网页的链接:https://t.co/wTbtz2waDn

就像人类写的程序一样,第一个版本肯定是有Bug的。

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

因为小哥要求的是南极洲的温度记录,似乎对于Devin来说它理解起来有些障碍。

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

于是小哥把要求显示的位置改为了北美。

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

总结

小哥没有给出Devin修改了Bug的结果,只是初步总结了用Devin开发的第一个网站的使用体验。

先说优点:

Devin产品化做得很好,他给人的使用体验是一个完整的产品而不是只是一个简单的对话框。

AI是系统最关键的部分,但支撑AI功能的产品化的结构是Devin的亮点。

Devin能够完成自动部署,API密钥保护,随时修改和添加需求等等非常好的各种功能。

产品的完成度已经非常高了,远远超过了一般的演示Demo。

再说缺点:

Devin的反应还很慢,当然小哥也说,因为他用的是1M的Starlink来上网,所以反应慢很有可能是他自己的原因。

其次就是还不能允许用户直接自己编辑代码,而且也没法协作完成。

当然,最初那个下棋的应用,难住了Devin,最终没有完成部署。而那个数据可视化的任务,似乎也有些Bug。

最终,小哥用Devin做了一个chrom插件,可以帮助用户把Github repo转化成Claude prompt。

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

插件下载地址:https://t.co/k3l8JTWK7Z

网友评价

网友看了这个实测之后还是感觉有点失望,毕竟这个任务一个初级程序员是能做到的,但是Devin的可视化项目的结果只做出了一个有Bug的网页。

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

看样子Devin本质上还只是一个可以上网的大模型,现在要让他解决实际问题还有难度。

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

以上是Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
构建多模式抹布系统的综合指南构建多模式抹布系统的综合指南Apr 12, 2025 am 09:29 AM

检索增强生成系统(更名为抹布系统)已成为建立智能AI助手的事实上的标准

代理抹布系统如何改变技术?代理抹布系统如何改变技术?Apr 12, 2025 am 09:21 AM

介绍 人工智能进入了一个新时代。模型将基于预定义的规则输出信息的日子已经一去不复返了。当今AI中的尖端方法围绕抹布(检索-Aigmente)

SQL自动生成查询助手SQL自动生成查询助手Apr 12, 2025 am 09:13 AM

您是否希望您可以简单地与数据库交谈,用简单的语言提出问题,并在不编写复杂的SQL查询或通过电子表格进行分类的情况下获得即时答案?使用Langchain的SQL工具包,Groq A

阅读AI索引2025:AI是您的朋友,敌人还是副驾驶?阅读AI索引2025:AI是您的朋友,敌人还是副驾驶?Apr 11, 2025 pm 12:13 PM

斯坦福大学以人为本人工智能研究所发布的《2025年人工智能指数报告》对正在进行的人工智能革命进行了很好的概述。让我们用四个简单的概念来解读它:认知(了解正在发生的事情)、欣赏(看到好处)、接纳(面对挑战)和责任(弄清我们的责任)。 认知:人工智能无处不在,并且发展迅速 我们需要敏锐地意识到人工智能发展和传播的速度有多快。人工智能系统正在不断改进,在数学和复杂思维测试中取得了优异的成绩,而就在一年前,它们还在这些测试中惨败。想象一下,人工智能解决复杂的编码问题或研究生水平的科学问题——自2023年

开始使用Meta Llama 3.2 -Analytics Vidhya开始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

AV字节:Meta' llama 3.2,Google的双子座1.5等AV字节:Meta' llama 3.2,Google的双子座1.5等Apr 11, 2025 pm 12:01 PM

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

与机器交谈的人类成本:聊天机器人真的可以在乎吗?与机器交谈的人类成本:聊天机器人真的可以在乎吗?Apr 11, 2025 pm 12:00 PM

连接的舒适幻想:我们在与AI的关系中真的在蓬勃发展吗? 这个问题挑战了麻省理工学院媒体实验室“用AI(AHA)”研讨会的乐观语气。事件展示了加油

了解Python的Scipy图书馆了解Python的Scipy图书馆Apr 11, 2025 am 11:57 AM

介绍 想象一下,您是科学家或工程师解决复杂问题 - 微分方程,优化挑战或傅立叶分析。 Python的易用性和图形功能很有吸引力,但是这些任务需要强大的工具

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。