>  기사  >  기술 주변기기  >  데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

PHPz
PHPz앞으로
2024-03-18 15:30:21923검색

IOI 금메달 10개를 보유한 기업가 팀인 Cognition AI가 개발한 세계 최초의 AI 프로그래머 에이전트 Devin은 출시되자마자 기술계를 들썩이게 만들었습니다.

시연에서 Devin은 일반 프로그래머가 완료하는 데 많은 시간을 소비해야 하는 많은 작업을 거의 독립적으로 완료할 수 있으며 그의 성능은 일반 프로그래머보다 결코 열등하지 않습니다.

실제 경험과 시연 사이에는 차이가 있습니다. 또한 실제 테스트 후의 효과에 따라 다릅니다.

스탠포드 출신의 이 남자는 데빈이 석방되자마자 팀에 연락해 직접 체험할 수 있는 자격을 얻었습니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

그는 Devin에게 다양한 난이도의 여러 프로젝트를 수행하는 데 도움을 달라고 요청하고 비디오를 녹화한 후 이를 사용한 경험을 Twitter에 기록했습니다.

데빈의 다음 작업은 일반 사용자가 대형 모델과 직접 체스를 둘 수 있는 웹사이트를 만드는 것입니다.

복잡한 프로그래밍 작업은 아직 해결할 수 없습니다

사용자가 움직일 때마다 시스템은 이를 프롬프트 단어로 변환하여 GPT-4에 전달하고 GPT-4가 응답하며 이 응답은 체스를 두는 구체적인 단계가 체스판에 표시됩니다.

제 요청에 따르면 시스템은 꽤 많은 구성 요소로 구성되어야 합니다.

그는 개인적으로 Devin이 이 시스템을 개발하는 동안 다음을 수행할 수 있는지에 대해 가장 우려하고 있습니다.

  1. 대부분의 LLM은 실제로 GPT-4 API 사용 방법을 모르기 때문에 GPT-4 API를 정확하게 사용하는 방법을 알고 있어야 합니다. , API 호출에 버전 충돌이 있습니다.
  2. API 키는 올바르게 요청되고 안전하게 처리됩니다.
  3. 패키지 오류를 처리합니다.
  4. LLM이 체스를 두도록 유도하고 프롬프트 단어를 정확하게 반환하는 방법을 알아보세요.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

Devin이 나에게 API 키 제공을 요청했을 뿐만 아니라 평가판 과정에서 API 키를 적절하게 보호해 줄 것이라고 예상하지 못했습니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

하지만 Devin의 현재 피드백 속도는 여전히 꽤 느립니다. 보이는 것보다 백그라운드에서 훨씬 더 많은 에이전트 프롬프트가 발생하고 있기 때문일 것입니다.

API키 요청부터 요청까지 19분정도 걸렸습니다.

백그라운드에서 많은 프롬프트를 실행하여 지연이 발생한다면 시간이 지남에 따라 지연 속도가 빨라질 것이라고 추측합니다.

나중에 전용 GPU에 액세스하거나 Claude 또는 OpenAI와 협력하여 지연 시간을 줄일 수 있기 때문입니다(아마도 GPT-4 또는 Claude Opus).

데빈이 먼저 계획을 세웠어요.

오른쪽 상단에서 사용자는 "팔로우" 상태를 전환할 수 있으므로 사용자는 자동으로 현재 활성화된 #Devin 탭으로 화면을 이동할 수 있습니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

동생은 언제든지 다양한 자세의 변화를 관찰하고 싶어서 다음 상태를 켜지 않았습니다.

플래너는 언제든지 현재 작업에 대한 업데이트를 유지합니다.

쉘은 일반 쉘과 별반 차이가 없어 보이지만 사용하기가 정말 재미있습니다!

Devin은 작업 프로세스 중에 여러 셸을 엽니다. 셸 하단에서 사용자는 파란색 슬라이더를 드래그하여 Devin이 작성한 명령을 볼 수 있습니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

아래 사진은 디버깅을 하려고 할 때 렌더링되지 않은 체스판의 내용입니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

동시에 동생은 또 다른 데이터 분석 작업을 수행해 달라고 요청했습니다.

Brother는 Devin에게 "지난 50년 동안 남극 대륙의 해수 온도 지도를 만들어 달라"고 요청했습니다.

이 요청에는 두 가지 측면이 어려울 수 있다고 생각합니다.

  1. 공간 데이터 그리기/시각화 처리.
  2. 지리공간 데이터는 처리하기 까다로울 수 있으므로 데이터를 다운로드할 위치를 파악하고 데이터 소스를 사용하는 방법을 이해하세요.

Devin은 훌륭한 프로그래머처럼 스마트하게 readme 파일을 읽고, 데이터 구조를 이해하기 위해 기본적인 EDA도 수행합니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

데이터는 사실 아스키 파일인데 좀 이상한 것 같아요.

"Python 스크립트 디버깅..." 대화 상자의 단계 중 하나를 클릭하면 해당 단계와 관련된 코드 라이브러리 섹션이 열리므로 특정 시점에 발생한 일을 추적할 수 있습니다.

더 걱정되는 점은 API 키를 요구하지 않으면 데빈이 쉬지 않고 코딩을 하는 것 같습니다.

그래서 그는 이전에 요청한 내용을 변경할 수 있는지 확인하거나 다른 것을 지정할 수 있는지 확인하여 Devin의 코딩 프로세스를 중단했습니다.

대부분의 사용자는 코딩을 할 때 마음이 바뀌거나 시스템에 새로 추가할 내용이 있을 수 있으므로 이러한 상황을 처리할 수 있는 능력이 필요합니다.

이것은 코딩 과정 중의 스크린샷입니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

브라우저 인터페이스는 다음과 같이 표시됩니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

그런 다음 그 사람은 데이터 시각화 작업에 대한 또 다른 요구 사항을 제기했습니다. 시스템은 높은 온도를 파란색으로, 낮은 온도를 빨간색으로 설정합니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

코딩 과정을 방해하지 않기 위해 Devin은 형의 임시 요청을 기록하기 위해 또 다른 작업 스레드를 시작한 것 같습니다.

마지막으로 Devin이 APP를 Netlify에 배포하고 애플리케이션이 실행되었습니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

웹페이지 링크: https://t.co/wTbtz2waDn

사람이 작성한 프로그램과 마찬가지로 첫 번째 버전에도 버그가 있을 수 있습니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

내가 요청한 것은 남극의 기온 기록이었기 때문에 데빈이 이해하기에는 다소 어려운 것 같았습니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

그래서 요청한 위치를 북미로 변경했습니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

요약

동생은 Devin이 버그를 수정한 결과를 알려주지 않고 단지 Devin과 함께 개발한 첫 번째 웹사이트의 경험에 대한 예비 요약을 만들었습니다.

먼저 장점에 대해 이야기해 보겠습니다.

Devin은 제품화를 잘 해냈고, 그가 사람들에게 제공하는 사용자 경험은 단순한 대화 상자가 아닌 완전한 제품입니다.

AI는 시스템에서 가장 중요한 부분이지만, AI 기능을 지원하는 제품화된 구조가 Devin의 하이라이트입니다.

Devin은 자동 배포, API 키 보호, 언제든지 요구 사항 수정 및 추가 및 기타 매우 유용한 기능을 완료할 수 있습니다.

제품의 완성도는 이미 평균 데모를 훨씬 뛰어넘을 정도로 매우 높습니다.

단점에 대해 이야기해 보겠습니다.

Devin의 응답은 여전히 ​​매우 느립니다. 물론, 동생도 인터넷에 접속하기 위해 1M Starlink를 사용하기 때문에 느린 응답은 아마도 자신의 잘못일 것이라고 말했습니다. .

둘째, 사용자가 직접 코드를 편집하는 것이 허용되지 않으며, 이에 대해 협업할 방법도 없습니다.

물론 초기 체스 게임 애플리케이션이 Devin을 당황하게 만들었고 결국 배포가 완료되지 않았습니다. 그리고 데이터 시각화 작업에는 버그가 좀 있는 것 같습니다.

마지막으로 Devin을 사용하여 사용자가 Github 저장소를 Claude 프롬프트로 변환하는 데 도움이 되는 크롬 플러그인을 만들었습니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

플러그인 다운로드 주소 : https://t.co/k3l8JTWK7Z

네티즌 댓글

이 실제 테스트를 본 후에도 네티즌들은 여전히 ​​약간 실망감을 느꼈습니다. , 이 작업은 개발자가 할 수 있는 주니어 프로그램이지만 Devin의 시각화 프로젝트의 결과는 버그가 있는 웹 페이지일 뿐입니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

데빈은 본질적으로 온라인에서 접근할 수 있는 대형 모델일 뿐인 것 같습니다. 이제 실제 문제를 해결하는 것은 여전히 ​​어렵습니다.

데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.

위 내용은 데빈의 직접 경험: 완성도가 매우 높습니다. 코딩을 시작하면 멈출 수 없지만 프로그래머를 대체하려면 아직 멀었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제