ホームページ >テクノロジー周辺機器 >AI >Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

PHPz
PHPz転載
2024-03-18 15:30:211017ブラウズ

Devin は、10 個の IOI 金メダルを獲得した起業家チームである Cognition AI によって開発された世界初の AI プログラマー インテリジェンスであり、リリースされるやいなやテクノロジー界を興奮させました。

デモンストレーションでは、通常のプログラマーが完了するまでに多くの時間を費やす必要があるタスクの多くを、デビンはほぼ単独で完了することができ、そのパフォーマンスは通常のプログラマーとまったく遜色ありません。

しかし、製品の性能の境界はどこにあるのでしょうか? 実際の経験とデモンストレーションの間にはギャップがあり、実際のテスト後の効果にも依存します。

スタンフォード出身のこの男は、デビンが釈放されるとすぐにチームに連絡し、直接経験する資格を獲得しました。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

彼は Devin にさまざまな難易度のいくつかのプロジェクトを手伝ってもらうよう依頼し、ビデオを録画し、その使用方法を Twitter Feel に書き留めました。

Devin の次のタスクは、一般ユーザーが大きなモデルで直接チェスをプレイできる Web サイトを作成することです。

複雑な要件を伴うプログラミング タスクはまだ解決できません

ユーザーが動作を行うたびに、システムはそれをプロンプトの単語に変換しますGPT-4 が応答すると、この応答はチェスをプレイするための特定のステップに変換され、チェス盤上に表示されます。

私の要望によると、システムはかなりの数のコンポーネントで構成される必要があります。

彼が個人的に最も懸念しているのは、デビンがこのシステムの開発プロセス中に次のことができるかどうかです:

  1. それを正確に使用する方法を知ることGPT-4 API。ほとんどの LLM は実際には GPT-4 API の使用方法を知らず、API の呼び出しでバージョンの競合が発生するためです。
  2. API キーを正しくリクエストし、安全に処理します。
  3. パッケージエラーの処理。
  4. LLM にチェスのプレイを促す方法と、そのプロンプトの言葉を正確に返す方法を学びましょう。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

予想外だったのは、Devin が API キーの提供を求めただけでなく、試用プロセス中に API キーを適切に保護したことです。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

#しかし、Devin の現在のフィードバック速度はまだ非常に遅いです。バックグラウンドでより多くのエージェント プロンプトが存在するためだと推測しています。見えます。

Xiaoge が API キーを要求するリクエストを開始してから約 19 分かかりました。

私の推測では、バックグラウンドで多数のプロンプトを実行していることが遅延の原因である場合、時間の経過とともに遅延が加速するはずです。

なぜなら、後で専用の GPU にアクセスしたり、Claude または OpenAI と連携してレイテンシを短縮したりできるからです (おそらく GPT-4 または Claude Opus)。

デビンはまず計画を立てました。

ユーザーは右上隅で「フォロー」状態を切り替えることができるため、ユーザーは画面を #Devin現在アクティブなタブに自動的に移動できます。 。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

#弟は、さまざまな体位の変化を随時観察したかったため、次の状態をオンにしませんでした。

プランナーは現在のタスクを随時更新します。

シェルは見た目は普通のシェルと変わりませんが、使ってみるととても楽しいです。

Devin は作業プロセス中に複数のシェルを開きます。ユーザーはシェルの下部にある青いスライダーをドラッグして、Devin が作成したコマンドを表示できます。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

下の図は、デバッグしようとしたときにレンダリングされなかったチェス盤のコンテンツです。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

#同時に、弟は別のデータ分析タスクを実行するように依頼しました。

私の兄はデビンに、「過去 50 年間の南極の海水温の地図を作成してほしい」と頼みました。

このリクエストに関しては、2 つの側面が難しいと思います:

空間データの描画/視覚化の処理。
  1. 地理空間データは処理が面倒な場合があるため、データのダウンロード先を確認し、データ ソースの使用方法を理解してください。
Devin は優秀なプログラマのように Readme ファイルを賢く読み、データ構造を理解するために基本的な EDA も実行します。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。#データは実際には ASCII ファイルですが、少し奇妙に感じます。

ダイアログ「Python スクリプトのデバッグ...」のステップの 1 つをクリックすると、そのステップに関連するコード ライブラリ セクションが開き、特定のステップを追跡できます。ある時点で何が起こるか。

私がもっと心配しているのは、API キーを要求する必要がない場合、Devin はコーディングをやめられないように見えることです。

そこで彼は、以前に行ったリクエストを変更するか、何か別のものを指定して、Devin のコーディング プロセスを中断できるかどうかを確認しようとしました。

ほとんどのユーザーは、コーディング中に気が変わったり、システムに何か新しいものを追加したい可能性があるため、この状況に対処できる必要があります。

これは、エンコード プロセス中のスクリーンショットです:

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。ブラウザ インターフェイスは次のように表示されます。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

その後、弟はデータ視覚化タスクの別の要件について言及し、高温を青、低温を赤に設定するようにシステムに要求しました。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

コーディングプロセスを中断しないために、デビンは兄弟の一時的なリクエストを記録するために別の作業スレッドを開始したようです。

最後に、Devin は APP を Netlify にデプロイしました。アプリケーションはすでにオンラインになっていました。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

ウェブページへのリンク: https://t.co/wTbtz2waDn

人間と同じ書き込み プログラムと同じように、最初のバージョンにはバグがあるはずです。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

私が要求したのは南極の気温記録だったので、デビンには少々わかりにくかったようです。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

そこで、リクエストされた場所を北米に変更しました。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

概要

弟は、デビンによるバグ修正の結果を提供しませんでした。暫定的な概要 Devin と開発した最初の Web サイトを使用した経験。

まず利点について話しましょう:

Devin は、次の分野で良い仕事をしました。製品化について彼は述べています。ユーザー エクスペリエンスは、単なるダイアログ ボックスではなく、完全な製品です。

AI はシステムの最も重要な部分ですが、AI 機能をサポートする製品構造が Devin のハイライトです。

Devin は、自動デプロイメント、API キー保護、いつでも要件の変更と追加、その他の非常に優れた機能を実行できます。

製品の完成度は非常に高く、平均的なデモをはるかに上回っています。

欠点について話しましょう:

デビンの反応はまだ非常に遅いです。もちろん、弟も同様です。インターネットに接続するのは 1M Starlink なので、応答が遅いのはおそらく彼自身のせいだと思います。

2 つ目は、ユーザー自身がコードを直接編集することは許可されておらず、共同でコードを完成させる方法がないことです。

もちろん、最初のチェスプレイ アプリケーションは Devin を困惑させ、最終的に展開は完了しませんでした。また、データ視覚化タスクにはいくつかのバグがあるようです。

最後に、Devin を使用して、ユーザーが Github リポジトリを Claude プロンプトに変換できるようにする Chrome プラグインを作成しました。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

プラグインのダウンロード アドレス: https://t.co/k3l8JTWK7Z

ネットユーザーの評価

ネットユーザーは、この実際のテストを読んでも、まだ少しがっかりしました。結局のところ、このタスクはジュニア プログラマーでも実行できますが、デビンの視覚化プロジェクトの結果は、バグのある Web ページが 1 つだけ作成されました。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

Devin は本質的にはオンラインでアクセスできる単なる大きなモデルであるようですが、実用的な問題を解決することはまだ困難です。

Devin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。

以上がDevin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。