Heim >Technologie-Peripheriegeräte >KI >Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远
Entwickelt von Cognition AI, einem Unternehmerteam mit 10 IOI-Goldmedaillen, sorgte Devin, der weltweit erste KI-Programmierer-Agent, bereits nach seiner Veröffentlichung für Unruhe in der Technologiewelt.
In der Demonstration kann Devin viele Aufgaben, für deren Ausführung normale Programmierer viel Zeit aufwenden müssen, fast selbstständig erledigen, und seine Leistung steht der von normalen Programmierern in nichts nach.
Wo liegt jedoch die Grenze der Produktfähigkeiten? Es gibt eine Lücke zwischen tatsächlicher Erfahrung und Demonstration. Es kommt auch auf die Wirkung nach dem tatsächlichen Testen an.
Dieser Typ aus Stanford kontaktierte das Team, sobald Devin freigelassen wurde, und erhielt die Qualifikation, es aus erster Hand zu erleben.
Er bat Devin, ihm bei mehreren Projekten mit unterschiedlichem Schwierigkeitsgrad zu helfen, nahm ein Video auf und schrieb seine Erfahrungen mit der Nutzung auf Twitter nieder.
Die nächste Aufgabe besteht für Devin darin, eine Website zu erstellen, die es normalen Benutzern ermöglicht, direkt mit großen Modellen Schach zu spielen.
Jedes Mal, wenn der Benutzer eine Bewegung macht, wandelt das System diese in ein Aufforderungswort um und übergibt es an GPT-4, GPT-4 antwortet und diese Antwort wird umgewandelt in Die spezifischen Schritte zum Schachspielen werden auf dem Schachbrett angezeigt.
Nach meinem Wunsch muss das System aus mehreren Komponenten bestehen.
Er persönlich ist am meisten besorgt darüber, ob Devin während der Entwicklung dieses Systems Folgendes tun kann:
Was ich nicht erwartet hatte, war, dass Devin mich nicht nur nach dem API-Schlüssel fragte, sondern ihn während des Testprozesses auch ordnungsgemäß schützte.
Allerdings ist Devins aktuelle Feedback-Geschwindigkeit immer noch recht langsam. Ich vermute, dass das daran liegt, dass im Hintergrund weit mehr Agentenaufforderungen stattfinden, als sichtbar sind.
Von dem Zeitpunkt an, als ich die Anfrage gestellt habe, hat es ungefähr 19 Minuten gedauert, bis ich nach dem API-Schlüssel gefragt habe.
Ich vermute, wenn die Verzögerung dadurch verursacht wird, dass viele Eingabeaufforderungen im Hintergrund ausgeführt werden, sollte sich die Verzögerung mit der Zeit beschleunigen.
Weil sie später auf dedizierte GPUs zugreifen oder mit Claude oder OpenAI arbeiten können, um die Latenz zu verringern (vermutlich GPT-4 oder Claude Opus).
Devin machte zunächst einen Plan.
In der oberen rechten Ecke kann der Benutzer den Status „Folgen“ umschalten, sodass der Benutzer den Bildschirm automatisch zur aktuell aktivierten Registerkarte von #Devin verschieben kann.
Der kleine Bruder hat den folgenden Zustand nicht eingeschaltet, da er jederzeit Veränderungen in verschiedenen Positionen beobachten wollte.
Der Planer bleibt jederzeit über die aktuelle Aufgabe auf dem Laufenden.
Shell sieht nicht anders aus als eine gewöhnliche Shell, aber es macht wirklich Spaß, sie zu benutzen!
Devin öffnet während des Arbeitsprozesses mehrere Shells. Am unteren Rand der Shell kann der Benutzer den blauen Schieberegler ziehen, um die von Devin geschriebenen Befehle anzuzeigen.
Das Bild unten zeigt den nicht gerenderten Inhalt des Schachbretts beim Versuch, es zu debuggen.
Gleichzeitig bat ihn der kleine Bruder, eine weitere Datenanalyseaufgabe durchzuführen.
Bruder bat Devin, „eine Karte der Meerwassertemperatur der Antarktis in den letzten fünfzig Jahren zu erstellen.“
Bei dieser Anfrage gibt es meiner Meinung nach zwei Aspekte, die eine Herausforderung darstellen können:
Devin liest Readme-Dateien intelligent wie ein guter Programmierer und führt auch einige grundlegende EDA-Vorgänge durch, um die Datenstruktur zu verstehen.
Die Daten sind eigentlich eine ASCII-Datei, was ich etwas seltsam finde.
Wenn ich auf einen der Schritte im Dialogfeld „Python-Skript debuggen ...“ klicke, wird der Abschnitt mit der Codebibliothek für diesen Schritt geöffnet, sodass Sie nachverfolgen können, was zu einem bestimmten Zeitpunkt passiert ist.
Worüber ich mir mehr Sorgen mache, ist, dass Devin ununterbrochen zu programmieren scheint, wenn nicht nach dem API-Schlüssel gefragt werden muss.
Also versuchte er herauszufinden, ob er die Anfrage, die er zuvor gestellt hatte, ändern oder etwas anderes angeben konnte, was Devins Codierungsprozess unterbrach.
Da die meisten Benutzer beim Codieren möglicherweise ihre Meinung ändern oder etwas Neues zum System hinzufügen möchten, ist es notwendig, mit dieser Situation umgehen zu können.
Dies ist ein Screenshot während des Codierungsprozesses:
Die Browseroberfläche stellt sich wie folgt dar:
Dann hat der Typ eine weitere Anforderung für die Aufgabe der Datenvisualisierung gestellt Das System stellt hohe Temperaturen auf Blau und niedrige Temperaturen auf Rot ein.
Um den Codierungsprozess nicht zu unterbrechen, scheint Devin einen weiteren Arbeitsthread gestartet zu haben, um die vorübergehende Anfrage des Bruders aufzuzeichnen.
Schließlich hat Devin die APP für Netlify bereitgestellt und eine Anwendung wurde gestartet.
Link zur Webseite: https://t.co/wTbtz2waDn
Genau wie von Menschen geschriebene Programme muss die erste Version Fehler aufweisen.
Da ich nach dem Temperaturrekord der Antarktis fragte, schien es für Devin etwas schwierig zu sein, ihn zu verstehen.
Also habe ich den gewünschten Standort auf Nordamerika geändert.
Der Typ hat nicht das Ergebnis der Fehlerbehebung durch Devin angegeben, sondern nur eine vorläufige Zusammenfassung der Erfahrungen mit der Verwendung der ersten mit Devin entwickelten Website erstellt.
Lassen Sie uns zunächst über die Vorteile sprechen:
Devin hat bei der Produktisierung gute Arbeit geleistet und die Benutzererfahrung, die er den Menschen bietet, ist ein vollständiges Produkt und nicht nur ein einfaches Dialogfeld.
KI ist der kritischste Teil des Systems, aber die Produktstruktur, die die KI-Funktion unterstützt, ist Devins Highlight.
Devin kann jederzeit die automatische Bereitstellung, den API-Schlüsselschutz, das Ändern und Hinzufügen von Anforderungen sowie andere sehr gute Funktionen abschließen.
Der Fertigstellungsgrad des Produkts ist bereits sehr hoch und übertrifft die durchschnittliche Demo bei weitem.
Reden wir über die Mängel:
Devins Reaktion ist immer noch sehr langsam. Natürlich sagte der kleine Bruder auch, dass die langsame Reaktion wahrscheinlich seine eigene Schuld sei, weil er 1M Starlink für den Zugriff auf das Internet verwende .
Zweitens dürfen Benutzer den Code nicht direkt selbst bearbeiten und es gibt keine Möglichkeit, daran zusammenzuarbeiten.
Natürlich war Devin von der anfänglichen Schachspielanwendung überrascht und der Einsatz wurde am Ende nicht abgeschlossen. Und die Datenvisualisierungsaufgabe scheint einige Fehler zu haben.
Schließlich habe ich mit Devin ein Chrom-Plug-In erstellt, mit dem Benutzer Github-Repo in Claude-Prompt konvertieren können. ?? , diese Aufgabe ist ein Junior-Programm. Entwickler können es tun, aber das Ergebnis von Devins Visualisierungsprojekt ist nur eine fehlerhafte Webseite.
Es scheint, dass Devin im Wesentlichen nur ein großes Modell ist, auf das online zugegriffen werden kann. Jetzt ist es für ihn immer noch schwierig, praktische Probleme zu lösen.
Das obige ist der detaillierte Inhalt vonDevin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!