Heim >Technologie-Peripheriegeräte >KI >Lesen Sie die Hälfte von „Das Drei-Körper-Problem' in einem Rutsch! Der stärkste Konkurrent von GPT-4 wurde plötzlich auf 100.000 Token hochgestuft und die Demonstration des Papiercodes war abgeschlossen

Lesen Sie die Hälfte von „Das Drei-Körper-Problem' in einem Rutsch! Der stärkste Konkurrent von GPT-4 wurde plötzlich auf 100.000 Token hochgestuft und die Demonstration des Papiercodes war abgeschlossen

PHPznach vorne: 2023-05-17 17:52:181362Durchsuche

Als sich GPT-4 32K noch in der internen Testphase befand, erhöhten die starken Konkurrenten von OpenAI direkt die Kontextlänge.

Erst heute gab das Startup Anthropic bekannt, dass Claude eine Kontext-Token-Länge von 100.000 unterstützen konnte, was etwa 75.000 Wörtern entspricht. Was ist dieses Konzept?

Nachdem der durchschnittliche Mensch etwa 5 Stunden braucht, um die gleiche Menge an Inhalten zu lesen, muss er immer noch mehr Zeit mit dem Verdauen, Auswendiglernen und Analysieren verbringen. Lesen Sie die Hälfte von „Das Drei-Körper-Problem in einem Rutsch! Der stärkste Konkurrent von GPT-4 wurde plötzlich auf 100.000 Token hochgestuft und die Demonstration des Papiercodes war abgeschlossen

Für Claude war es in weniger als 1 Minute erledigt.

Wirf das gesamte Buch „Der große Gatsby“ dazu, das etwa 72.000 Token hat, und ändere einen Satz: # 🎜🎜##🎜🎜 # Herr Carraway ist ein Softwareentwickler, der bei Anthropic an Tools für maschinelles Lernen arbeitet.

Kannst du es glauben? Claude brauchte nur 22 Sekunden, um den geänderten Satz zu finden.

Viele Internetnutzer sagten, dass mit Claude 100K das GPT-4 32K in ihren Händen nicht mehr gut sei.

Claude 100k, lecker!

Vor einiger Zeit diskutierten viele Leute in der OpenAI-Entwicklergemeinschaft über die Einführung von GPT-4 32K.

Darüber hinaus können viele GPT-4-Benutzer bereits die GPT-4 32k-Option auf ihrem PlayGround sehen. Lesen Sie die Hälfte von „Das Drei-Körper-Problem in einem Rutsch! Der stärkste Konkurrent von GPT-4 wurde plötzlich auf 100.000 Token hochgestuft und die Demonstration des Papiercodes war abgeschlossen

Netizens, die diese Version freigeschaltet haben, haben sie Hunderten von Menschen zugänglich gemacht Anhand eines Datenpunkts eines Benutzers, der HyperWrite deinstalliert hat, sagt GPT-4 ihm genau, welche Verbesserungen er als nächstes vornehmen sollte.

Er lobte, dass GPT-4 32k der beste Produktmanager der Welt sei.

Lesen Sie die Hälfte von „Das Drei-Körper-Problem in einem Rutsch! Der stärkste Konkurrent von GPT-4 wurde plötzlich auf 100.000 Token hochgestuft und die Demonstration des Papiercodes war abgeschlossen

32k ist so großartig, wäre es dann nicht noch besser? mit 100K? Stärker.

Offensichtlich hat OpenAIs mächtiger Rivale Anthropic zuerst die Nase vorn.

Die Kontextlänge des 100K-Tokens bedeutet, dass Sie Hunderte Seiten Textanalyse auf Claude hochladen können. Und die Gesprächsdauer hat sich erheblich verlängert und erstreckt sich auf Stunden oder sogar Tage.

Natürlich kann Claude neben dem Lesen langer Texte auch schnell die benötigten Informationen aus Dokumenten abrufen.

Sie können den Inhalt mehrerer Dokumente oder sogar eines Buches als Anregungen verwenden und dann Fragen stellen.

Wenn Sie in Zukunft auf einen Aufsatz stoßen, auch wenn dieser lang ist, bitten Sie Claude einfach, ihn zusammenzufassen. Das sind einfach gute Nachrichten für die Junioren, die es sind die Zeitung lesen.

Diese Art umfassender Fragen erfordert normalerweise die Analyse vieler Textteile Es gibt ein umfassendes Verständnis des Inhalts, und bei der Bewältigung dieses Problems kann man sagen, dass Claude besser ist als die auf Vektorsuche basierende Methode.

Claude kann auch Ihr „Code-Begleiter“ sein und in wenigen Minuten eine Demonstration durchführen.

Laden Sie beispielsweise ein 240-seitiges Langchain-API-Dokument hoch, lassen Sie es auf diesem Dokument basieren und verwenden Sie das Sprachmodell von Anthropic, um eine einfache Demonstration von Langchain zu erstellen.

Sie können Claude auch mit dem 85-seitigen Geschäftsbericht des Unternehmens füttern (10k).

Bitten Sie dann darum, die Punkte hervorzuheben, die für potenzielle Investoren am wichtigsten sind, und ihre Bedeutung zu erläutern.

Darüber hinaus kann Claude 100k auch etwa 6 Stunden Audiolautstärke bewältigen.

Zum Beispiel hat AssemblyAI den Inhalt eines Carmack-Podcasts in 58.000 Text-Tokens transkribiert und dann Claude zum Zusammenfassen und für Fragen und Antworten verwendet.

# 🎜 🎜#

Abschließend hat Claude zusammengefasst, was er tun kann, und die Berichterstattung kann als sehr umfassend bezeichnet werden.

- Dichte Dokumente wie Finanzberichte, Forschungsarbeiten usw. verstehen, zusammenfassen und interpretieren.

- Analysieren Sie die strategischen Risiken und Chancen des Unternehmens anhand des Geschäftsberichts. Risiken, Themen und unterschiedliche Argumentationsformen in Rechtsdokumenten

- Lesen Sie Hunderte Seiten Entwicklungsdokumentation und antworten Sie technische Fragen#🎜 🎜#

- Erstellen Sie schnell Prototypen, indem Sie Ihre gesamte Codebasis in einen Kontext setzen und sie intelligent erstellen oder ändern

Anthropic sagt natürlich, dass 100K-Kontext immer noch eine Beta-Funktion ist und in diesem Zeitraum zum Standard-API-Preis berechnet wird.

Die offizielle Website gibt auch den konkreten Preis an: # 🎜 ### #🎜 🎜 #

Abschluss: $0,00551 / 1K Token

Claude-v1

#🎜🎜 ## 🎜 🎜# Nr. 🎜🎜 #Im Vergleich zu OpenAI, dieser Preis ist bereits sehr erschwinglich.

Laut der offiziellen OpenAI-Website kostet die GPT-4 32k-Eingabeaufforderung 0,06 $ und die Fertigstellung 0,12 $. Entsprechend muss man das 5-6-fache des Preises ausgeben, um das Modell anzusprechen.

Netizens sagten, dass Claude 100k schneller und billiger ist als GPT-4 32k.

Netizen-Echttest

Ein solches Blockbuster-Update muss für das Erlebnis der Netizens unverzichtbar sein. Einige Internetnutzer sagten, dass 100.000 einfach unglaublich seien und mehrere vollständige Arbeiten, teilweise vollständige Codebasen und sogar einen 250-seitigen Roman verarbeiten könnten.

Übrigens haben viele Internetnutzer zuerst Claude getestet und festgestellt, dass die Wirkung ziemlich gut war.

Anfangs sind 100 KB auf die API beschränkt, und das von Claude angewendete Standardmodell ist immer noch 9 KB. Aber bald unterstützt die Claude-Anwendungsschnittstelle auch 100K.

Ein Internetnutzer nutzte den 100-seitigen „GPT-4 Technical Report“ Test, die Ergebnisse können nur als erstaunlich bezeichnet werden.

Einige Leute haben Dazai Osamus „menschliche Disqualifikation“ direkt gefüttert, fragte Claude danach Ich habe die Handlung der Geschichte auf Englisch gelesen und absolut zutreffende Antworten gegeben.

Gleichzeitig stellte dieser Internetnutzer den Toolformer ein Er hat den vollständigen Quellcode von Throw Zero dafür entwickelt und Claude beschreibt genau, wofür es verwendet wird.

Darüber hinaus lobte Claude auch die Modularität des Codes und machte Vorschläge für das Hinzufügen einiger Unit-Tests.

# 🎜 🎜#

Das Gedicht „Beowulf“ in die Mischung zu werfen und den Charakter von Beowulf zu analysieren, ist ebenfalls sehr treffend.

Nvidia-Wissenschaftler Jim Fan sagte, dass dies der Killertrick von Anthropic sei . Das zukünftige Wettrüsten in Bezug auf die Kontextlänge nimmt schnell zu.

In Bezug auf die Bedeutung der Unterstützung von 100k sagten Internetnutzer, dass thailändische Hosen scharf seien! Dies ist ein guter Beweis dafür, warum lange Texte für LLM wichtig sind. Viele Internetnutzer haben auf GPT-4 hingewiesen.

Die Geburt von Claude-100K hat AnthropicAI offiziell zu einem echten Konkurrenten von OpenAI gemacht.

„Viele Leute warten immer noch in der Schlange auf 32.000 GPT-4. Dieses Mal erweiterte Claude das Kontextfenster auf 100.000 Token, was ein riesiger Sprung war. #🎜 🎜#

Das bedeutet auch, dass Unternehmen wie OpenAI und Google in diesem Bereich konkurrieren müssen, was ein großer Gewinn für die Nutzer ist 》

#🎜 🎜##🎜🎜 #

Einige Internetnutzer beklagten, dass die Zeit zu schnell fortgeschritten sei.

Es dauerte weniger als einen Tag, bis Google bekannt gab, dass PaLM 2 sich bei fortgeschrittenen Inferenzaufgaben auszeichnet, während Claude von Anthropic jetzt 100.000 Token in weniger als einer Minute verarbeiten kann. Der Fortschritt der künstlichen Intelligenz ist in der Tat beeindruckend.

# 🎜 🎜#

Wenn der von Ihnen eingegebene Token jedoch weniger als 9K beträgt, scheint Antropic das Vorgängermodell aufzurufen.

# 🎜 🎜# Millionen Token, kein Traum

In den letzten Jahren war das Hazy Research Laboratory an der Stanford University mit einer wichtigen Arbeit beschäftigt, nämlich der Erhöhung der Sequenzlänge der Modell.

Aus ihrer Sicht wird dies eine neue Ära grundlegender Modelle für maschinelles Lernen einläuten.

Der von Forschern im Jahr 2022 vorgeschlagene FlashAttention-Algorithmus hat die Machbarkeit von 32k bewiesen.

Sogar Sam Altman sagte, wir wollen 32.000 Token.

Tatsächlich wurden nicht nur 32.000, sondern jetzt 100.000 erreicht, Auch eine Million Token ist nicht mehr weit entfernt.

„Absolut zu wild! Wird es in ein paar Jahren möglich sein, eine Token-Kontextlänge von 1 Million zu unterstützen?“ 🎜 🎜#

Vor einiger Zeit veröffentlichten Forscher von DeepPavlov, AIRI und dem London Mathematical Sciences Institute einen technischen Bericht mit The Recurrent Memory Transformer (RMT) erhöht die effektive Kontextlänge von BERT auf „beispiellose 2 Millionen Token“ und behält gleichzeitig eine hohe Speicherabrufgenauigkeit bei. Lesen Sie die Hälfte von „Das Drei-Körper-Problem in einem Rutsch! Der stärkste Konkurrent von GPT-4 wurde plötzlich auf 100.000 Token hochgestuft und die Demonstration des Papiercodes war abgeschlossen

Diese Methode kann lokale und globale Informationen speichern und verarbeiten und die Informationen an Ort und Stelle halten Verwenden von Schleifen. Fluss zwischen Segmenten der Eingabesequenz.

Obwohl RMT auf nahezu unendliche Sequenzlängen erweitert werden kann, ohne den Speicherverbrauch zu erhöhen, besteht immer noch das Problem des Speicherverfalls in RNN und einer längeren Argumentationszeit.

Tatsächlich verbirgt sich hinter RMT ein völlig neuer Speichermechanismus.

Die spezifische Operationsmethode besteht darin, das Modell durch Hinzufügen eines speziellen Speichertokens zur Eingabe- oder Ausgabesequenz zu trainieren, ohne das ursprüngliche Transformer-Modell zu ändern, um Speicheroperationen und -sequenzen zu steuern Repräsentationsverarbeitung.

Im Vergleich zu Transformer-XL benötigt RMT weniger Speicher und kann längere Aufgabensequenzen bewältigen.

Natürlich ist Claude 100k schon ein ziemlich großer Anfang, bevor man endlich eine Million Token erreicht.

Das obige ist der detaillierte Inhalt vonLesen Sie die Hälfte von „Das Drei-Körper-Problem' in einem Rutsch! Der stärkste Konkurrent von GPT-4 wurde plötzlich auf 100.000 Token hochgestuft und die Demonstration des Papiercodes war abgeschlossen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Token 循环算法人工智能 rnn transformer bert gpt-4 https 软件工程 mr gpt langchain prompt palm

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Dieser Artikel hilft Ihnen zu verstehen, was ein Gradientenabstieg istNächster Artikel：Dieser Artikel hilft Ihnen zu verstehen, was ein Gradientenabstieg ist

In Verbindung stehende Artikel

Mehr sehen