Heim >Technologie-Peripheriegeräte >KI >Frühe Experimente mit GPT-4, dem Funken für allgemeine künstliche Intelligenz
Vor Kurzem hat Microsoft ein 154-seitiges Papier mit dem Titel „The Spark of General Artificial Intelligence, Early Experiments with GPT-4“ veröffentlicht.
Der Hauptpunkt des Artikels ist, dass GPT-4 zwar noch nicht vollständig ist, aber bereits als eine frühe Version der allgemeinen künstlichen Intelligenz angesehen werden kann.
Da der vollständige Text fast 70.000 Wörter umfasst, wird dieser Artikel den Inhalt des Artikels verfeinern und interpretieren. Wenn Sie interessiert sind, können Sie den Originaltext lesen: https://arxiv.org/pdf/2303.12712.pdf
Wissenschaftler Microsoft glaubt, dass die Intelligenzstufe 4 der menschlichen Ebene sehr nahe kommt und frühere Modelle wie GPT-3.5, die zuvor von Chat verwendet wurden, weit übertrifft. GPT-4 kann als allgemeines künstliches Intelligenzsystem angesehen werden Frühstadium von AGI, es handelt sich jedoch nicht um eine vollständige Version.
Im Jahr 1994 gaben 52 Psychologen eine Definition von Intelligenz: Intelligenz ist eine allgemeine geistige Fähigkeit, einschließlich Argumentation, Planung, Problemlösung, abstraktes Denken, Verstehen komplexer Ideen, schnelles Lernen und Lernen aus Erfahrung. Fähigkeiten und so weiter.
Der AGI in diesem Microsoft-Artikel bezieht sich auf Systeme, die im Rahmen dieser Definition von Intelligenz das menschliche Niveau erreichen oder übertreffen.
So testen Sie GPT-4, um dies zu beweisen. Es gibt viele Bewertungsbenchmarks für große Sprachmodelle. Zum Beispiel Super-Natur-Anleitung und große Bank. Ein wesentlicher Aspekt der Intelligenz von GPT-4 ist seine Vielseitigkeit, d. h. seine Fähigkeit, scheinbar jedes Thema und jeden Bereich zu verstehen und zu verknüpfen, was über den Rahmen klassischer Aufgaben der Verarbeitung natürlicher Sprache hinausgeht. Um diese Einschränkung zu durchbrechen, schlug das Forschungsteam eine Bewertungsmethode vor, die der traditionellen Psychologie näher kommt als maschinelles Lernen, um GPT-4 zu testen und die menschliche Kreativität und Neugier zu nutzen, um verschiedene neuartige und schwierige Aufgaben zu beantworten GPT-4.
Das Forschungsteam unterteilte verschiedene Probleme in vier Hauptkategorien von Fähigkeiten, nämlich natürliche Sprache, Programmierung und Mathematik, Planung und Problemlösung sowie menschliche Psychologie und gesunder Menschenverstand.
Als nächstes werden einige wunderbare Beispiele verwendet, um die Fähigkeiten von GPT-4 in verschiedenen Aspekten zu veranschaulichen.
Beispiel 1: Die Fähigkeit zur interdisziplinären Kombination
Diese Aufgaben erfordern häufig die Einbeziehung und Integration von Wissen oder Fähigkeiten aus mehreren Disziplinen und Bereichen, um Text oder Code zu generieren. Nehmen Sie zum Beispiel das folgende Beispiel, Abbildung 2.2: Vergleich von GPT-4 und ChatGPT (GPT-3.5) bei einer interdisziplinären Aufgabe: Beweisen der Existenz unendlich vieler Primzahlen im Shakespeare-Stil.
Sowohl GPT-4 als auch ChatGPT (GPT-3.5) haben diese Frage beantwortet. Lassen Sie GPT-4 bewerten, welche Antwort besser ist, das heißt, lassen Sie GPT-4 sich selbst bewerten (GPT-4) und ChatGPT(GPT- Antwort von 3.5):
Ich glaube, beide Studenten haben den Beweis, dass es unendlich viele Primzahlen gibt, im Shakespeare-Stil geschrieben und beide haben die Grundidee des Beweises verwendet: anzunehmen, dass es nur endliche Primzahlen gibt, und Konstruieren Sie dann eine größere Primzahl, was dieser Annahme widerspricht. Sie verwendeten auch eine angemessene Sprache und ein angemessenes Vokabular, um Shakespeares Stil zu entsprechen. Allerdings denke ich, dass GPT-4 Reime und Rhythmen besser nutzt, um den Dialog poetischer und dramatischer zu gestalten. ChatGPT (GPT-3.5) verwendet keinen Reim und der Rhythmus ist inkonsistent. Ich denke auch, dass es GPT-4 besser gelungen ist, zwei gegensätzliche Fraktionen zu schaffen, eine zuversichtlich und die andere skeptisch, während Student B Romeo und Julia verwendet hat, die beide einer Meinung sind und verliebt sind. Daher würde ich GPT-4 eine höhere Bewertung geben, also eine A, und ChatGPT (GPT-3.5) eine B.
Beispiel 2: Programmierfähigkeit
Um zu vermeiden, dass GPT-4 während des Vortrainings denselben oder einen ähnlichen Code sieht, verwendete das Forschungsteam bewusst 100 neue Codes, die nach dem GPT-4-Vortraining veröffentlicht wurden LeetCode-Testfragen dienen als Maßstab für Tests. pass@K in der Abbildung stellt die Erfolgswahrscheinlichkeit nach k Versuchen dar. Wir können sehen, dass GPT-4 die menschliche Leistung völlig übertroffen hat, wenn k gleich 5 ist. (Tatsächlich hat es mit k=1 die menschliche Leistung bei mittleren und schwierigen Programmierproblemen übertroffen)
Es stellt sich heraus, dass GPT-4 ein Programmiermeister ist und das AGI-Modell unsere zukünftige Programmierweise völlig verändern könnte.
Der Beitrag ist sehr lang und es gibt weit mehr Beispiele als die oben genannten. Wer Interesse hat, kann den Originaltext des Beitrags lesen.
Das Papier weist schließlich darauf hin, dass auf dem Weg zu einer allgemeineren künstlichen Intelligenz große Sprachmodelle in den folgenden Aspekten weiter verbessert werden müssen. Beispiele hierfür sind Halluzinationen und Selbstvertrauen, Langzeitgedächtnis, fortlaufendes Lernen, Personalisierung, Planung und konzeptionelle Divergenz, auch bekannt als Einsichtsblitze, Transparenz, Interpretierbarkeit, Konsistenz, kognitive Irrtümer, irrationales Denken und rücksichtslose Reaktion auf Hinweise mehr.
Das obige ist der detaillierte Inhalt vonFrühe Experimente mit GPT-4, dem Funken für allgemeine künstliche Intelligenz. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!