Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  GPT-5: 4 neue Funktionen, die wir sehen möchten

GPT-5: 4 neue Funktionen, die wir sehen möchten

王林
王林Original
2024-06-14 16:02:14322Durchsuche

Zumindest hoffen wir das. Es gibt keinen konkreten Starttermin für GPT-5 und das meiste, was wir zu wissen glauben, stammt aus der Zusammenstellung anderer Informationen und dem Versuch, die Zusammenhänge zu verstehen.

Unabhängig vom Fälligkeitsdatum gibt es jedoch ein paar wichtige Funktionen, die wir sehen möchten, wenn GPT-5 startet.

Was ist GPT-5 von OpenAI?

GPT-5 ist der mit Spannung erwartete Nachfolger des GPT-4-KI-Modells von OpenAI, von dem allgemein angenommen wird, dass es das leistungsstärkste generative Modell auf dem Markt ist. Obwohl es derzeit keinen offiziellen Veröffentlichungstermin für GPT-5 gibt, gibt es Hinweise darauf, dass die Veröffentlichung bereits im Sommer 2024 erfolgen könnte. Derzeit sind nur sehr wenige Details über das Modell bekannt, aber einiges lässt sich schon sagen Gewissheit:

OpenAI hat eine Marke für den Namen beim US-amerikanischen Patent- und Markenamt angemeldet. Mehrere OpenAI-Führungskräfte haben die möglichen Fähigkeiten des Modells diskutiert oder angedeutet. Sam Altman, CEO von OpenAI, erwähnte das Modell wiederholt während eines YouTube-Interviews mit Lex Fridman im März 2024.

Dies alles deutet auf eine aufregende Realität hin: GPT-5 kommt! Allerdings sind derzeit viele Dinge Spekulationen. Aber es gibt ein paar Dinge, die wir hoffentlich sehen werden und von denen wir ziemlich überzeugt sind, dass wir sie in dem Modell sehen werden. Hier sind einige davon:

1. Mehr Multimodalität

GPT-5: 4 New Features We Want to See

Eine der aufregendsten Verbesserungen der GPT-Familie von KI-Modellen war die Multimodalität. Zur Klarstellung: Multimodalität ist die Fähigkeit eines KI-Modells, mehr als nur Text, sondern auch andere Arten von Eingaben wie Bilder, Audio und Video zu verarbeiten. Multimodalität wird in Zukunft ein wichtiger Maßstab für die Weiterentwicklung der GPT-Modellfamilie sein.

Da GPT-4 bereits gut mit Bildein- und -ausgaben umgehen kann, sind Verbesserungen bei der Audio- und Videoverarbeitung der nächste Meilenstein für OpenAI, und GPT-5 ist ein guter Ausgangspunkt. Google macht mit seinem Gemini-KI-Modell bereits große Fortschritte bei dieser Art der Multimodalität. Es wäre untypisch für OpenAI, nicht zu antworten. Aber vertrauen Sie uns natürlich nicht beim Wort. In seinem Unconfuse Me-Podcast [PDF-Transkript] fragte Bill Gates OpenAI-CEO Sam Altman, welche Meilensteine ​​er für die GPT-Reihe in den nächsten zwei Jahren vorhersah. Seine erste Antwort? Videoverarbeitung.

Für GPT-5 erwarten wir also, dass wir mit Videos experimentieren können – Videos als Eingabeaufforderungen hochladen, unterwegs Videos erstellen, Videos mit Texteingabeaufforderungen bearbeiten, Segmente aus Videos extrahieren und bestimmte Szenen aus großen Videodateien finden . Wir gehen davon aus, dass wir ähnliche Dinge auch mit Audiodateien machen können. Das ist eine große Frage, ja. Angesichts der Geschwindigkeit der KI-Entwicklung ist dies jedoch eine durchaus berechtigte Erwartung.

2. Größeres und effizienteres Kontextfenster

GPT-5: 4 New Features We Want to See

Obwohl die GPT-Familie von KI-Modellen eines der fortschrittlichsten KI-Modelle auf dem Markt ist, verfügt sie über eines der kleinsten Kontextfenster. Beispielsweise verfügt Claude 3 von Anthropic über ein Kontextfenster von 200.000 Token, während Gemini von Google unglaubliche 1 Million Token verarbeiten kann (128.000 bei Standardnutzung). Im Gegensatz dazu verfügt GPT-4 über ein relativ kleineres Kontextfenster von 128.000 Token, wobei realistischerweise etwa 32.000 Token oder weniger für die Verwendung auf Schnittstellen wie ChatGPT verfügbar sind.

Mit der zunehmenden Multimodalität ist ein verbessertes Kontextfenster fast unvermeidlich. Vielleicht würde eine Steigerung um den Faktor zwei oder vier ausreichen, aber wir hoffen auf etwa einen Faktor zehn. Dadurch kann GPT-5 viel mehr Informationen viel effizienter verarbeiten. Nun bedeutet ein größeres Kontextfenster nicht immer besser. Anstatt also nur das Kontextfenster zu vergrößern, würden wir uns eine höhere Effizienz der Kontextverarbeitung wünschen.

Sie sehen, ein Modell verfügt möglicherweise über ein Kontextfenster mit einer Million Token (ca. 700.000 Wörter Kapazität), kann aber keine umfassende Zusammenfassung erstellen, wenn es aufgefordert wird, ein Buch mit 500.000 Wörtern zusammenzufassen, da es den gesamten Kontext trotzdem nicht angemessen verarbeiten kann theoretisch dazu in der Lage sein. Dass Sie ein Buch mit 500.000 Wörtern lesen können, bedeutet nicht, dass Sie sich an alles darin erinnern oder es sinnvoll verarbeiten können.

3. GPT Agents

GPT-5: 4 New Features We Want to See

Eine der vielleicht aufregendsten Möglichkeiten einer GPT-5-Veröffentlichung ist das Debüt von GPT Agents. Während der Begriff „Game-Changer“ in der KI wahrscheinlich überbeansprucht wurde, wären GPT-Agenten in jeder praktischen Hinsicht wirklich Game-Changer. Aber wie bahnbrechend wäre das?

Derzeit können KI-Modelle wie GPT-4 Ihnen bei der Erledigung einer Aufgabe helfen. Sie können eine E-Mail schreiben, einen Witz reißen, eine Matheaufgabe lösen oder einen Blogbeitrag für Sie verfassen. Sie können jedoch nur diese bestimmte Aufgabe erledigen und nicht eine Reihe damit verbundener Aufgaben erledigen, die zur Erledigung Ihrer Aufgabe erforderlich wären.

Nehmen wir an, Sie sind Webentwickler. Im Rahmen Ihrer Arbeit wird von Ihnen erwartet, dass Sie viele Dinge tun: entwerfen, Code schreiben, Fehler beheben und vieles mehr. Derzeit können Sie jeweils nur einen Teil dieser Aufgaben an KI-Modelle delegieren. Vielleicht können Sie das GPT-4-Modell bitten, einen Code für die Startseite zu schreiben, ihn dann bitten, dies für die Kontaktseite und dann für die Info-Seite usw. zu tun. Sie müssen diese Aufgaben iterativ ausführen. Und es gibt Aufgaben, die die Modelle einfach nicht erledigen können.

Dieser iterative Prozess, KI-Modelle für bestimmte Teilaufgaben aufzufordern, ist zeitaufwändig und ineffizient. In diesem Szenario sind Sie – der Webentwickler – der menschliche Agent, der dafür verantwortlich ist, die KI-Modelle eine Aufgabe nach der anderen zu koordinieren und anzuregen, bis Sie einen ganzen Satz verwandter Aufgaben abgeschlossen haben.

GPT Agents verspricht spezialisierte Experten-Bots, die hoffentlich von GPT-5 koordiniert werden und in der Lage sind, alle Teilmengen einer komplexen Aufgabe selbstständig zu steuern und zu bewältigen. Betonung auf „selbstgesteuert“ und „autonom“.

Wenn GPT-5 also mit GPT-Agenten ausgeliefert wird, könnten Sie es bitten, „eine Portfolio-Website für Maxwell Timothy zu erstellen“, anstatt nur „mir einen Code für die Homepage zu schreiben“. GPT-5 wäre dann theoretisch in der Lage, sich selbst zu steuern, indem es erfahrene KI-Agenten einsetzt, um die verschiedenen Teilaufgaben zu erledigen, die zum Erstellen einer Website erforderlich sind. Es könnte einen GPT aufrufen, um das Web nach Informationen über Maxwell Timothy zu durchsuchen, einen anderen Agenten, um den Code für verschiedene Seiten zu schreiben, einen anderen Agenten, um Bilder zu generieren und zu optimieren, und sogar einen anderen KI-Agenten, um die Website bereitzustellen, und das alles ohne die Notwendigkeit wiederholter menschlicher Eingriffe Aufforderung.

4. Weniger Halluzinationen

Obwohl OpenAI in seinen KI-Modellen beim Umgang mit Halluzinationen große Fortschritte gemacht hat, wird der wahre Lackmustest für GPT-5 seine Fähigkeit sein, das anhaltende Problem der Halluzinationen anzugehen, das die weit verbreitete Entwicklung zurückgehalten hat Einführung von KI in wichtigen, sicherheitskritischen Bereichen wie Gesundheitswesen, Luftfahrt und Cybersicherheit. Dies sind alles Bereiche, die von einer starken KI-Beteiligung stark profitieren würden, sich jedoch derzeit einer nennenswerten Einführung entziehen.

Zur Verdeutlichung: Halluzination bezieht sich in diesem Zusammenhang auf Situationen, in denen das KI-Modell plausibel klingende, aber vollständig erfundene Informationen mit einem hohen Maß an Vertrauen generiert und präsentiert.

Stellen Sie sich ein Szenario vor, in dem GPT-4 in ein Diagnosesystem zur Analyse von Patientensymptomen und medizinischen Berichten integriert ist. Eine Halluzination könnte dazu führen, dass die KI selbstbewusst eine falsche Diagnose stellt oder eine potenziell gefährliche Behandlung empfiehlt, die auf eingebildeten Fakten und falscher Logik basiert. Die Folgen eines solchen Fehlers im medizinischen Bereich könnten katastrophal sein.

Ähnliche Vorbehalte gelten für andere Bereiche mit hoher Tragweite, wie zum Beispiel Luftfahrt, Kernenergie, maritime Operationen und Cybersicherheit. Wir gehen nicht davon aus, dass GPT-5 das Halluzinationsproblem vollständig lösen wird, aber wir gehen davon aus, dass es die Möglichkeit solcher Vorfälle deutlich reduzieren wird.

Während wir gespannt auf die offizielle Veröffentlichung dieses mit Spannung erwarteten KI-Modells warten, ist eines sicher: GPT-5 hat das Potenzial, die Grenzen dessen, was mit künstlicher Intelligenz möglich ist, neu zu definieren und eine neue Ära der Mensch-Maschine-Zusammenarbeit einzuleiten Innovation.

Das obige ist der detaillierte Inhalt vonGPT-5: 4 neue Funktionen, die wir sehen möchten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn