Heim >Technologie-Peripheriegeräte >KI >Wie ist die Kosteneffizienz der Modelle der GPT 3.5-Serie in den fünf Szenarien Interviews, englischsprachige E-Mails, Live-Übertragungen, wöchentliche Berichte und Lebensläufe? Wir haben reale Tests durchgeführt und einen Auswahlleitfaden bereitgestellt.

Wie ist die Kosteneffizienz der Modelle der GPT 3.5-Serie in den fünf Szenarien Interviews, englischsprachige E-Mails, Live-Übertragungen, wöchentliche Berichte und Lebensläufe? Wir haben reale Tests durchgeführt und einen Auswahlleitfaden bereitgestellt.

PHPz
PHPznach vorne
2023-05-08 19:43:171397Durchsuche

Welches Modell schneidet in der GPT 3.5-Serie am besten ab?

Wie schneidet die GPT 3.5-Serie tatsächlich bei häufigen Anwendungsaufgaben ab?

Wie viel kostet es im Allgemeinen, mit einem GPT 3.5-Modell verschiedene Fragen zu beantworten?

Diese Ausgabe von „SOTA! Tatsächliche Messung“

Das Folgende sind die Schlussfolgerungen der tatsächlichen Messung dieser Ausgabe (Detaillierte Bewertungen finden Sie am Ende des Artikels)

...


Modell

gpt-3.5-turbo

text-davinci-003

text-davinci-002

Anleitung

Es ist das derzeit leistungsstärkste GPT-3.5-Modell, speziell für Chat-Szenarien optimiert, und der Preis beträgt ein Zehntel von text-davinci-003.

Kann jede Sprachaufgabe mit besserer Qualität und längerer Ausgabe erledigen und befolgt Anweisungen besser als die Modelle Curie, Babbage oder Ada.

Verfügt über ähnliche Fähigkeiten wie text-davinci-003, wird jedoch durch überwachte Feinabstimmung und nicht durch verstärkendes Lernen trainiert, und die maximale Anzahl an Token beträgt 4097.

Maximale Anzahl an Token

4.096 Token

4.097 Token

4.097 Token

0,0200 $ / 1.000 Token

Gesamtbewertung

Die Gesamtpunktzahl ist hoch und zeigt eine hohe Genauigkeit und Professionalität. Die Ausgabeergebnisse sind relativ vollständig und reibungslos, und die Ausgabe für verschiedene Aufgaben ist ebenfalls relativ genau und umfassend starke Anpassungsfähigkeit und Vielseitigkeit und die niedrigsten Kosten.

Die Gesamtpunktzahl ist zwar relativ niedrig, bei manchen Aufgaben schneidet es jedoch insgesamt gut ab, insgesamt mangelt es den Ausgabeergebnissen an Personalisierung und Relevanz, der Ausdruck ist nicht präzise und prägnant genug und manchmal gibt es einige Ungenauigkeiten.

Die Gesamtpunktzahl ist nicht professionell und präzise genug. Es gibt auch große Probleme beim Sprachausdruck.

Bei der Aufgabe „Interviewfragenszenario“ hat gpt-3.5-turbo die höchste Gesamtpunktzahl und kann sich gut an das Interviewszenario anpassen. Die generierten Fragen sind sehr zielgerichtet und vermitteln ein tiefgreifendes Verständnis der Fähigkeiten und Erfahrungen des Kandidaten mehrere Blickwinkel; und text-davinci-002 erhielt die niedrigste Bewertung, da die Fragen zu weit gefasst waren und im Wesentlichen eine Wiederholung der Stellenbeschreibung darstellten, anspruchsvolle und praktische Fragen fehlten und sogar Inhalte generiert wurden, die völlig unbrauchbar waren.

In der englischen E-Mail-Schreibszenario-Aufgabe haben gpt-3.5-turbo und text-davinci-003 höhere Gesamtpunktzahlen, können gesprochene und formelle schriftliche Sprachstile simulieren und eignen sich gut für umgangssprachliche Ausdrücke und Mehrdeutigkeiten Verstehen und Übersetzen von Substantiven, kann jedoch unsichere Inhalte nicht richtig identifizieren, während text-davinci-002 die niedrigste Punktzahl aufweist, nicht gut zwischen gesprochener und geschriebener Sprache wechseln kann und unsichere Inhalte nicht richtig identifizieren kann.

Bei der Live-Übertragungsszenenaufgabe hat gpt-3.5-turbo die höchste Punktzahl, die den Live-Inhalt genau, prägnant und flüssig zusammenfassen kann und die Anforderungen an die Einfachheit erfüllt, während text-davinci-002 die niedrigste hat Score ist die Ausgabegenauigkeit durchschnittlich und kann sich nicht gut an die Szene anpassen, es gibt jedoch Raum für weitere Verbesserungen in Bezug auf Einfachheit und Flüssigkeit.

In der Szenarioaufgabe „Wochenbericht“ haben gpt-3.5-turbo und text-davinci-003 eine höhere Punktzahl und können die logische Struktur und die Inhaltspunkte des Wochenberichts genau darstellen, und der Ausgabeinhalt ist relativ vollständig ; während text-davinci -002 die niedrigste Bewertung aufweist, fehlt die Logik, um den wöchentlichen Bericht auszudrücken, die Struktur stimmt nicht überein und der Inhalt ist nicht relevant.

In der Lebenslauf-Szenario-Aufgabe hat gpt-3.5-turbo die höchste Punktzahl. Es kann professionell Lebensläufe erstellen, die den Anforderungen des Personalvermittlers entsprechen und den Bildungshintergrund, die Berufserfahrung, die Beherrschung der Fähigkeiten und die Selbsteinschätzung darstellen. Informationen, aber es muss mehr auf die Genauigkeit und Personalisierung des sprachlichen Ausdrucks geachtet werden, während text-davinci-003 und text-davinci-002 niedrigere Werte aufweisen, es an personalisierten und quantitativen Leistungsbeschreibungen mangelt und die Beschreibungen von Lebensläufen ebenfalls fehlen relativ einfach und unorganisiert.

Szene 1: Interviewfragen

gpt-3.5-turbo Die vom Modell generierten Interviewfragen decken die Hauptaufgaben und Anforderungen in der Stellenbeschreibung ab und passen sich dem Interviewszenario an. Die Fragen vermitteln ein tiefgreifendes Verständnis der Fähigkeiten und Erfahrungen des Kandidaten aus verschiedenen Blickwinkeln, einschließlich Berufserfahrung, Projekterfahrung, Fähigkeiten und persönlichen Merkmalen usw., und sind sehr zielgerichtet. Die Fragen haben einen praktischen Nutzen, sind gut auf die Position abgestimmt und können die Fähigkeiten des Kandidaten effektiv einschätzen.

text-davinci-003 Die vom Modell generierten Interviewfragen decken mehrere in der Stellenbeschreibung erwähnte Anforderungen und Fähigkeiten ab, einige Fragen sind jedoch nicht spezifisch und unklar. Die Bereiche müssen stärker segmentiert werden, da sonst die Fähigkeiten des Kandidaten nicht vollständig erfasst werden können. Die vom Modell generierten Fragen decken den beruflichen Hintergrund, die Projekterfahrung, die Fähigkeiten und die persönlichen Qualitäten des Kandidaten ab. Einige Fragen können jedoch spezifischer und ausführlicher sein, um die Fähigkeiten des Kandidaten besser beurteilen zu können.

text-davinci-002 Die vom Modell generierten Interviewfragen konzentrieren sich hauptsächlich auf Stellenanforderungen, aber diese Fragen sind zu weit gefasst und wiederholen im Grunde die Stellenbeschreibung, ohne auf den Grad der Übereinstimmung zwischen dem Kandidaten und der Stelle zu achten Anspruchsvollere und praktischere Fragen können nicht gestellt werden, und es kann sogar Situationen geben, in denen der ausgegebene Inhalt völlig unbrauchbar ist. Im Falle einer erfolgreichen Fragengenerierung decken die vom Modell generierten Fragen den beruflichen Hintergrund, die Projekterfahrung und die Fähigkeiten des Kandidaten ab. Einige Fragen können jedoch spezifischer und ausführlicher sein, um die Fähigkeiten des Kandidaten besser beurteilen zu können.

Wir wählen einen der Testfälle aus, um einen Blick darauf zu werfen -

Modellverbrauch

gpt-3.5-turbo verbraucht etwa 0,017 Yuan, Text- davinci -003 Es kostet ca. 0,22 Yuan und text-davinci-002 kostet etwa 0,19 Yuan.

Inferenzergebnisse

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

In Bezug auf Schwierigkeit und Relevanz der generierten Interviewfragen, gpt-3.5-tur bo Die Ausgabe des Modells ist die Am besten wirft es eine Reihe spezifischer Fragen zu den Anforderungen der Position auf, und diese Fragen sind auch sehr schwierig und zielgerichtet, wodurch die Fähigkeiten und Erfahrungen des Kandidaten effektiv getestet werden können. Die Ausgabe des text-davinci-002-Modells ist die einfachste oder sogar völlig unbrauchbar und kann nicht als Interviewfrage betrachtet werden. Die Ausgabe des text-davinci-003-Modells liegt zwischen den beiden. Die gestellten Fragen sind einfacher als die des gpt-3.5-turbo-Modells. Die Fragen sind nicht detailliert genug, aber spezifischer als das text-davinci-002-Modell.

In Bezug darauf, wie gut die Interviewfragen zur Stellenbeschreibung passen, passt das Ergebnis des gpt-3.5-turbo-Modells am besten zur Stellenbeschreibung. Es führt eine umfassende und detaillierte Analyse der Anforderungen der Position und der Ziele durch Es wurden entsprechende Fragen gestellt. Die Ausgabe des text-davinci-003-Modells spiegelt ebenfalls die Anforderungen für diese Position wider, die Anzahl und Abdeckung der Fragen ist jedoch relativ gering. Und text-davinci-002 kann als unverständlich bezeichnet werden.

Szenario 2: Englische E-Mail

Testszenario

Testwinkel

Generieren Sie Interviewfragen basierend auf der Stellenbeschreibung

Generieren Wie einfach es ist, Interviewfragen zu generieren

Wie gut generierte Interviewfragen zur Stellenbeschreibung passen

Generieren Sie Interviewfragen basierend auf Bewerberinformationen

Wie einfach ist es, Interviewfragen zu generieren? Fragen

Generieren Sie Interviewfragen und wie gut diese zum Kandidaten passen

Testszenario

Testwinkel

Fügen Sie Eigennamen mit speziellen Übersetzungen in den Eingabetext ein, Fachbegriffe in einem bestimmten vertikalen Feld Substantive mit unterschiedlicher Bedeutung in verschiedenen Szenarien

Ob die Semantik glatt ist, ob der erweiterte Inhalt korrekt ist, ob die Übersetzung mehrdeutiger Substantive korrekt ist und ob die Übersetzung von professionellen Substantiven/Eigennamen korrekt ist

In der Eingabe „umgangssprachlich“ ist erforderlich, „schriftliche“ Ausgabe

Kann es den gesprochenen oder formellen geschriebenen Sprachstil simulieren

Schreiben Sie während der Eingabe in einem umgangssprachlichen Ton und erfordern Sie eine „schriftliche“ Ausgabe, und Ist Ist es möglich, den gesprochenen oder formal geschriebenen Sprachstil zu simulieren, indem man einige Hintergrundinformationen weglässt und mehrdeutige Substantive in der Eingabe verwendet? Ob die umgangssprachlichen Ausdrücke richtig verstanden werden können? Verwandte Inhalte in der Eingabe

Ob unsichere Inhalte gefiltert werden? Können ausgelassene Sätze

Grammatikfehler, Tippfehler und unvollständige Sätze auf Chinesisch richtig filtern und verstehen?

gpt-3.5-turbo: Die Gesamtpunktzahl beträgt 3,3 Punkte. Die E-Mail-Struktur passt zur Szene, der Ton ist korrekt und die Abkürzung ist angemessen. Sofern die Eigennamen wissenschaftlicher Namen nicht grundsätzlich abgekürzt werden, ist sie gut Starke Emotionen bei umgangssprachlichen Eingaben können Eingabeprobleme wie Tipp- und Grammatikfehler korrekt korrigieren. Der Nachteil besteht darin, dass unsichere Inhalte nicht korrekt identifiziert werden.

text-davinci-003: Umfassende Bewertung von 3 Punkten, Der Aufbau verwendet gängige Vorlagen, es gibt keinen Titel, Satzverbindungen sind stumpf, unzureichende Erweiterung, Eigennamen und mehrdeutige Substantive werden richtig verstanden, Umgangssprache und Generation Höher als erwartet, unsichere Inhalte werden nicht richtig identifiziert.

text-davinci-002: Gesamtnote 2 Punkte, Der Aufbau nutzt gängige Vorlagen, es gibt keinen Titel, die Sätze sind nicht glatt oder gar falsch, die Absatzstruktur ist nicht offensichtlich, es gibt keine Erweiterung , es sei denn, das Eigenname des wissenschaftlichen Namens lautet „basic“. Abkürzungen werden angegeben, gesprochene und geschriebene Sprache kann nicht gut vertauscht werden und unsichere Inhalte werden nicht korrekt identifiziert.

Wir wählen einen der Testfälle aus, um einen Blick darauf zu werfen – Fügen Sie Eigennamen mit speziellen Übersetzungen, Fachbegriffe in einem bestimmten vertikalen Bereich und Substantivtests, die in verschiedenen Szenarien unterschiedliche Bedeutungen haben, in die Eingabe ein Text. Das Beispiel hat die folgende Eingabe: Modellverbrauch: Fügen Sie Eigennamen mit speziellen Übersetzungen, Fachbegriffe in einem bestimmten vertikalen Bereich und Substantivtests mit unterschiedlichen Bedeutungen in verschiedenen Szenarien ein Eingabetext Zum Beispiel verbraucht gpt-3.5-turbo etwa 0,006 Yuan, text-davinci-003 verbraucht etwa 0,067 Yuan, text-davinci-002 verbraucht etwa 0,07 Yuan

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何? In Bezug auf die semantische Glätte schnitten alle drei Modelle relativ gut ab, ohne offensichtliche Sprachprobleme oder Grammatikfehler. Im Hinblick darauf, ob der erweiterte Inhalt korrekt ist, sind die Antworten von gpt-3.5-turbo und text-davinci-003 relativ umfassend und bieten detaillierte Antworten auf jede Frage sowie einige relevante Vorschläge und Produktempfehlungen. Text-davinci-002 beantwortete nur wenige Fragen und lieferte nicht viele relevante Details und Vorschläge.

In Bezug darauf, ob die Übersetzung mehrdeutiger Substantive korrekt ist und ob die Übersetzung professioneller Substantive/Eigennamen korrekt ist, ist die Leistung der drei Modelle relativ gut. gpt-3.5-turbo und text-davinci-003, text-davinci-002 übersetzen beide korrekt Polytetrafluorethylen (PTFE) und perfluorierte Verbindungen (PFCs) unter Verwendung der korrekten englischen Begriffe. Anwendungsaufgabe Drei: Live-Übertragungsunterstützung

Testszenario

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

Testwinkel

Zusammenfassen zu einer Zusammenfassung basierend auf dem Live-Textinhalt

Die Genauigkeit, Verfeinerung und Fließfähigkeit der generierten Inhaltszusammenfassung

Verfeinerung mehrerer Schlüsselpunkte basierend auf dem Live-Textinhalt

Die Genauigkeit, Verfeinerung und Verfeinerung der Schlüsselpunkte von der generierte Inhalt, die Beherrschung der Sprache

Schreiben Sie eine Live-Übertragungsskizze basierend auf dem Live-Übertragungsthema

Die Qualität der generierten Live-Übertragungsskizze; die Relevanz für das Thema

Basierend auf dem Textinhalt der Live-Übertragung finden Sie die Antwort auf die Frage heraus

Die Qualität der generierten Antwort; Genauigkeit

gpt-3.5-turbo: Die Gesamtpunktzahl beträgt 4,4 Punkte, Das Modell setzt die vom Nutzer gestellten Anforderungen genau und präzise um, spiegelt die Eingaben im Ausgabeinhalt wider, passt zum Thema und zur Szene, wird präzise ausgedrückt, und die ursprünglichen Informationen nicht auslässt oder verfälscht, in der Lage sein muss, Antworten auf Fragen prägnant zu organisieren, den Einfachheitsanforderungen in den Anforderungen zu folgen, eine reibungslose Ausgabe zu ermöglichen, über prägnante und klare Satzstrukturen und klare Ausdrücke zu verfügen.

text-davinci-003: Die Gesamtpunktzahl beträgt 4,2 Punkte, Die Genauigkeit der Modellzusammenfassung ist hoch, der generierte Inhalt entspricht den Anforderungen der Szene, es fehlen keine Informationen und es werden keine unnötigen Informationen hinzugefügt, und die Sprachkenntnisse sind ebenfalls gut. Erfüllen Sie die Anforderungen an die Geläufigkeit und Prägnanz des Inhalts. Es besteht jedoch Bedarf an einer stärkeren Verfeinerung und Vereinfachung der Sprache, während die generierten Inhalte keine zusätzlichen Analysen und Erkenntnisse bieten und eine größere Breite und Tiefe erfordern.

text-davinci-002: Die Gesamtpunktzahl beträgt 1,5 Punkte, Die Modellausgabegenauigkeit ist durchschnittlich, einige grundlegende Abdeckungsproblempunkte, die meisten passen sich nicht gut an die Szene an, die generierte Satzstruktur ist relativ komplex und Wortredundanz ist offensichtlich, der sprachliche Ausdruck ist etwas steif, was das Verständnis des Textes und die Leseflüssigkeit des Lesers beeinträchtigen kann. Es gibt noch Raum für weitere Verbesserungen in Bezug auf Einfachheit und Flüssigkeit.

Wählen wir einen der Testfälle aus, um einen Blick darauf zu werfen -

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

Kostkonsum. Schreiben Sie einen Live -Sendungs ​​-Umriss -Test basierend auf dem Live -Broadcast -Thema GPT, GPT -3,5- Turbo verbraucht etwa 0,01 Yuan, Text-Davinci-003 verbraucht etwa 0,11 Yuan, Text-Davinci-002 verbraucht etwa 0,071 Yuan

gpt -3.5- Die Ausgabe von Turbo entspricht eher den Themenanforderungen als die der beiden anderen Modelle, und der Inhaltsüberblick ist auch reichhaltiger und umfassender, einschließlich der Kombination aus AIGC-Technologie und Inhaltsindustrie, erfolgreichen Fällen und zukünftigen Entwicklungsrichtungen usw . Die Gesamtqualität ist höher. Die Ausgabe von

text-davinci-003 ist ebenfalls bis zu einem gewissen Grad verwendbar, es mangelt ihr jedoch etwas an Relevanz für das Thema, vor allem nach der Einführung von AIGC und seiner Geschichte sowie der in der Gliederung erwähnten Frage, wie man die Content-Branche öffnet Inhalte wie das Tor und die Zukunft von AIGC haben keinen engen Bezug zum Thema und sind relativ allgemeiner. Die Ausgabe von text-davinci-002 unterscheidet sich deutlich von den Themenanforderungen. Obwohl darin ein Überblick über AIGC als Content-Produktionsunternehmen erwähnt wird, ähnelt der Inhalt eher einer Unternehmensvorstellung, die nicht in direktem Zusammenhang mit dem steht Thema und keine Live-Übertragung. Die praktische Bedeutung der Gliederung.

Szene 4: Wöchentlicher Arbeitsbericht

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

Testszenario

Inspektionswinkel

Wochenbericht basierend auf dem vorgegebenen Arbeitsinhalt ausgeben# 🎜🎜## 🎜🎜#Vorhersagefähigkeit berücksichtigen Die Übereinstimmung zwischen Stellenanforderungen und Lebenslauf

Berücksichtigen Sie die Polierfähigkeit, die Erweiterungsfähigkeit sowie die Vollständigkeit und Perfektion des Ausgabeinhalts

Geben Sie einen wöchentlichen Bericht basierend auf der gegebenen groben Beschreibung aus verschiedene Berufe Die Qualität des wöchentlichen Berichts, der von der Person ausgegeben wird, die den groben Arbeitsinhalt vorgibt. Vorlagenstruktur, Ausgabe des vorlagenbasierten wöchentlichen Berichts Wochenbericht nach bekannten Vorgaben ausgeben#🎜🎜 #

Basierend auf dem Arbeitsinhalt dieser Woche, wöchentliche Ausgabe der nächsten Woche Arbeitsbericht

# 🎜🎜#

gpt-3.5-turbo: Die Gesamtpunktzahl beträgt 3,4 Punkte Der Arbeitsinhalt wird in Form eines relativ standardisierten Wochenberichts dargestellt, der durch Titel, Zeit, Arbeitszusammenfassung dieser Woche, Arbeitsplan für ausgedrückt wird Nächste Woche und Zusammenfassungsvorlage können durch einige wichtige Arbeitsaufgaben, berufliche Verantwortlichkeiten usw. mit tieferen und detaillierteren Inhalten verknüpft werden. Insgesamt ist der Ausgabeinhalt relativ vollständig, mit einer klaren Struktur und einer klaren logischen Ebene.

text-davinci-003: Die Gesamtpunktzahl beträgt 3,1 Punkte, Den gegebenen Inhalt in Form eines Absatzes ausdrücken, die Anforderungen vollständiger erfüllen und einen Teil der Arbeit integrieren können Inhalte mit denselben Attributen weisen eine gewisse Logik, klare Ebenen und eine gewisse Praktikabilität auf. Allerdings reicht die Anpassungsfähigkeit an die Szene nicht aus, es mangelt teilweise an der Erweiterung, die Struktur ist nicht klar genug und es mangelt an Organisation.

text-davinci-002: Die Gesamtpunktzahl beträgt 1,5 Punkte, das Eingabeinhaltsszenario kann nicht richtig verstanden werden, der Ausgabeinhalt drückt nicht das Thema und die Logik des Wochenberichts aus, die Struktur stimmt nicht überein, Der Inhalt ist nicht angemessen, es gibt Prozessaussagen, nein. Das Modell schneidet bei jeglicher Erweiterungsfähigkeit schlecht ab, selbst wenn eine direkte Übersetzung des Eingabeinhalts und eine Nacherzählung der letzten Antwort erfolgt. Wir wählen einen der Testfälle aus, um einen Blick darauf zu werfen die grobe Beschreibung gegeben , gpt-3.5-turbo verbraucht etwa 0,0065 Yuan, text-davinci-003 verbraucht etwa 0,094 Yuan, text-davinci-002 verbraucht etwa 0,072 Yuan

Für diese Mission ist die Ausgabequalität der drei Modelle relativ gut und sie decken alle den Hauptarbeitsinhalt dieser Woche ab, es gibt jedoch einige subtile Unterschiede. Die Ausgabe von gpt-3.5-turbo ist relativ detaillierter und listet die Details jeder Aufgabe auf, z. B. Designprozess, Schnittstelle, Bewertungskriterien usw., und schlägt auch den Plan für die nächsten Schritte vor, damit die Leser des wöchentlichen Berichts dies tun können verstehen, um weitere Informationen zu erhalten. Die Ausgabe von

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?text-davinci-003 enthält ebenfalls einige detaillierte Informationen, legt jedoch mehr Wert auf technische Details, einschließlich der Datenquelle des Bewertungssystems, Bewertungsgegenstände, Bewertungsmethoden usw. Dieser wöchentliche Bericht konzentriert sich mehr auf die technische Ebene. Die Ausgabe von

text-davinci-002 ist prägnanter und klarer, aber immer noch klar. Es konzentriert sich auf die allgemeine Ausrichtung des Projekts und der Arbeit und enthält weniger Beschreibungen von Details.

Im Allgemeinen kann die Ausgabe der drei Modelle die Anforderungen der Aufgabe erfüllen, aber die Ausgabe von gpt-3.5-turbo und text-davinci-003 ist detaillierter und bietet mehr Details und technische Informationen Wenn Sie einen umfassenderen Wochenbericht benötigen, können Sie zwischen diesen beiden Modellen wählen. Die Ausgabe von text-davinci-002 ist prägnanter und klarer und eignet sich für diejenigen, die einen kurzen, aber klaren Wochenbericht benötigen.

Szene fünf: Lebenslauf

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

Testszenario

Inspektionswinkel

Erstellen Sie einen Lebenslauf basierend auf den beruflichen Verantwortlichkeiten

Erstellen Sie einen Lebenslauf basierend auf den Stellenanforderungen

Laut die Jobposition. Lebenslaufvorlage generieren

Vorlage für Professionalität und passenden Abschluss generieren

gpt-3.5-turbo: Die Gesamtpunktzahl beträgt 4 Punkte, hohe Professionalität, alle Aspekte der Anforderungen des Vorlagenausgabejobs werden abgedeckt, und der Inhalt ist genau; es stellt die Fähigkeiten und Merkmale der Erfahrung dar, die den Stellenanforderungen entsprechen, so dass der Leser sie auf einen Blick verstehen kann und es einfacher ist, die Anforderungen des Personalvermittlers vollständig zu erfüllen; Die Vorlage ist vollständig, vom Bildungshintergrund bis zur Berufserfahrung, der Beherrschung der Fähigkeiten und der Selbsteinschätzung. Alle sind beteiligt, was dem Personalvermittler ein umfassendes Verständnis vermitteln kann. Es fehlt jedoch an Personalisierung, die Ausdrucksform ist einheitlich und die im sprachlichen Ausdruck verwendeten Wörter müssen berücksichtigt werden.

text-davinci-003: Die Gesamtpunktzahl beträgt 1,9 Punkte, fehlen konkrete Projektfälle und Ergebnisse zeigen. Es gibt keine personalisierte Beschreibung der Stellenausschreibung. Obwohl im Lebenslauf eine Reihe von Bedingungen erwähnt wurden, die die Einstellungsanforderungen erfüllen, wurden die Merkmale und Bedürfnisse der Einstellungsposition nicht speziell beschrieben und hervorgehoben. Fehlende quantitative Beschreibung der Ergebnisse. Der sprachliche Ausdruck ist nicht prägnant und präzise genug.

text-davinci-002: Die Gesamtpunktzahl beträgt 1,3 Punkte und ist zu gering erfüllen keine Anforderungen. Mangel an klaren Zielen bei der Jobsuche, Mangel an Personalisierung und Relevanz, Mangel an quantitativen Indikatoren, relativ einfache Beschreibungen von Erfahrungen und Fähigkeiten, relativ einfaches Format , nicht standardmäßig, schlechte Modellleistung. Unterschied.

Wählen wir einen der Testfälle aus, um einen Blick darauf zu werfen -

#🎜 🎜 #

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

Verbrauchskosten# 🎜 🎜 #

Ein Testbeispiel für die Generierung einer Lebenslaufvorlage basierend auf der Stellenposition, gpt-3.5-turbo verbraucht etwa 0,0077 Yuan, text-davinci-003 verbraucht etwa 0,1 Yuan, text-davinci-002 verbraucht ca. 0,022 Yuan # 🎜🎜##🎜🎜 #

In Bezug auf Professionalität und Übereinstimmung der generierten Vorlagen können Sie sehen, dass sowohl gpt-3.5-turbo als auch text-davinci-003 dies können bieten relativ vollständige Lebenslaufvorlagen. Sie enthalten Schlüsselelemente wie persönliche Informationen, Bildungshintergrund, Berufserfahrung, berufliche Fähigkeiten und Selbsteinschätzung und sind außerdem relativ standardisiert im Format.

Aber wenn man genau hinschaut, erkennt man, dass text-davinci-003 offensichtliche Konflikte mit der Realität aufweist. Es beschreibt nicht speziell den Zusammenhang zwischen beruflichen Anforderungen und persönlichem Fähigkeiten Im Bereich „Berufliche Fähigkeiten“ ist der Kandidat beispielsweise mit der Bedienung von Computern und CET-6 vertraut, ihm fehlen jedoch die beruflichen Fähigkeiten und Kenntnisse im Zusammenhang mit der Position des Verkäufers von gebackenen Süßkartoffeln. Text-davinci-002 ist relativ kurz und enthält nur grundlegende Informationen wie Ziele, Fähigkeiten, Erfahrung und Bildungshintergrund des Bewerbers. Vergleichszusammenfassung von 3 Modellen der GPT 3.5-Serie

In der Interviewszenarioaufgabe hat gpt-3.5-turbo die höchste Gesamtpunktzahl und kann Gute Leistung Es passt sich gut an das Interviewszenario an und die generierten Fragen sind sehr zielgerichtet und bieten ein detailliertes Verständnis der Fähigkeiten und Erfahrungen des Kandidaten aus mehreren Blickwinkeln, während text-davinci-002 die niedrigste Punktzahl aufweist und im Grunde die Stellenbeschreibung wiederholen, es fehlen sexuelle und praktische Probleme und sogar Situationen, in denen der generierte Inhalt völlig unbrauchbar ist. 实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

In der englischen E-Mail-Schreibszenarioaufgabe haben gpt-3.5-turbo und text-davinci-003 höhere Gesamtpunktzahlen und können gesprochene und formale geschriebene Sprachstile simulieren. hat ein gutes Verständnis und eine gute Übersetzung von umgangssprachlichen Ausdrücken und mehrdeutigen Substantiven, kann jedoch unsichere Inhalte nicht richtig identifizieren, während text-davinci-002 die niedrigste Punktzahl hat und nicht gut zwischen gesprochener und geschriebener Sprache wechseln kann, nein. Unsichere Inhalte richtig identifizieren.

Bei der Live-Übertragungsszenenaufgabe hat gpt-3.5-turbo die höchste Punktzahl erzielt, da es in der Lage ist, den Live-Inhalt genau, prägnant und reibungslos zusammenzufassen und die Einfachheit zu erfüllen Anforderungen in den Anforderungen; und text-davinci-002 hat die niedrigste Punktzahl, die durchschnittliche Ausgabegenauigkeit und kann sich nicht gut an die Szene anpassen, aber es gibt Raum für weitere Verbesserungen in Bezug auf Einfachheit und Flüssigkeit.

Bei der Szenarioaufgabe „Schreiben eines wöchentlichen Arbeitsberichts“ erzielen gpt-3.5-turbo und text-davinci-003 höhere Punktzahlen und können die logische Struktur und die Inhaltspunkte des wöchentlichen Berichts genau darstellen Der Ausgabeinhalt ist relativ vollständig; Text-davinci-002 hat die niedrigste Bewertung, es fehlt die Logik, um den Wochenbericht auszudrücken, die Struktur stimmt nicht überein und der Inhalt ist nicht angemessen.

In der Lebenslauf-Szenario-Aufgabe hat gpt-3.5-turbo die höchste Punktzahl. Es kann professionell Lebensläufe erstellen, die den Anforderungen des Personalvermittlers entsprechen und den Bildungshintergrund und die Arbeit darstellen Erfahrung, Fertigkeitsbeherrschung und Selbsteinschätzung, aber der Genauigkeit und Personalisierung des Sprachausdrucks muss mehr Aufmerksamkeit geschenkt werden, während text-davinci-003 und text-davinci-002 niedrigere Werte aufweisen und keine personalisierten und quantitativen Beschreibungen enthalten Die Beschreibung des Lebenslaufs ist ebenfalls relativ einfach und unorganisiert.

Die umfassende Bewertung der oben genannten fünf Anwendungsaufgaben lautet wie folgt. Die folgenden Bewertungen stellen nur Bewertungen dieser Modelle in bestimmten Anwendungsszenarien dar. Für andere Anwendungsszenarien oder Aufgaben können die Bewertungen abweichen. Einige dieser Modelle befinden sich noch im Iterationsprozess und weisen möglicherweise eine bessere Leistung und Leistung auf. In zukünftigen Tests werden wir auch Vergleiche neuer Modelle der GPT-Serie (z. B. GPT-4) hinzufügen.

# 🎜 🎜## 🎜 🎜#4Schreiben eine basierend auf dem Live-Übertragungsthema. Übersicht über die Live-Übertragung 44. Finden Geben Sie die Antworten auf die Fragen anhand von heraus der Live-Text-Inhalt 1.531.5

Bewerbungsaufgabe

Testszenario

GPT-3.5 Turbo

text-davinci-003# 🎜🎜#

text-davinci-002

Umfassende Bewertung (Gesamtpunktzahl 5 Punkte, dasselbe unten)

3.8

#🎜🎜 #


3.2

#🎜🎜 # # 🎜🎜#1.7

Interviewfragen erstellen

Interviewfragen basierend auf der Stellenbeschreibung generieren

4.5

4

0

Generieren Sie Interviewfragen basierend auf Kandidateninformationen

4,5

3,75

3,5

E-Mail-Schreiben

Fügen Sie Eigennamen mit speziellen Übersetzungen in den Eingabetext oder in einer bestimmten Vertikale ein Feld Fachbegriffe, Substantive mit unterschiedlichen Bedeutungen in verschiedenen Szenarien

5

3

2

. Eingabe ting Es ist erforderlich, „umgangssprachlich“ zu verwenden, „Schriftliche“ Ausgabe

#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#3.5#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#3#🎜🎜 ## 🎜🎜##

3.5

in Die Eingabe sollte in einem umgangssprachlichen Ton verfasst sein, eine „schriftliche“ Ausgabe erfordern, einige Hintergrundinformationen weglassen und mehrdeutige Substantive in der Eingabe verwenden

#🎜🎜 ##🎜 🎜#4

5

#🎜🎜 ## 🎜 🎜#2

mit kriminalitätsbezogenen Inhalten in der Eingabe

#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#1#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#1#🎜🎜 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#1#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜## Verwenden Sie umgekehrte Sätze, homophone Tippfehler, Dialekte und umgangssprachliche Auslassungen in der Eingabe 🎜#

3

Live-Zusammenfassung

Zusammengefasst in einer Zusammenfassung basierend auf dem Live-Textinhalt

4

4

3

Extrahieren Sie mehrere wichtige Punkte basierend auf dem Live-Text 3

0

5

5

0

Schreiben Sie einen wöchentlichen Arbeitsbericht

Wochenbericht basierend auf dem vorgegebenen Arbeitsinhalt ausgeben

4.5

3

1

1

Ausgabe des wöchentlichen Arbeitsberichts für die nächste Woche

2

4

2

Lebenslauf schreiben

Erstellen Sie einen Lebenslauf basierend auf den Aufgaben

Generiert basierend auf Jobanforderungen Lebenslauf

4.5

Lebenslauf basierend erstellen zur Selbstvorstellung

3.5

1.5

1

Erstellen Sie eine Lebenslaufvorlage basierend auf der Stelle

3,5

1,5

1

Das obige ist der detaillierte Inhalt vonWie ist die Kosteneffizienz der Modelle der GPT 3.5-Serie in den fünf Szenarien Interviews, englischsprachige E-Mails, Live-Übertragungen, wöchentliche Berichte und Lebensläufe? Wir haben reale Tests durchgeführt und einen Auswahlleitfaden bereitgestellt.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen