Maison >Périphériques technologiques >IA >Dans les cinq scénarios d'interviews, d'e-mails en anglais, de diffusions en direct, de rapports hebdomadaires et de CV, quelle est la rentabilité des modèles de la série GPT 3.5 ? Nous avons réalisé des tests réels et fourni un guide de sélection.
Quel modèle est le plus performant de la série GPT 3.5 ?
Comment la série GPT 3.5 fonctionne-t-elle réellement dans les tâches d'application courantes ?
Combien coûte généralement un modèle GPT 3.5 pour répondre à différentes questions ?
Ce numéro de "SOTA! Mesure réelle"
Voici les conclusions de la mesure réelle de ce numéro (Voir la fin de l'article pour les notes détaillées)
Modèle |
gpt-3.5-turbo |
text-davinci-003 |
texte-davinci-002 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Instructions |
Il s'agit actuellement du modèle GPT-3.5 le plus puissant, spécialement optimisé pour les scénarios de chat, et le prix est d'un dixième de celui du text-davinci-003. |
Peut effectuer n'importe quelle tâche linguistique avec une meilleure qualité, un rendement plus long et suit mieux les instructions que les modèles Curie, Babbage ou Ada. |
Possède des capacités similaires à text-davinci-003, mais est formé par un réglage fin supervisé plutôt que par un apprentissage par renforcement, et le nombre maximum de jetons est de 4097. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Nombre maximum de jetons |
4 096 jetons |
4 097 jetons | 4 097 jetons |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Prix |
# 🎜🎜# $0.002 / 1K jetons |
$0.0200 / 1K jetons#🎜 🎜##🎜🎜 # | $0.0200 / 1K jetons|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Le score global est élevé, démontrant une grande précision et professionnalisme, car il peut s'adapter à la plupart des tâches, le les résultats de sortie sont relativement complets et fluides, et la sortie pour différentes tâches est également relativement précise et complète, avec une forte adaptabilité et polyvalence, et le coût le plus bas. |
Le score global est relativement faible Bien qu'il fonctionne bien pour certaines tâches, dans l'ensemble, les résultats manquent de personnalisation et de pertinence. l'expression n'est pas assez précise et concise, et il y a parfois quelques inexactitudes. |
La note globale est la plus basse Les résultats ne sont pas assez professionnels et précis, manquent de personnalisation et de pertinence, ainsi que l'expression du langage. est également médiocre. Il y a des problèmes majeurs et, dans l’ensemble, il nécessite une optimisation et une amélioration supplémentaires. |
Dans la tâche de scénario de questions d'entretien, gpt-3.5-turbo a le score global le plus élevé et peut bien s'adapter au scénario d'entretien. Les questions générées sont très ciblées et fournissent une compréhension approfondie des capacités et de l'expérience du candidat. plusieurs angles ; et text-davinci-002 a reçu la note la plus basse, avec des questions trop larges et essentiellement une répétition de la description de poste, manquant de défi et de sens pratique, et générant même un contenu complètement inutilisable. Dans la tâche de scénario de rédaction d'e-mails en anglais, gpt-3.5-turbo et text-davinci-003 ont des scores globaux plus élevés et peuvent simuler des styles de langage écrit parlé et formel, et conviennent aux expressions familières et aux ambiguïtés. compréhension et traduction des noms, mais ne peut pas identifier correctement le contenu dangereux ; alors que text-davinci-002 a le score le plus bas, ne peut pas bien basculer entre la langue parlée et écrite et ne peut pas identifier correctement le contenu dangereux. Dans la tâche de scène de diffusion en direct, gpt-3.5-turbo a le score le plus élevé, qui peut résumer avec précision, concision et fluidité le contenu en direct, et répond aux exigences de simplicité tandis que text-davinci-002 a le plus bas ; score , la précision de sortie est moyenne et ne peut pas bien s'adapter à la scène, mais il y a encore place à l'amélioration en termes de simplicité et de fluidité. Dans la tâche de scénario de rapport hebdomadaire, gpt-3.5-turbo et text-davinci-003 ont des scores plus élevés et peuvent présenter avec précision la structure logique et les points de contenu du rapport hebdomadaire, et le contenu de sortie est relativement complet ; alors que text-davinci -002 a le score le plus bas, il lui manque la logique pour exprimer le rapport hebdomadaire, la structure ne correspond pas et le contenu n'est pas pertinent. Dans la tâche de scénario de CV, gpt-3.5-turbo a le score le plus élevé. Il peut générer de manière professionnelle des CV qui répondent aux exigences du recruteur et présentent une formation, une expérience professionnelle, une maîtrise des compétences et une auto-évaluation. informations, mais une plus grande attention doit être accordée à l'exactitude et à la personnalisation de l'expression du langage ; alors que text-davinci-003 et text-davinci-002 ont des scores inférieurs, le manque de descriptions personnalisées et quantitatives des réalisations et les descriptions des curriculum vitae sont également relativement simple et peu organisé. Scénario de test Angle de test Générez des questions d'entretien basées sur la description du poste Générer Comme il est facile de générer des questions d'entretien Dans quelle mesure les questions d'entretien générées correspondent à la description du poste Générer des questions d'entretien basées sur les informations sur le candidat Comme il est facile de générer des questions d'entretien questions Générez des questions d'entretien et dans quelle mesure elles correspondent au candidat gpt-3.5-turbo Les questions d'entretien générées par le modèle couvrent les principales responsabilités et exigences de la description de poste et s'adaptent au scénario d'entretien. Les questions permettent une compréhension approfondie des capacités et de l'expérience du candidat sous de multiples angles, notamment l'expérience professionnelle, l'expérience de projet, les compétences et caractéristiques personnelles, etc., et sont très ciblées. Les questions ont une valeur pratique, sont parfaitement adaptées au poste et permettent d'évaluer efficacement les capacités du candidat. text-davinci-003 Les questions d'entretien générées par le modèle couvrent plusieurs exigences et compétences mentionnées dans la description de poste, mais certaines questions ne sont pas spécifiques et peu claires. Les domaines doivent être plus segmentés, sinon les capacités du candidat ne pourront pas être pleinement mesurées. Les questions générées par le modèle couvrent le parcours professionnel du candidat, son expérience en matière de projet, ses compétences et ses qualités personnelles, mais certaines questions peuvent être plus spécifiques et approfondies pour mieux évaluer les capacités du candidat. text-davinci-002 Les questions d'entretien générées par le modèle se concentrent principalement sur les exigences du poste, mais ces questions sont trop larges et répètent essentiellement la description du poste, sans prêter attention au degré d'adéquation entre le candidat et le poste. description. Des questions plus difficiles et pratiques ne peuvent pas être posées, et il peut même y avoir des situations où le contenu de sortie est complètement inutilisable. En cas de génération de questions réussie, les questions générées par le modèle couvrent le parcours professionnel, l'expérience et les compétences du candidat, mais certaines questions peuvent être plus spécifiques et approfondies pour mieux évaluer les capacités du candidat. Nous choisissons l'un des cas de test pour y jeter un œil - Consommation du modèle texte- davinci-003 environ Cela coûte 0,22 yuan et text-davinci-002 coûte environ 0,19 yuan. Résultats d'inférence
En termes de difficulté et de pertinence des questions d'entretien générées, gpt-3.5-turbo la sortie du modèle est la Au mieux, cela soulève un certain nombre de questions spécifiques sur les exigences du poste, et ces questions sont également très difficiles et ciblées, ce qui peut tester efficacement les capacités et l'expérience du candidat. Le résultat du modèle text-davinci-002 est le plus simple, voire totalement inutilisable, et ne peut pas être considéré comme une question d'entretien. Le résultat du modèle text-davinci-003 se situe entre les deux. Les questions soulevées sont plus simples que celles du modèle gpt-3.5-turbo. Les questions ne sont pas assez détaillées, mais elles sont plus spécifiques que celles du modèle text-davinci-002. En ce qui concerne la correspondance entre les questions d'entretien et la description de poste, le résultat du modèle gpt-3.5-turbo correspond le mieux à la description de poste. Il effectue une analyse complète et détaillée des exigences du poste et des objectifs. ces exigences ont été soulevées. Le résultat du modèle text-davinci-003 reflète également les exigences de ce poste, mais le nombre et la couverture des questions sont relativement faibles. Et text-davinci-002 peut être considéré comme incompréhensible. Scénario de test Angle de test Insérez des noms propres avec des traductions spéciales dans le texte saisi, terminologie professionnelle dans un certain champ vertical, des noms avec des significations différentes dans différents scénarios Si la sémantique est fluide, si le contenu développé est correct, si la traduction des noms ambigus est correcte, si la traduction des noms professionnels/noms propres est correcte# 🎜🎜##🎜 🎜# Écrivez sur un ton familier dans le #🎜🎜 # Pour les erreurs grammaticales, les fautes de frappe et les informations incomplètes en chinois Si la phrase peut être filtrée et comprise correctement gpt-3.5-turbo : Le score global est de 3,3 points. La structure de l'e-mail correspond à la scène, le ton est correct et l'abréviation est appropriée. À moins que les noms propres des noms scientifiques ne soient fondamentalement abrégés, c'est bon pour. émotions fortes lors de la saisie familière. La compréhension et le filtrage peuvent corriger correctement les problèmes de saisie tels que les fautes de frappe et les erreurs grammaticales. L'inconvénient est qu'il n'identifie pas correctement le contenu dangereux. text-davinci-003 : Score complet de 3 points, La structure utilise des modèles courants, il n'y a pas de titre, les connexions de phrases sont brutales, l'expansion insuffisante, les noms propres et les noms ambigus sont compris correctement, la compréhension familière et génération Plus élevée que prévu, n'identifiant pas correctement le contenu dangereux. text-davinci-002 : Score complet 2 points, La structure utilise des modèles courants, il n'y a pas de titre, les phrases ne sont pas fluides voire fausses, la structure des paragraphes n'est pas évidente, il n'y a pas d'expansion , à moins que le nom propre du nom scientifique ne soit basique. Des abréviations sont données, la langue parlée et écrite ne peut pas être correctement commutée et le contenu dangereux n'est pas correctement identifié. Nous choisissons l'un des cas de test pour y jeter un œil - Insérez dans l'entrée des noms propres avec des traductions spéciales, des termes professionnels dans un certain domaine vertical et des tests de noms qui signifient différentes choses dans différents scénarios texte. L'exemple a l'entrée suivante Consommation du modèle Insérez des noms propres avec des traductions spéciales, des termes professionnels dans un certain domaine vertical et des tests de noms avec différentes significations dans différents scénarios dans le texte de saisie Par exemple, gpt-3.5-turbo consomme environ 0,006 yuan, text-davinci-003 consomme environ 0,067 yuan, text-davinci-002 consomme environ 0,07 yuan Performances d'inférence En termes de fluidité sémantique, les trois modèles ont relativement bien fonctionné, sans problèmes de langage évidents ni erreurs grammaticales. Quant à savoir si le contenu étendu est correct, les réponses de gpt-3.5-turbo et text-davinci-003 sont relativement complètes, fournissant des réponses détaillées à chaque question et fournissant des suggestions et recommandations de produits pertinentes. Text-davinci-002 n'a répondu qu'à quelques questions et n'a pas fourni beaucoup de détails et de suggestions pertinents. En termes de savoir si la traduction des noms ambigus est correcte et si la traduction des noms professionnels/noms propres est correcte, les performances des trois modèles sont relativement bonnes. gpt-3.5-turbo et text-davinci-003, text-davinci-002 traduisent tous deux correctement le polytétrafluoroéthylène (PTFE) et les composés perfluorés (PFC), en utilisant les termes anglais corrects. Scénario de test Angle de test Résumer dans un résumé basé sur le contenu du texte en direct L'exactitude, le raffinement et la fluidité du résumé du contenu généré Affinage de plusieurs points clés en fonction du contenu du texte en direct L'exactitude, le raffinement et le raffinement des points clés de le contenu généré, La maîtrise de la langue Rédiger un plan de diffusion en direct basé sur le thème de la diffusion en direct La qualité du plan de diffusion en direct généré, la pertinence par rapport au sujet Sur la base du contenu textuel de la diffusion en direct, Découvrez la réponse à la question La qualité de la réponse générée gpt-3.5-turbo : Le score global est de 4,4 points. Le modèle met en œuvre avec précision et précision les exigences avancées par l'utilisateur et le résultat. le contenu est cohérent avec l'écho d'entrée, s'adapte au thème et à la scène, exprime avec précision, n'omet pas ou ne déforme pas les informations originales, est capable d'organiser les réponses aux questions de manière concise, respecte les exigences de simplicité dans les exigences, le résultat est fluide, la structure des phrases est concis et clair, et l'expression est claire. text-davinci-003 : Le score global est de 4,2 points, et la précision du résumé du modèle est élevé, le contenu généré répond aux besoins de la scène, aucune information ne manque et aucune information inutile n'est ajoutée. La maîtrise de la langue est également bonne, ce qui répond aux exigences de fluidité et de concision du contenu. Cependant, il est nécessaire d’affiner davantage et de simplifier le langage, alors que le contenu généré ne fournit pas d’analyses ni d’informations supplémentaires et nécessite une ampleur et une profondeur accrues. text-davinci-002 : Le score global est de 1,5 points, la précision de sortie du modèle est moyenne , certains couvrent essentiellement les points problématiques, et la plupart d'entre eux ne peuvent pas bien s'adapter à la scène. La structure de la phrase générée est relativement complexe, la redondance des mots est évidente et l'expression du langage est légèrement rigide, ce qui peut affecter la compréhension du lecteur. maîtrise du texte et de la lecture. En termes de simplicité et de fluidité, il y a encore place à l'amélioration. Choisissons l'un des cas de test pour y jeter un œil - #🎜 🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 # Consommation de coûts # 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜 🎜 #Écrivez un test de diffusion en direct basé sur le thème de la diffusion en direct. gpt-3.5-turbo coûte environ 0,01 yuan, text-davinci-003 coûte environ 0,11 yuan, text-davinci-002 coûte environ 0,071 yuan Résultat de l'inférence # 🎜 🎜## La sortie de gpt-3.5-turbo est plus conforme aux exigences du thème que les deux autres modèles, et le contenu général est plus riche et plus complet, y compris la technologie et le contenu AIGC. La qualité globale du contenu est élevée. la combinaison d’industries, de cas réussis et d’orientations de développement futures. La sortie de text-davinci-003 est également quelque peu utilisable, mais manque légèrement de pertinence par rapport au sujet, principalement après avoir présenté l'AIGC et son histoire, le contenu tel. quant à la manière d'ouvrir la porte à l'industrie du contenu et à l'avenir de l'AIGC mentionnés dans le plan, ils ne sont pas étroitement liés au thème et sont relativement plus généraux. Le résultat de text-davinci-002 est assez différent des exigences du sujet Bien que l'AIGC soit mentionné comme un aperçu d'une société de production de contenu, le contenu général est plus. comme un paragraphe d'entreprise, l'introduction n'est pas directement liée au thème et n'a pas la signification pratique du plan de diffusion en direct. # 🎜🎜 ## 🎜🎜 ## 🎜🎜 # Scène quatre: # 🎜🎜 # workweek # 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜 🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 # Scène de test # 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 # Angle d'inspection # 🎜🎜 # # Émettre un rapport hebdomadaire basé sur le contenu du travail donné Considérez la capacité de polissage, la capacité d'expansion, ainsi que l'exhaustivité et la perfection du contenu de sortie Sortie du rapport hebdomadaire basé sur la description approximative donnée Considérez les opinions données par personnes exerçant différentes professions La qualité du rapport hebdomadaire produit par un contenu de travail approximatif En fonction du contenu de travail donné et de la structure du modèle cible, générer un rapport hebdomadaire modèle Envisagez de produire le rapport hebdomadaire selon les spécifications connues Sur la base du contenu du travail de cette semaine, produire le rapport de travail hebdomadaire de la semaine prochaine Considérez la capacité de prévision gpt-3.5-turbo : La note globale est de 3,4 points, présente le contenu du travail dans un format de rapport hebdomadaire relativement standard, par titre, heure, et cette semaine Le résumé du travail, le plan de travail de la semaine prochaine et le modèle de résumé sont exprimés et peuvent être associés à un contenu plus approfondi et plus détaillé à travers certaines tâches de travail clés, responsabilités professionnelles, etc. Dans l'ensemble, le contenu de sortie est relativement complet, avec un structure claire et niveaux logiques clairs. text-davinci-003 : La note globale est de 3,1 points, passe le contenu donné Exprimé sous la forme d'un paragraphe, il peut compléter les exigences de manière plus complète, intégrer certains contenus de travail avec les mêmes attributs, avoir une certaine logique, des niveaux clairs et avoir une certaine praticité. Cependant, la capacité d'adaptation à la scène ne suffit pas, il y a un manque d'expansion dans certains cas, la structure n'est pas assez claire et il y a un manque d'organisation. text-davinci-002 : Le score global est de 1,5 points, la scène du contenu d'entrée ne peut pas être correctement comprise, et le contenu de sortie n'est pas exprimé. Le thème et la logique du rapport hebdomadaire ne correspondent pas à la structure, le contenu n'est pas approprié, il y a des déclarations de processus, il n'y a aucune possibilité d'expansion, et il y a même des situations où le contenu d'entrée est directement traduit et la dernière réponse est répétée, le modèle fonctionne mal. Choisissons l'un des cas de test pour y jeter un œil - #🎜 🎜 # Coût de consommation# 🎜 🎜 # Sur la base de la description approximative donnée, l'exemple de test de rapport hebdomadaire est la sortie gpt-3.5-turbo consomme environ 0,0065 yuan, text-davinci-003 consomme environ 0,094 yuan et text-davinci-. 002 consomme environ 0,072 yuan# 🎜🎜# Résultat de l'inférence# 🎜🎜 ## 🎜🎜# Pour cette tâche, la qualité de sortie des trois modèles est relativement bonne et ils couvrent tous l'essentiel contenu de travail de cette semaine, mais il existe quelques différences subtiles. La sortie de gpt-3.5-turbo est relativement plus détaillée, répertoriant les détails de chaque tâche, tels que le processus de conception, l'interface, les critères de notation, etc., et propose également La prochaine étape est prévue pour que les lecteurs de l'hebdomadaire puissent obtenir davantage d'informations. text-davinci-003 La sortie donne également des informations détaillées, mais l'accent est davantage mis sur les détails techniques, y compris la source de données du système d'évaluation, les éléments d'évaluation, Méthodes d'évaluation, etc., ce rapport hebdomadaire se concentre davantage sur les descriptions techniques. Le résultat de text-davinci-002 est plus concis mais non moins clair. Il se concentre sur l'orientation générale du projet et des travaux, avec moins de description des détails. En général, la sortie des trois modèles peut répondre aux besoins de la tâche, mais la sortie de gpt-3.5-turbo et text-davinci-003 est plus détaillé, fournit plus de détails et d'informations de niveau technique, si vous avez besoin d'un rapport hebdomadaire plus complet, vous pouvez choisir ces deux modèles. Le résultat de text-davinci-002 est plus concis et clair, adapté à ceux qui ont besoin d'un rapport hebdomadaire court mais clair. # 🎜🎜 ## 🎜🎜 ## 🎜🎜 # Scène cinq: # 🎜🎜 ## 🎜🎜 # CV # 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜 🎜# scénario de test Angle d'inspection | Générer un CV en fonction des exigences du poste
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Générer un CV basé sur l'auto-présentation
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Selon le poste Générer un modèle de CV
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
gpt-3.5-turbo : Score complet de 4 points, professionnalisme élevé, tous les aspects des exigences du poste de sortie du modèle sont couverts et le contenu est précis, il présente spécifiquement les capacités et les caractéristiques de l'expérience correspondant au poste ; exigences du poste, il est clair pour les lecteurs en un coup d'œil et permet de répondre plus facilement aux exigences du recruteur ; il est présenté de manière complète et les informations fournies par le modèle sont complètes, couvrant tout, de la formation à l'expérience professionnelle, en passant par la maîtrise des compétences ; et l'auto-évaluation, qui peut donner au recruteur une compréhension globale. Cependant, il manque de personnalisation, la forme d’expression est unique et les mots utilisés dans l’expression linguistique doivent être pris en compte. text-davinci-003 : La note globale est de 1,9 points, manque de cas de projets spécifiques et d'affichage des résultats. Il n’y a pas de description personnalisée de l’offre d’emploi. Bien que le curriculum vitae mentionne un certain nombre de conditions répondant aux exigences de recrutement, il ne décrit ni ne met en évidence spécifiquement les caractéristiques et les besoins du poste de recrutement. Absence de description quantitative des résultats. L'expression linguistique n'est pas assez concise et précise. text-davinci-002 : Le score global est de 1,3 points. Les informations globales de sortie sont trop peu nombreuses. Il n'y a pas d'exigences d'informations de base qui répondent au CV standard. Manque d'objectif de recherche d'emploi clair et manque de personnalisation et de pertinence, manque d'indicateurs quantitatifs, de descriptions relativement simples de l'expérience et des compétences, de formats relativement simples, non-respect des spécifications et mauvaises performances du modèle. Nous choisissons l'un des cas de test pour y jeter un œil - Coût de consommation Exemple de test de génération d'un modèle de CV basé sur le poste de travail , gpt-3 .5- turbo consomme environ 0,0077 yuan, text-davinci-003 consomme environ 0,1 yuan, text-davinci-002 consomme environ 0,022 yuan Sortie d'inférence
est généré Professionnalisme des modèles et En termes de correspondance, vous pouvez voir que gpt-3.5-turbo et text-davinci-003 peuvent fournir des modèles de CV relativement complets, comprenant des éléments clés tels que des informations personnelles, une formation, une expérience professionnelle, un profil professionnel. compétences et d'auto-évaluation, et sont dans le format Il est également relativement standardisé. Mais si vous regardez attentivement, vous pouvez voir que text-davinci-003 présente des conflits évidents avec les perceptions réalistes. Il ne décrit pas spécifiquement l'adéquation entre les exigences du poste et les capacités personnelles. Par exemple, dans la section compétences professionnelles, les candidats. sont familiers avec le fonctionnement d'un ordinateur, CET-6, mais ne possèdent pas les compétences et les connaissances professionnelles liées au poste de vendeur de patates douces cuites au four. Text-davinci-002 est relativement bref et ne fournit que des informations de base telles que les objectifs, les compétences, l'expérience et la formation du candidat. Résumé comparatif de trois modèles de la série GPT 3.5Dans la tâche de scénario d'entretien, gpt-3.5-turbo a le score global le plus élevé et peut bien s'adapter au scénario d'entretien. Les questions générées sont très ciblées et approfondies. sous plusieurs angles. Comprendre les capacités et l'expérience du candidat ; bien que text-davinci-002 ait reçu la note la plus basse, les questions étaient trop larges et répétaient essentiellement la description de poste, manquaient de questions difficiles et pratiques et généraient même un contenu complètement inutilisable. Dans la tâche de scénario de rédaction d'e-mails en anglais, les scores globaux de gpt-3.5-turbo et text-davinci-003 sont relativement élevés et ils peuvent simuler les styles de langage écrit parlé et formel, pour les expressions familières et les noms ambigus. bonne compréhension et traduction, mais il ne peut pas identifier correctement le contenu dangereux ; text-davinci-002 a le score le plus bas, ne peut pas bien basculer entre la langue parlée et écrite et ne peut pas identifier correctement le contenu dangereux. Dans la tâche de scène de diffusion en direct, gpt-3.5-turbo a le score le plus élevé, qui peut résumer le contenu en direct de manière précise, concise et fluide, et répond aux exigences de simplicité tandis que text-davinci-002 a le score le plus bas, La précision de sortie est moyenne et ne s'adapte pas bien à la scène, mais il reste encore place à l'amélioration en termes de simplicité et de fluidité. Dans la tâche de scénario consistant à rédiger un rapport de travail hebdomadaire, gpt-3.5-turbo et text-davinci-003 ont des scores plus élevés et peuvent présenter avec précision la structure logique et les points de contenu du rapport hebdomadaire, et le contenu de sortie est relativement complet ; Text-davinci-002 a le score le plus bas. Il lui manque la logique pour exprimer le rapport hebdomadaire, la structure ne correspond pas et le contenu n'est pas approprié. Dans la tâche de scénario de CV, gpt-3.5-turbo a le score le plus élevé. Il peut générer de manière professionnelle des CV qui répondent aux exigences du recruteur et présentent une formation et un travail. expérience. Informations sur l'expérience, la maîtrise des compétences et l'auto-évaluation, mais une plus grande attention doit être accordée à l'exactitude et à la personnalisation de l'expression linguistique ; tandis que text-davinci-003 et text-davinci-002 ont des scores inférieurs et manquent de descriptions personnalisées et quantitatives ; des résultats. La description du CV est également relativement simple et peu organisée. L'évaluation complète des cinq tâches de candidature ci-dessus est la suivante. Les évaluations suivantes représentent uniquement les évaluations de ces modèles dans des scénarios d'application spécifiques. Les évaluations peuvent être différentes pour d'autres scénarios d'application ou tâches. Certains de ces modèles sont encore en cours d'itération et peuvent avoir de meilleures performances et performances. Dans les prochains tests, nous ajouterons également des comparaisons de nouveaux modèles de la série GPT (comme le GPT-4).
|
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!