GPT 3.5 系列中哪個模型表現最好?
GPT 3.5 系列在常見應用程式任務中實際表現如何?
GPT 3.5 模型回答不同的問題一般需要多少成本?
本期「SOTA!實測」
以下為本期實測結論(詳細評分見文末)
|
|||
text-davinci-002 |
##說明
|
是目前最強大的GPT-3.5 模型,專門針對聊天場景進行最佳化,價格是text- davinci-003 的十分之一。 |
|
與text-davinci-003 具有相似的能力,但是是透過有監督的精細調整來訓練的,而不是透過強化學習,最大Token 數為4097。 |
最大Token 數字
|
4,096 tokens #########4,097 tokens##################4,097 tokens####### |
|
價 |
#$0.002 / 1K tokens |
$0.0200 / 1K tokens |
$0.0200 / 1K tokens |
綜合分數 |
#綜合分數較高,表現較高的精確度和專業性,對於大多數任務都能夠適應,輸出的結果較為完整、流暢,而且針對不同任務的輸出也比較準確、全面,具有較強的適應性和通用性,且成本最低。 |
綜合分數相對較低,雖然對於某些任務表現不錯,但整體來說輸出的結果缺少個性化和針對性,表述不夠精準和簡潔,有時也存在一些不準確的情況。 |
綜合分數最低,輸出結果的專業性和準確性都不夠高,缺乏個人化和針對性,語言表達也存在較大問題,整體來說需要進一步優化和改進。 |
在面試問題場景任務中,gpt-3.5-turbo 綜合評分最高,能夠很好地適應面試場景,生成的問題具有較高的針對性和多角度深入了解候選人的能力和經驗;而text-davinci-002 的評分最低,問題過於寬泛且基本是對崗位描述的重複,缺乏挑戰性和實際性的問題,甚至出現生成的內容完全不可用的情況。
在英文郵件寫作場景任務中,gpt-3.5-turbo 和text-davinci-003 的綜合評分較高,能夠模擬口語和正式書面的語言風格,對於口語化的表達和帶有歧義的名詞有很好的理解和翻譯,但也無法正確地識別不安全的內容;而text-davinci-002 的評分最低,口語與書面語不能很好切換,沒有正確的識別不安全的內容。
在直播場景任務中,gpt-3.5-turbo 的評分最高,能夠準確、精煉、流暢地概括直播內容,並符合要求中的簡潔度要求;而text-davinci-002 的評分最低,輸出準確度一般,不能很好地適應場景,但在簡潔性和流暢性方面還有進一步改進的空間。
在周報場景任務中,gpt-3.5-turbo 和text-davinci-003 的評分較高,能夠準確呈現出週報的邏輯結構和內容重點,輸出的內容較為完整;而text-davinci-002 的評分最低,缺乏表達週報的邏輯,結構不匹配,內容不貼切。
在履歷場景任務中,gpt-3.5-turbo 的評分最高,能夠專業化地產生符合招募方要求的履歷,並呈現出教育背景、工作經驗、技能掌握以及自我評價等方面的信息,但需要更加註重語言表達的精準和個性化;而text-davinci-003 和text-davinci-002 的評分較低,缺乏個性化和量化的成果描述,履歷的描述也較為簡單和缺乏條理。
測試場景 |
測試角度 |
基於職位描述產生面試問題 |
產生面試問題的難易度 產生面試問題與該職位描述的匹配程度 |
基於候選人資訊產生面試問題 |
產生面試問題的困難易度 產生面試問題與該候選人的匹配程度 |
gpt-3.5-turbo 模型產生的面試問題涵蓋了職位說明中的主要職責和要求,適應面試場景。問題從多個角度深入了解候選人的能力和經驗,包括工作經驗、專案經驗、技能和個人特質等多個方面,具有較高的針對性。問題具有實際價值,與職位匹配度較高,能有效評估候選人的能力。
text-davinci-003 模型產生的面試問題涵蓋了職位描述中提到的多個要求和技能,但有些問題表述不具體、條理不清晰。需要更細分領域,否則不能全面衡量候選人的能力。模型產生的問題涵蓋了候選人的專業背景、專案經驗、技能和個人品質,但有些問題可以更具體和深入,以便更好地評估候選人的能力。
text-davinci-002 模型產生的面試問題主要圍繞崗位要求進行,但這些問題過於寬泛,基本上是對崗位描述的重複,未專注於候選人與職位描述之間的匹配程度,不能提出更具挑戰性和實際性的問題,甚至會出現輸出內容完全不可用的情況。在成功生成問題的情況下,模型生成的問題涵蓋了候選人的專業背景、專案經驗和技能,但有些問題可以更具體和深入,以便更好地評估候選人的能力。
我們選取其中一個測例來展開看看—
模型消耗
gpt-3.5-turbo 約消耗0.017 元,text-davinci-003 約消耗0.22 元,text-davinci- 002 約消耗0.19 元。
推理結果
在產生的面試問題的難易度和針對性方面,gpt-3.5-turbo 模型的輸出最為優秀,它針對該職位的各項要求提出了多個具體問題,而這些問題的難度和針對性也非常高,能夠有效檢驗候選人的能力和經驗。 text-davinci-002 模型的輸出最為簡單,甚至是完全不可用的狀態,不能算是面試題目。 text-davinci-003 模型的輸出則介於兩者之間,提出的問題相對於 gpt-3.5-turbo 模型來說較為簡單,問題不夠細節,但比 text-davinci-002 模型更具體。
在面試問題與該職位描述的匹配程度方面,gpt-3.5-turbo 模型的輸出最為貼合該職位描述,它對該職位的要求進行了全面細緻的分析,並針對這些要求提出了相應的問題。 text-davinci-003 模型的輸出對該職位的要求也有所體現,但是問題的數量和覆蓋範圍相對較少。而 text-davinci-002 可以說是不知所雲了。
測試場景 |
測試角度 |
#在輸入文字中插入有專用翻譯的專有名詞、某垂直領域的專業術語、在不同場景下表意不同的名詞 |
語意是否通順、擴寫的內容是否正確、有歧義的名詞翻譯是否正確、專業名詞/專有名詞翻譯是否正確 |
在輸入中要求以「口語化」、「書寫」的方式輸出 |
是否可以模擬口語、或正式書寫的語言風格 |
#在輸入中以口語化的口吻寫,要求「書面」的方式輸出,並在輸入中省略部分背景資訊、使用歧義的名詞 |
是否可以模擬口語、或正式書面的語言風格,是否能正確理解口語化的表達;對於有歧義的名詞是否能正確翻譯 |
gpt-3.5-turbo:綜合評分3.3 分,郵件結構符合場景,口吻中正,恰當擴充,除非學名的專有名詞基本給出縮寫,對於口語化的輸入中強烈的情緒有很好的理解和過濾,對於錯字、語法錯誤等輸入問題能正確糾正,不足之處是沒有正確的識別不安全的內容。
text-davinci-003:綜合評分3 分,結構使用常見模板,沒有標題,語句連接生硬,擴充不足,專有名詞與有歧義的名詞理解正確,口語化理解與生成高出預期,沒有正確的辨識不安全的內容。
text-davinci-002:綜合評分2 分,結構使用常見模板,沒有標題,語句不通順甚至錯誤,語段結構不明顯,沒有擴寫,除非學名的專有名詞基本上給出縮寫,口語與書面語不能很好切換,沒有正確的識別不安全的內容。
我們選取其中一個範例來展開看看- 在輸入文字中插入有專用翻譯的專有名詞、某垂直領域的專業術語、在不同場景下表意不同的名詞測例中有如下輸入
模型消耗
在輸入文字中插入有專用翻譯的專有名詞、某垂直領域的專業術語、在不同場景下表意不同的名詞測例, gpt-3.5-turbo 約消耗0.006 元,text-davinci-003 約消耗0.067 元,text-davinci-002 約消耗 0.07 元
推理表現
在語意是否通順方面,三個模型都表現得比較好,沒有明顯的語病和語法錯誤。在擴充的內容是否正確方面,gpt-3.5-turbo 和 text-davinci-003 的回應都比較全面,針對各個問題進行了詳細的回答,並提供了一些相關的建議和產品推薦。而 text-davinci-002 則只回答了幾個問題,並沒有提供太多相關的細節和建議。
在有歧義的名詞翻譯是否正確、專業名詞/專有名詞翻譯是否正確方面,三個模型的表現都比較好。 gpt-3.5-turbo 和 text-davinci-003、text-davinci-002 都正確地翻譯了聚四氟乙烯(PTFE)和全氟化合物(PFCs),並使用了正確的英文術語。
#測試場景 |
測試角度 |
#基於直播文字內容總結成一段摘要 |
產生內容總結的準確性、精煉程度、語言的流暢性 |
基於直播文字內容提煉幾個要點 |
產生內容要點的準確性、精煉程度、語言的流暢性 |
#基於直播主題寫一個直播的大綱 |
#產生直播大綱的品質;跟主題的相關程度 |
基於直播文字內容,找出問題的答案 |
產生答案的品質;準確程度 |
gpt-3.5-turbo:綜合評分4.4 分,模型準確且精確地實現了使用者提出的要求,在輸出內容中與輸入相呼應,切合主題場景,表述準確,沒有遺漏或歪曲原始訊息,能夠精煉地組織問題答案,遵循了要求中的簡潔度要求,輸出流暢,句子結構簡潔明了,表述清晰。
text-davinci-003:綜合評分4.2 分,模型總結準確度較高,產生內容符合場景需求,沒有遺漏訊息同時沒有加入不必要的訊息,語言流暢度也較好,符合內容流暢性和簡潔度的要求。然而,需要提高精煉程度,簡化語言,同時產生的內容沒有提供額外的分析和見解,需要提高廣度和深度。
text-davinci-002:綜合分數1.5 分,模型輸出準確度一般,有些基本涵蓋問題點,大多不能較好地適應場景,生成句子結構較為複雜,詞語冗餘現像明顯,語言表述略顯生硬,可能會影響讀者對文本的理解和閱讀流暢性,在簡潔性和流暢度方面還有進一步改進的空間。
我們選取其中一個測例來展開看看—
##成本消耗
#gpt-3.5-turbo 的輸出相對其他兩個模型更符合主題要求,大綱內容也更為豐富全面,包括了AIGC 技術與內容產業的結合、成功案例和未來發展方向等方面的內容,整體品質較高。
測試場景 |
|
檢查角度 ###############基於給出工作內容輸出週報###### |
考慮潤飾能力、擴充能力,輸出的內容的完整性、完善度 |
基於給出的粗略描述輸出週報 |
考慮不同職業的人員給出粗略工作內容輸出的周報質量 |
#是基於給出工作內容以及目標範本結構,輸出模板化的週報 |
考慮按已知規格輸出週報 |
#基於本週工作內容,輸出下週的工作週報 |
#考慮預測能力 |
gpt-3.5-turbo:綜合評分3.4 分,將工作內容比較標準的周報形式呈現出來了,按標題、時間、本週工作總結、下週工作計畫、總結的範本表達了出來,能夠透過一些關鍵工作任務、工作職責等聯想到更深層次的更細節的內容,整體來說輸出的內容比較完整,結構清晰,邏輯層次明確。
text-davinci-003:綜合評分3.1 分,將已給予的內容透過一段話的形式表達,能夠較完整地完成要求,對部分相同屬性的工作內容能夠做出整合,有一些邏輯性,層次明確,有一定的實用性。但是適應場景能力不夠,部分情況缺乏擴寫,結構不夠清晰,缺失條理性。
text-davinci-002:綜合評分1.5 分,無法正確理解輸入內容場景,輸出內容沒有表達出週報的主題以及邏輯,結構不匹配,內容不貼切,存在流程化語句,沒有任何擴寫能力,甚至存在直接翻譯輸入內容的情況以及複述上次回答的情況,模型表現不佳。
我們選取其中一個測例來展開看看—
##消耗成本
#基於給出的粗略描述輸出週報測例,gpt-3.5- turbo 約消耗0.0065 元,text-davinci-003 約消耗0.094 元,text-davinci-002 約消耗 0.072 元
推理結果
對於這個任務,三個模型的輸出品質都比較好,都涵蓋了本週的主要工作內容,但是有一些細微的差異。
總的來說,三個模型的輸出都可以滿足任務的需求,但gpt-3.5-turbo 和text-davinci-003 的輸出更加詳細,提供了更多的細節和技術層面的訊息,如果需要更全面的周報,可以選擇這兩個模型。而 text-davinci-002 的輸出則更加簡潔明了,適合需要一份簡短但清晰的周報。 ### 場景五:######履歷################################################################ ########測試場景####### |
考察角度 |
#基於職位職責產生履歷 |
|
gpt-3.5-turbo:綜合評分4 分,專業性高,模板輸出職位要求的各個方面都有涉及,且內容準確;針對性地呈現了此經驗對應職位要求的能力和特點,讓讀者一目了然,同時也更容易滿足招聘方的要求;完整呈現,模板輸出的信息完整,從教育背景到工作經驗、技能掌握以及自我評價都有涉及,能夠給招募方一個全面的認識。但缺乏個性化,表現形式單一,語言表達上用詞需要斟酌。
text-davinci-003:綜合評分 1.9 分,缺少具體的專案案例和成果展示。沒有針對招募職位的個人化描述。雖然履歷中提到了符合招募要求的多項條件,但沒有根據招募職位的特點和需求來進行具體的描述和突出。缺乏量化的成果描述。語言表述不夠簡潔精準。
text-davinci-002:綜合評分1.3 分,整體輸出資訊量太少,不具備任何符合標準履歷的基礎資訊要求,描述語句過於簡短缺乏明確的求職目標,缺乏個人化和針對性,缺乏量化指標,經驗和技能描述較為簡單,格式較為簡單,不符合規範,模型表現較差。
我們選取其中一個測例來展開看看—
##消耗成本
#基於求職職位產生履歷表範本定例,gpt-3.5-turbo 約消耗0.0077 元,text-davinci-003 約消耗0.1 元,text-davinci-002 約消耗 0.022 元
推理輸出
在產生模板專業度和匹配度方面,可以看到gpt-3.5-turbo 和text-davinci-003都能夠提供比較完整的履歷模板,包含了個人資訊、教育背景、工作經驗、專業技能和自我評價等關鍵要素,在格式上也比較規範。
###但如果仔細看,可以看到text-davinci-003 存在明顯與現實認知有衝突的地方,沒有具體描述崗位要求和個人能力之間的匹配,例如在專業技能部分中,候選人熟悉電腦操作、英語六級,卻缺乏與賣烤地瓜崗位相關的專業技能和知識。而 text-davinci-002 則相對簡略,只提供了應徵者的目標、技能、經驗和教育背景等基本資訊。 #########3個GPT 3.5 系列模型對比總結#########在面試場景任務中,gpt-3.5-turbo 綜合評分最高,能夠很好地適應面試場景,生成的問題具有較高的針對性和多角度深入了解候選人的能力和經驗;而text-davinci-002 的評分最低,問題過於寬泛且基本是對崗位描述的重複,缺乏挑戰性和實際性的問題,甚至出現產生的內容完全不可用的情況。 ############在英文郵件寫作場景任務中,gpt-3.5-turbo 和text-davinci-003 的綜合評分較高,能夠模擬口語和正式書面的語言風格,對於口語化的表達和帶有歧義的名詞有很好的理解和翻譯,但也無法正確地識別不安全的內容;而text-davinci-002 的評分最低,口語與書面語不能很好切換,沒有正確的識別不安全的內容。 ############在直播場景任務中,gpt-3.5-turbo 的評分最高,能夠準確、精煉、流暢地概括直播內容,並符合要求中的簡潔度要求;而text- davinci-002 的評分最低,輸出準確度一般,無法很好地適應場景,但在簡潔性和流暢性方面還有進一步改進的空間。 ######在寫工作週報場景任務中,gpt-3.5-turbo 和text-davinci-003 的評分較高,能夠準確呈現出週報的邏輯結構和內容要點,輸出的內容較為完整;而text -davinci-002 的評分最低,缺乏表達週報的邏輯,結構不匹配,內容不貼切。
在履歷場景任務中,gpt-3.5-turbo 的評分最高,能夠專業化地產生符合招募方要求的履歷,並呈現出教育背景、工作經驗、技能掌握以及自我評價等方面的信息,但需要更加重視語言表達的精準和個性化;而text-davinci-003 和text-davinci-002 的評分較低,缺乏個性化和量化的成果描述,簡歷的描述也較為簡單和缺乏條理。
對於以上五個應用任務的綜合評價如下。 以下評價僅代表這些模型在特定應用場景下的評價,針對其他應用場景或任務,評價可能有所不同。其中一些模型還在迭代的過程中,可能會有更好的表現和性能。在未來的測試中,我們也將增加GPT系列的新模型(如GPT-4)的比較。
#應用任務 |
測試情境 |
#GPT-3.5 Turbo |
text-davinci-003 |
#text-davinci-002 |
#綜合評分(總分5 分,同上) |
3.8 |
|
||
1.7###############################1.7############# ##########建立面試問題###### |
基於職位描述產生面試問題 |
#4.5 |
##4 |
0 |
#基於候選人資訊產生面試問題 |
4.5 |
3.75 |
##3.5
|
|
#在輸入文字中插入有專用翻譯的專有名詞、某垂直領域的專業術語、在不同場景下表意不同的名詞 |
||||
###3###################2######## ################在輸入中要求以「口語化」、「書寫」的方式輸出####### |
3.5 |
#3 |
3.5 |
|
在輸入中以口語化的口吻寫,要求「書面」的方式輸出,並在輸入中省略部分背景訊息、使用歧義的名詞 |
4 |
##5 |
2 |
|
#1 ##########1################ ##1########################在輸入中使用倒裝句、同音錯字、方言、口語化省略句###### ############3##################4###### |
3 |
|||
#直播總結 |
基於直播文字內容總結成一段摘要 |
#4 |
#4 |
3 |
#是基於直播文字內容提煉幾個要點 |
4.7 |
4 |
3 |
|
#基於直播主題寫一個直播的大綱 |
#4 |
4 |
0 |
|
是基於直播文字內容,找出問題的答案 |
5 |
#5 |
0 |
|
寫入工作週報 |
基於給出工作內容輸出週報 |
4 |
3.5 | 0 |
#基於給出的粗略描述輸出週報 | #4.5 |
4 |
3 |
|
基於給出工作內容以及目標範本結構,輸出範本化的週報 |
3 |
1 # |
1 |
|
#基於本週工作內容,輸出下週的工作週報 |
2 |
4 |
2 |
|
寫履歷 |
基於職位職責產生履歷 |
4 |
1.5 |
1.5 |
#基於任職要求產生履歷 | 4.5 |
3 |
1.5 |
|
根據自我介紹產生履歷 # |
3.5 |
#1.5 |
||
# 1 |
根據求職職位產生履歷模板
|
3.5
|
以上是在面試、英文郵件、直播、週報和履歷五個場景下,GPT 3.5系列模型的性價比如何?我們進行了實測並給出了選擇指南。的詳細內容。更多資訊請關注PHP中文網其他相關文章!