開發ChatGPT的OpenAI公司在網站上展示了摩根士丹利進行的一個案例研究。其主題是「摩根士丹利財富管理部署GPT-4來組織其龐大的知識庫。」該案例研究引述摩根士丹利分析、數據與創新主管Jeff McMillan的話說,「該模型將為一個面向內部的聊天機器人提供動力,該機器人將對財富管理內容進行全面搜索,並有效地解鎖摩根士丹利財富管理的累積知識」。
McMillan進一步強調:「採用GPT-4,你基本上立刻就擁有了財富管理領域最博學的人的知識……可以把它想像成我們的首席投資策略師、首席全球經濟學家、全球股票策略師,以及全球其他每一位分析師,並且每天都在待命。我們相信,這對我們公司來說是一種變革能力。」
這是知識管理的終極目標-將企業的知識和專長體現在與客戶互動的系統、流程和工具中的能力。
那麼真的達到這個目標了嗎?生成式人工智慧是知識存取、檢索和應用的答案嗎?在宣布戰勝資訊混亂之前,考慮一些基本元素和注意事項是很重要的。
首先,生成式人工智慧可以克服知識管理挑戰的認知背後有一個假設,即知識以明確的、記錄的形式存在。然而,在大多數企業中,知識被鎖定在員工的頭腦中,如果以數位形式存儲,它就會分散在部門、技術和儲存庫的生態系統中的孤島中。 OpenAI公司在其網站上進一步指出,摩根士丹利每年發表數千篇論文,其內容涉及資本市場、資產類別、行業分析和全球經濟區域……這些知識財富為摩根士丹利公司創建了一個獨特的內部內容庫,可以使用GPT-4進行處理和解析,同時也可以進行內部控制。摩根士丹利擁有的知識可以構成使用ChatGPT大型語言模型的基礎。如果企業內容和知識資源不可獲取,品質很差,或與客戶和員工的需求不一致,ChatGPT將無法存取回應這些需求的特定知識。
第二,生成式人工智慧創造內容。它不是一個檢索機制。那麼原始知識庫是如何使用的呢?這是一個棘手的領域。 ChatGPT正在尋找內容和概念關係中的模式,以便它可以根據提示預測應該顯示哪些文字。提示符是一種訊號,就像搜尋字詞是一種訊號一樣。搜尋引擎不僅根據術語,而且還根據與查詢場景相關的其他訊號(例如,行業或搜尋者的角色)預測應該顯示哪些資訊。可以在提示中以事實或文件的形式向ChatGPT提供場景,也可以透過指向作為回應基礎的特定資訊以程式設計方式提供場景。
大型語言模型是包含在資訊體中的術語、概念和關係的數學表示。大型語言模型的強大之處在於它們能夠理解用戶的意圖——無論請求是如何表達的,用戶都在尋找什麼內容,以及預測最有可能響應用戶意圖的單字模式。該模型「理解」用戶的請求,並對應該返回的內容做出預測。搜尋引擎也會根據使用者的查詢做出預測,儘管是透過不同的機制。搜尋引擎可以用於產生人工智慧場景中的檢索。使用語義搜尋或神經搜尋引擎檢索內容,並使用大型語言模型為使用者格式化回應。
同義詞庫將非首選術語對應為首選術語(例如,“SOW”和“Statement of Work”對應為“Proposal”,即標記文件的首選術語)。把大型語言模型的一個方面看作是“同義詞庫”,但不僅僅是單詞,而且是短語和概念。使用者可以用許多不同的方式提出相同的問題。這種意圖分類並不新鮮,它是將短語變化解析為特定動作的聊天機器人的基礎。語言模型是意圖解析和分類功能的基礎。
大型語言模型也能理解提示符號後面的單字模式。這就是啟用ChatGPT會話流暢性的方式。使它們對企業具有實用性的關鍵是根據特定的內容或知識體來調整模型(摩根士丹利在實施ChatGPT時就是這樣做的),並吸收企業獨有的術語。
有許多帶有範例程式碼的教學說明如何使用具有特定內容的大型語言模型。例如,其視訊引導開發人員完成使用語言模型(如GPT-4)並將聊天機器人指向特定知識和內容的過程。
定制的、特定於知識的聊天機器人可以使用大型語言模型來理解用戶的要求,然後從指定的知識來源傳回結果。開發人員指出,需要將內容「分塊」成「語意上有意義」的部分。為回答特定問題而設計的組件化內容需要完整且符合情境。重要的是要注意,知識通常不存在於這種狀態。要進行組件化,必須將大型文件和文字主體分解成區塊。例如,使用手冊可以按章、節、段和句子分成若干部分。在技術文件領域,這已經做到了——DITA (達爾文資訊類分類架構)等標準使用了基於主題的方法,非常適合回答問題。
開發人員談論「語意」以及語意的重要性。這是什麼意思?語意學是關於意義的。語意豐富的內容以元資料標記,元資料有助於精確檢索所需的資訊和資訊的場景。例如,如果使用者使用特定型號的路由器,並且該路由器發出錯誤代碼,那麼當請求支援機器人幫助時,可以檢索標有這些標識符的內容。這個過程在聊天機器人領域也被稱為「插播」。
自訂內容被攝取到所謂的「向量空間」中,這是另一種資訊數學模型,它將文件放在多維空間中(這是一種數學構造),允許對類似的文件進行聚類和檢索。這被稱為“嵌入”。嵌入可以包含元資料和識別碼(例如參考來源),這些元資料和識別碼有助於記錄向使用者提供特定答案的原因。這對於法律責任和監管目的以及向使用者提供正確、最權威資訊的保證都很重要。
關於「訓練」有幾個觀點。 ChatGPT和大型語言模型在大量內容上進行了訓練,使它們能夠理解使用者的查詢,並以格式良好且具有會話性的最佳答案進行回應。訓練該工具的一種方法是在提示符中包含內容,「根據以下資訊回答這個問題…」
首先,ChatGPT在其提示符號中只能處理一定數量的內容,這種提問方式將非常有限。可以將內容攝取到工具中,這將支援額外的訓練。然而,將內容添加到ChatGPT中也會將該內容合併到公共模型中。因此,企業的智慧財產權將受到損害。這種風險導致許多企業禁止使用ChatGPT和其他因無意中上傳企業機密而失去智慧財產權的人工智慧工具。
另外,還有另一種訓練內容的方法。大型語言模型可以使用企業特定知識作為訓練語料庫的一部分,但這需要提供一個防火牆後面的版本。幸運的是,大型語言模型正在迅速實現商品化,有些甚至可以在筆記型電腦上本地運行。這種類型的訓練在計算上也很昂貴。另一種機制是使用大型語言模型來解釋使用者的目標(他們的意圖),然後使用向量嵌入以程式方式提供來自特定資料或內容來源的場景。
然後,語言模型會對回應進行處理和格式化,使其具有對話性和完整性。透過這種方式,知識與大型語言模型分開,使企業的商業機密和智慧財產權不會受到損害。
所有這些因素都表明需要知識管理和知識架構,將資訊組織成元件,以便使用者可以獲得特定問題的答案。大型語言模型和ChatGPT的革命性本質可以提供所需的會話流暢性,以近乎人類的互動水平來支援積極的客戶體驗。關鍵因素是獲得企業中結構良好的知識。 ChatGPT看起來很神奇,但它是基於資訊的統計處理和模式預測。如果正確地組織和整合訊息,將會成為企業數位轉型的重要組成部分。
以上是ChatGPT和生成式人工智慧在數位轉型中的意義的詳細內容。更多資訊請關注PHP中文網其他相關文章!