作者 | 宛辰、Li Yuan
編輯 | 靖宇
當地時間 6 月 28 日,美國知名資料平台 Databricks 舉辦了自己的年度大會—資料與人工智慧高峰會。會上,Databricks 發表了 LakehouseIQ、Lakehouse AI、Databricks Marketplace 、 Lakehouse Apps 等一系列重要新品。
無論是從峰會的名稱,還是新產品的命名,都能看出這家知名數據平台,正在趁著大語言模型的東風,加速向 AI 轉變的腳步。
Databricks 公司 CEO Ali Ghodsi 所說的資料和 AI 普惠化|Databricks
「Databricks 要實現的是『資料普惠』和AI 普惠,前者讓資料通往每一個僱員,後者讓AI 進入每一個產品。Databricks 公司CEO Ali Ghodsi 在發言中宣布了團隊的使命。
就在大會開始之前,Databricks 剛剛宣布以 13 億美元收購 AI 領域的新生力量 MosaicML,創下了當前 AI 領域收購紀錄,可見公司在 AI 轉型上的力度和決心。
正在前方參加的 PingCAP 創辦人兼 CEO 劉奇告訴《極客樂園,Databricks 平台》剛上線 AI 的企業級應用,就已經有超過 1500 家公司在上面進行模型訓練,「數字超出預期」。同時,他認為 Databricks 由於先前在數據 AI 方面的積累,讓公司能在 AI 大火之際,迅速在先前平台基礎上加入新產品,就能快速給出和大模型相關的服務。
「最關鍵的就是速度。」劉奇說道,在大模型時代,如何用更快的速度讓大模型和現有產品整合,解決用戶的痛點,可能是當下所有數據公司最大的挑戰,同時也是最大的機會。
Talking points
資料庫迎來自然語言互動
Databricks 在會議上發布了一款全新的LakehouseIQ工具,被譽為"神器"。 LakehouseIQ 承載著 Databricks 近期最大的發力方向之一——數據分析普惠化,即不掌握 Python 和 SQL 的普通人也能輕輕鬆鬆接入公司數據,用自然語言就能進行數據分析。
為達到這個目的,LakehouseIQ 被設計為一個功能集,既可以被一般終端使用者使用,也可以被開發者使用,針對不同的使用者設計了不同的功能。
LakehouseIQ 產品圖|Databricks
對於開發者方面,發布了 LakehouseIQ in Notebooks,在這項功能中,LakehouseIQ 可以利用大語言模型幫助開發人員完成、產生和解釋程式碼,以及進行程式碼修復、調試和報告生成。
而對於普通的非程式設計師群體,Databricks 則提供了可以直接用自然語言互動的介面,背後由大語言模型驅動,可以直接用自然語言來搜尋和查詢資料。同時,該功能與 Unity Catalog 集成,讓公司可以對資料的搜尋和查詢進行存取權限控制,只傳回提問者被授權查看的資料。
自大模型推出以來,用自然語言對資料進行查詢和分析,其實一直是資料分析方向的熱點,許多公司在此方向都有佈局。包括 Databricks 的老對手 Snowflake,剛剛宣布的 Document AI 功能也是主打這個方向。
LakehouseIQ 自然語言查詢介面|Databricks
##然而,Databricks聲稱LakehouseIQ在功能上表現更出色。它指出,通用大語言模型在理解特定客戶資料、內部術語和使用模式上有限制。而 Databricks 的技術,能夠利用客戶自己的模式(schema)、文件、查詢、受歡迎程度、線程、筆記本和商業智能儀錶板來獲取智能,回答更多查詢。
Databricks 的功能與 Snowflake 的功能還有一個差別,Snowflake 平台的 Document AI 功能,僅限於對文件中的非結構化資料進行查詢,而 LakehouseIQ 適用於結構化的 Lakehouse 資料和程式碼。
02
從機器學習到 AI
Databricks 與 Snowflake 在發表會上的相似之處還不局限於此。
此次發表會中,Databricks 發布了 Databricks Marketplace 和 Lakehouse AI,這與 Snowflake 這兩天大會的重點也完全吻合,二者都主打將大語言模型部署到資料庫環境中。
在 Databricks 的設想中,Databricks 未來既可以協助客戶部署大模型,也提供成品的大模型工具。
Databricks 過去就有 Databricks Machine Learning 的品牌,在此次發表會上,Databricks 對其進行品牌全面的重新定位,升級為 Lakehouse AI,主打協助客戶部署大型模型。
Databricks Marketplace is now available on Databricks.。在 Databricks Marketplace 中,使用者可以存取經過篩選的開源大語言模型集合,包括 MPT-7B、Falcon-7B 和 Stable Diffusion,還可以發現並取得資料集、資料資產。 Lakehouse AI也提供了一些大語言模型操作(LLMOps)的功能。
Lakehouse AI架構圖|Databricks
#Snowflake 也正在對此進行積極部署,其相似功能由Nvidia NeMo、Nvidia AI Enterprise、Dataiku 和John Snow Labs 提供(與英偉達的合作正是Snowflake 大會的重點之一,請參閱極客公園的報道) 。
在協助客戶部署大模型方向,Snowflake 與 Databricks 顯現出了分歧。 Snowflake 選擇積極地與合作夥伴合作,而 Databricks 則試圖將該功能作為其核心平台的本地特性添加進去。
而在提供成品工具方面,Databricks 宣布 Databricks Marketplace 未來也將可提供 Lakehouse Apps。 Lakehouse Apps 將直接在客戶的 Databricks 實例上運行,它們可以與客戶的資料集成,使用和擴展 Databricks 服務,並使用戶能夠透過單一登入體驗進行互動。資料永遠不需要離開客戶的實例,沒有資料移動和安全/存取問題。
這一點與 Snowflake 公司的產品在命名和功能上完全一致。 Snowflake 公司與之相似的 Snowflake Marketplace 和 Snowflake Native App 已經上線,是其發布會的重點之一。彭博社就在Snowflake 的大會上宣布了一個由彭博社提供的Data License Plus (DL ) APP,允許客戶在雲端用幾分鐘時間就能配置一個隨時可用的環境,內部設有完全建模的彭博訂閱數據和來自多供應商的ESG 內容。
03
數據平台迎來新變革
開幕式主題演講上,Databricks 公佈了一個數字:過去 30 天,已經在 Databricks 平台上訓練 Transformer 模型的客戶超過 1500 家。
在談到這個令人印象深刻的數字時,PingCAP 劉奇認為,這說明企業應用AI 的速度比預期的要快得多,「應用模型不一定要去訓練模型,所以如果訓練的都有1500 家,那應用的肯定比這個(數字)大的多很多。」
另一個觀點是,這顯示Databricks在AI領域的策略佈局相當全面。它現在已不只是一個資料倉儲或資料湖了。現在它也提供:AI 的 training(訓練)、AI 的 serving(服務),模型的管理等一整套。 ”
Ali Ghodsi 以運算與互聯網的革命,類比大模型之於機器學習的變革|Databricks
換句話說,底層模型可以在 Databricks 的平台上進行訓練,只需調整參數即可實現訓練最底層的模型。在這個模型之上所需要的 AI 服務,Databricks 也佈局了相應的基礎設施——今天發布了 vector search(向量搜尋)和 feature store(特徵庫)。
Databricks 全面向大模型升級。
過去,Databricks 在 AI 方面有很多積累,例如在建索引、查資料、預測工作負載等方面,用小模型來提高效率、降低時延。但是,以如此快的速度補上大模型的能力,還是讓不少人感到意外。
在今天峰會全面展示的 AI 佈局之前,Databricks 收購了 Okera(AI 數據治理),推出了自家的開源大模型 Dolly 2.0,又以 13 億美元併購了 MosaicML,一連串的動作一氣呵成。
對此,矽谷徐老師Howie 認為,Databricks 和Snowflake 這兩個大會都可以比較明確地看出:兩家公司的創始人認為,基於數據庫、數據湖他們所做的行動、接下來會面臨根本性的改變。按照一年前他們在做的思路,在未來幾年行不通。
相應地,快速補齊大模型的能力,也意味著可以獲得由於大模型帶來的增量市場。
劉奇認為,大模型的出現引發了許多新需求,這些需求在沒有大模型之前是不存在的。沒有數據支持,模型將無法發揮作用,尤其在差異化方面無法展現。如果大家都是一個大模型,那你跟別人可能也沒有差別。 ”
但比起大模型,高峰會現場的觀眾似乎更關注小模型,因為小模型的幾個優點:速度、成本、安全性。劉奇表示,基於自己獨有的數據,做出差異化的模型,模型要夠小才能滿足這三條:夠便宜、夠快、夠安全。
值得注意的是,Databricks 和 Snowflake 在日前都公佈了它的營收數據,平台年營收成長在 60% 以上。在整個市場軟體支出放緩的背景下,數據的關注程度不斷增加,這種成長速度得以反映出來。隨著大型模型的出現,資料的價值在這次 Databricks 高峰會上強調了資料加 AI 主題。
隨著大規模模型的引入,資料自動產生變得有可能,預計資料量將以指數級增加。怎麼輕鬆存取資料、怎麼支援不同的資料格式、挖掘資料背後的價值,會成為越來越頻繁的需求。
另一方面,今天很多企業還在探索觀望將大模型連接到企業軟體,但考慮到安全、隱私、成本,敢直接用的,還很少。一旦透過將大模型直接部署到企業數據上,無需移動數據,部署大模型的門檻將進一步降低,數據被消費的數量和速度都將進一步釋放。
以上是一家 380 億美元的數據巨頭,要掀起企業「AI 化」革命的詳細內容。更多資訊請關注PHP中文網其他相關文章!