人工智慧學科起源於1956年,之後在接下來的半個世紀中幾乎沒有取得進展,算力和數據的發展遠遠落後於演算法。然而,隨著2000年進入網路時代,算力的限制被打破,人工智慧逐漸滲透到各行各業,並迎來了大規模模型時代的開啟。然而,高品質的數據似乎成為了人工智慧發展的最後的「瓶頸」
華為OceanStor Pacific在最近舉行的全國高效能運算學術年會(CCF HPC China 2需要重寫的是:023)上榮獲了「AI 存力底座最佳創新獎」
AI存力的概念的出現其實從側面體現了資料對於AI價值的不斷提升
要重寫的內容是:01
資料決定人工智慧的智慧程度
人工智慧的發展是一個不斷收集和分析資料的過程。數據作為資訊的載體,是人工智慧學習和理解世界的基礎。通用智能是人工智慧發展的最終目標,它能夠自主地學習、理解、推理和解決問題,而數據是推動其發展的最大動力
那麼,數據越多,AI就越聰明嗎?只要有大量的數據,AI就能夠超越專家的角色嗎?
以醫學領域的人工智慧系統為例,許多診斷案例其實沒有唯一正確的答案。在醫學診斷中,每組症狀都有一系列不同機率的可能原因,因此人工智慧的輔助決策可以幫助臨床醫生縮小可能的病因範圍,直到找到解決方案。在這種情況下,醫學人工智慧依賴的不是大量數據,而是準確且高品質的數據,只有這樣才能確保在「篩檢」時不會錯過真正可能的病因
資料品質對於AI智能的重要性在這個典型示範中得到了體現
在人工智慧產業中,一直存在著共識,即「垃圾進,垃圾出」。這意味著,如果沒有高品質的資料輸入,無論演算法有多先進,運算能力有多強大,都無法產生高品質的結果
在當今時代,我們正處於大模型的風口之上。人工智慧的大模型如雨後春筍般不斷湧現。華為的盤古、訊飛的星火、紫東的太初等中國的一批大模型正在快速發展,致力於建構跨產業通用的人工智慧能力平台,為各行各業的數位轉型提供動力
根據中國科技部新一代人工智慧發展研究中心於五月底發布的《中國人工智慧大模型地圖研究報告》,已有79個擁有十億參數規模以上的大模型在中國發布。雖然「百模大戰」的格局已經形成,但這也引發了對大模型發展的深入思考
基於小規模資料建立的模型,其表達能力受限於資料規模,只能進行粗粒度的模擬與預測,在精度要求比較高的情況就不再適用。如果想要進一步提升模型精確度就需要利用海量資料產生相關模型
重寫後的內容是:這意味著資料的數量決定了AI智能的程度。無論數據的品質如何,數據的數量都是建立「AI存力」所需重點關注的領域
要重寫的是:02
在大數據時代,數據所面臨的挑戰
隨著人工智慧朝向大型模型和多模態發展,企業在開發或實施大型模型應用時面臨許多挑戰
首先,資料預處理的周期很長。由於資料分佈在不同的資料中心、不同的應用和不同的系統中,因此存在歸集速度慢等問題,導致預處理百TB資料需要大約10天的時間,系統的利用率從一開始就需要提高效率
其次,訓練集載入效率低的問題需要解決。現在大型模型的規模越來越龐大,參數等級達到千億甚至萬億,訓練過程需要大量的運算資源和儲存空間。例如,多模態大型模型以海量文字和圖片作為訓練集,但是目前海量小檔案的載入速度較慢,導致訓練集載入效率不高
此外,還面臨大型模型參數頻繁調優、訓練平台不穩定的挑戰,平均每兩天就會出現一次訓練中斷。為了恢復訓練,需要使用檢查點機制,而故障復原的時間則超過一天,為業務連續性帶來了許多挑戰
為了在AI大模型時代取得成功,我們需要同時專注於資料的品質和數量,並建立大容量、高效能的儲存基礎架構。這已經成為了取得勝利的關鍵要素
需要重新寫作的內容是:03
AI時代的關鍵在於存力底座
隨著大數據、人工智慧等技術與高效能運算的結合,高效能資料分析(HPDA)成為實現資料價值的新形式。透過利用更多歷史資料、多元異構算力和分析方法,HPDA得以提高分析精確度。這標誌著科學研究邁向智慧化的新階段,人工智慧技術將加速前沿成果的應用
如今,科學研究領域正在出現一種基於"資料密集型科學"的新範式。這種範式更加重視將大數據知識挖掘和人工智慧訓練推理技術結合,透過計算和分析來獲取新的知識和發現。這也意味著對於底層資料基礎設施的需求將會發生根本性的改變。無論是高效能運算還是人工智慧的未來發展,都需要建立先進的儲存基礎設施來應對資料的挑戰
解決資料挑戰需要從資料儲存創新入手,這正如諺語所說的解鈴還須繫鈴人
AI存力底座是基於OceanStor Pacific分散式儲存開發的,並秉承AI Native設計理念,以滿足AI各個環節的儲存需求。 AI系統對儲存提出了全面的挑戰,包括資料運算加速、資料儲存管理以及資料儲存和運算之間的高效流通等等。透過採用「大容量儲存 高效能儲存」的組合,可以確保儲存資源的調度和協調一致,使每個環節都能高效運轉,從而充分釋放AI系統的價值
OceanStor Pacific分散式儲存如何展現其核心能力呢?
首先,技術架構在業界是獨創的。這套儲存系統支援無限橫向擴展,並且能夠處理混合負載,既能高效處理小檔案的IOPS,也能高速讀寫大檔案的頻寬。它具備智慧的效能層和容量層資料分級流轉功能,能夠實現對海量資料的歸集、預處理、訓練和推理等全流程的AI資料管理。此外,它還具備與HPC和大數據相同的資料分析能力
重寫後的內容為:其次,業界效率最佳的提升方法是透過儲存的創新。首先是資料編織,即透過GFS全局文件系統將分散在不同地區的原始資料接入,實現跨系統、跨地區、跨多雲的全局統一資料視圖和調度,簡化資料收集過程。其次是近存運算,透過儲存內嵌的算力實現對近資料的預處理,減少無效資料傳輸,同時降低預處理伺服器的等待時間,從而顯著提高預處理效率
實際上,"百模大戰"並不是AI大模型發展的"標誌"。未來,各行各業都將透過AI大模型的能力來推動數位轉型的深入發展,同時資料基礎設施的建置也將加速推進。 OceanStor Pacific分散式儲存在技術架構的創新和高效率的表現,已經證明自己是業界的首選
我們明白,數據已成為與土地、勞動、資本、技術並列的新型生產要素。過去數位化市場中的許多傳統定義和運作模式都將被重新書寫。只有先存力,才能確保數據驅動的人工智慧大模型時代穩步向前
以上是AI大模型時代的發展需要先進的儲存技術來實現穩定的進展的詳細內容。更多資訊請關注PHP中文網其他相關文章!

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Atom編輯器mac版下載
最受歡迎的的開源編輯器

Dreamweaver CS6
視覺化網頁開發工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能