>數據科學和人工智能工程的不斷發展的景觀:查看挑戰和機遇
>生成的AI(Genai)和大語言模型(LLM)正在重塑專業世界,尤其是在數據科學中。 這個Genai驅動的環境給有抱負和建立的數據科學家帶來了前所未有的挑戰。本文分享了與傳統ML和Genai合作的六年多以來的見解和經驗,對成功數據科學家的不斷發展的作用提供了觀點。
免責聲明:
不受歡迎的意見:數據科學家的角色比以往任何時候都更加要求。目錄的表
定義“好”數據科學家
挑戰#1:高期望,有限的數據和策略- 挑戰#2:AI Hype&自稱專家
- 挑戰#3:整個組織之間的數據科學角色不一致
- 挑戰#4:持續數據質量問題
- 挑戰#5:域專業知識的關鍵需求
- 挑戰#6:導航“ OPS”景觀(DATAOPS,MLOPS,AIOPS,LLMOPS)
- 挑戰#7:適應快速技術進步
- 結論
- 參考
- 1。定義一個“好”數據科學家
“深度學習?我們專注於
在這裡學習。數據工程是它所處的位置。” -一個假設的雇主,2015Genai時代的V形數據科學家> >我的旅程始於R和SQL,分析了北歐股票市場的趨勢。 我研究的尖端深度學習感覺到了世界。現在,我的重點是LLMS,Genai和Agentic Workfrows,它們使用打字稿構建Genai服務。這種轉變反映了對數據專業人員的期望的更廣泛的發展 - 從傳統的ML/DL到生成AI和LLM。 “好”數據科學家的定義已經擴展。角色差異很大,從A/B測試和統計建模到端到端(E2E)ML管道所有權。 但是,核心技能仍然至關重要:
我的論文強調了在這個快速變化時代成功的V形技巧:
深度AI/ML專業知識
>業務敏銳度編程和系統開發 數據工程
道德考慮與治理
- 在這個基礎上,讓我們探索當前的挑戰。
- 2。挑戰#1:高期望,有限的數據和策略
- >
“我們需要AI,Genai,LLMS!我們的競爭對手正在使用Chatgpt。建立聊天機器人!哦,您的第一年沒有數據。隱私問題。” - 假設的經理,2023
>
>AI是許多組織的重中之重。 Chatgpt的興起推動了朝著“ AI驅動”的業務奔波。 雖然通過LLMS集成AI似乎很容易,但現實很複雜。
關鍵挑戰突出了期望與現實之間的差距:
- 數據稀缺:強大的數據管道至關重要。數據科學家經常花時間倡導數據工程資源來構建這些管道。 此外,數據通常是分散的,不一致的,結構不佳。 缺乏數據策略> 需要一個明確的策略 - 不僅僅是數據本身。 這包括解決敏感數據,將數據科學工作與業務目標保持一致以及培養數據驅動的文化。 沒有此,數據科學家解決了無關緊要的問題或創建未使用的解決方案。
-
缺乏AI策略:
許多公司為此而採用AI。 具有定義用例和ROI的明確AI策略至關重要。 這些挑戰強調了在追求AI計劃之前需要基礎支持的必要性。 - 3。挑戰#2:AI Hype&自稱專家
一個假設的非AI同事,2024
> AI繁榮導致自稱專家的激增。 儘管通過LLM的AI商品化是積極的,但它也稀釋了專業知識。 參加及時的工程課程並不會使某人成為AI專家。
這個炒作帶來了挑戰:自稱專家的興起 :
過分自信和缺乏真正的專業知識可能會阻礙進步。
未對準技能:
>
- 過度依賴插件解決方案:
- 雖然可訪問,但這些解決方案通常缺乏自定義,可伸縮性和地址安全/合規性問題。 > LLM功能的 誤解:
- 產品分析師:專注於A/B測試,用戶行為分析。
- 數據工程師:專注於構建和維護數據管道。
- 機器學習工程師:專注於完整的ML模型生命週期。
- >未定義的角色:在工作申請和訪談中混亂。
- 技能超載和倦怠:在不同地區精通的壓力。
- >轉向AI工程:對專業人士的需求不斷增長。 在求職過程中的 清晰度至關重要。
- 模型微調:確保模型與行業標准保持一致。
- 風險緩解與合規性:敏感部門的規定。
- 7。挑戰#6:導航“ OPS”景觀 >
- 難以選擇正確的工具。 碎片和集成:
- 挑戰集成不同的系統。 >不斷發展的技能:
- 需要持續學習和適應。 平衡創新與實用性:
- 將真正的創新與炒作區分開。 編程角色的未來 :
- AI有可能自動化編程任務的潛力。
“數據科學家?您什麼?您可以幫助此SQL查詢嗎?” - 假設的同事,2024
>
>數據科學家角色缺乏明確的定義。 職責差異很大:
- >
“數據,我的朋友,敵人和合作夥伴。我應該使用llms生成合成數據嗎?” -
假設數據科學家,2024>垃圾,垃圾(Gigo)仍然是一個重要的問題。許多公司對其數據缺乏全面的了解,從而導致有效地使用AI的挑戰。 6。挑戰#5:對域專業知識的關鍵需求>
>
“您不是科學家嗎?您不應該知道有關金融和法律的一切嗎?使用Chatgpt!” - 一個假設的領域專家,2022-2023
>>> LLM強大,但深厚的領域專業知識仍然至關重要。 與領域專家的合作至關重要:>
上下文理解:提供數據分析中經常缺少的上下文。
“數據管道,模型部署,LLM優化和雲基礎架構?我只是想訓練模型!” - 假設數據科學家,2024
>>操作AI系統至關重要。 了解DataOps,MLOPS,AIOPS和LLMOPS對於成功的生產部署至關重要。
8。挑戰#7:適應快速技術進步
“新圖書館與我們的堆棧不兼容,但是它更快。我會適合。” -假設工程經理,2024>
技術變革的迅速步伐既提出了機遇和挑戰:
- 壓倒性的工具選擇:
數據科學領域正在迅速發展。 成功需要融合技術專長,業務敏銳度,協作技巧以及致力於持續學習的承諾。
10。參考[1] Elwin,M。 (2024)。 V形數據科學家在生成AI時代。
中等。 [鏈接到原始中等文章] [2-10] [鏈接到其餘參考]
以上是不受歡迎的意見:成為一名好數據科學家比以往任何時候都更難的詳細內容。更多資訊請關注PHP中文網其他相關文章!

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

禪工作室 13.0.1
強大的PHP整合開發環境

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3漢化版
中文版,非常好用

Atom編輯器mac版下載
最受歡迎的的開源編輯器