>数据科学和人工智能工程的不断发展的景观:查看挑战和机遇
>生成的AI(Genai)和大语言模型(LLM)正在重塑专业世界,尤其是在数据科学中。 这个Genai驱动的环境给有抱负和建立的数据科学家带来了前所未有的挑战。本文分享了与传统ML和Genai合作的六年多以来的见解和经验,对成功数据科学家的不断发展的作用提供了观点。
免责声明:
不受欢迎的意见:数据科学家的角色比以往任何时候都更加要求。目录的表
定义“好”数据科学家
挑战#1:高期望,有限的数据和策略- 挑战#2:AI Hype&自称专家
- 挑战#3:整个组织之间的数据科学角色不一致
- 挑战#4:持续数据质量问题
- 挑战#5:域专业知识的关键需求
- 挑战#6:导航“ OPS”景观(DATAOPS,MLOPS,AIOPS,LLMOPS)
- 挑战#7:适应快速技术进步
- 结论
- 参考
- 1。定义一个“好”数据科学家
“深度学习?我们专注于
在这里学习。数据工程是它所处的位置。” -一个假设的雇主,2015Genai时代的V形数据科学家> >我的旅程始于R和SQL,分析了北欧股票市场的趋势。 我研究的尖端深度学习感觉到了世界。现在,我的重点是LLMS,Genai和Agentic Workfrows,它们使用打字稿构建Genai服务。这种转变反映了对数据专业人员的期望的更广泛的发展 - 从传统的ML/DL到生成AI和LLM。 “好”数据科学家的定义已经扩展。角色差异很大,从A/B测试和统计建模到端到端(E2E)ML管道所有权。 但是,核心技能仍然至关重要:
我的论文强调了在这个快速变化时代成功的V形技巧:
深度AI/ML专业知识
>业务敏锐度编程和系统开发 数据工程
道德考虑与治理
- 在这个基础上,让我们探索当前的挑战。
- 2。挑战#1:高期望,有限的数据和策略
- >
“我们需要AI,Genai,LLMS!我们的竞争对手正在使用Chatgpt。建立聊天机器人!哦,您的第一年没有数据。隐私问题。” - 假设的经理,2023
>
>AI是许多组织的重中之重。 Chatgpt的兴起推动了朝着“ AI驱动”的业务奔波。 虽然通过LLMS集成AI似乎很容易,但现实很复杂。
关键挑战突出了期望与现实之间的差距:
- 数据稀缺:强大的数据管道至关重要。数据科学家经常花时间倡导数据工程资源来构建这些管道。 此外,数据通常是分散的,不一致的,结构不佳。 缺乏数据策略> 需要一个明确的策略 - 不仅仅是数据本身。 这包括解决敏感数据,将数据科学工作与业务目标保持一致以及培养数据驱动的文化。 没有此,数据科学家解决了无关紧要的问题或创建未使用的解决方案。
-
缺乏AI策略:
许多公司为此而采用AI。 具有定义用例和ROI的明确AI策略至关重要。 这些挑战强调了在追求AI计划之前需要基础支持的必要性。 - 3。挑战#2:AI Hype&自称专家
一个假设的非AI同事,2024
> AI繁荣导致自称专家的激增。 尽管通过LLM的AI商品化是积极的,但它也稀释了专业知识。 参加及时的工程课程并不会使某人成为AI专家。
这个炒作带来了挑战:自称专家的兴起 :
过分自信和缺乏真正的专业知识可能会阻碍进步。
未对准技能:
>
- 过度依赖插件解决方案:
- 虽然可访问,但这些解决方案通常缺乏自定义,可伸缩性和地址安全/合规性问题。> LLM功能的 误解:
- 产品分析师:专注于A/B测试,用户行为分析。
- 数据工程师:专注于构建和维护数据管道。
- 机器学习工程师:专注于完整的ML模型生命周期。
- >未定义的角色:在工作申请和访谈中混乱。
- 技能超载和倦怠:在不同地区精通的压力。
- >转向AI工程:对专业人士的需求不断增长。 在求职过程中的 清晰度至关重要。
- 模型微调:确保模型与行业标准保持一致。
- 风险缓解与合规性:敏感部门的规定。
- 7。挑战#6:导航“ OPS”景观 >
- 难以选择正确的工具。 碎片和集成:
- 挑战集成不同的系统。 >不断发展的技能:
- 需要持续学习和适应。 平衡创新与实用性:
- 将真正的创新与炒作区分开。 编程角色的未来 :
- AI有可能自动化编程任务的潜力。
“数据科学家?您什么?您可以帮助此SQL查询吗?” - 假设的同事,2024
>
>数据科学家角色缺乏明确的定义。 职责差异很大:
- >
“数据,我的朋友,敌人和合作伙伴。我应该使用llms生成合成数据吗?” -
假设数据科学家,2024>垃圾,垃圾(Gigo)仍然是一个重要的问题。许多公司对其数据缺乏全面的了解,从而导致有效地使用AI的挑战。 6。挑战#5:对域专业知识的关键需求>
>
“您不是科学家吗?您不应该知道有关金融和法律的一切吗?使用Chatgpt!” - 一个假设的领域专家,2022-2023
>>> LLM强大,但深厚的领域专业知识仍然至关重要。 与领域专家的合作至关重要:>
上下文理解:提供数据分析中经常缺少的上下文。
“数据管道,模型部署,LLM优化和云基础架构?我只是想训练模型!” - 假设数据科学家,2024
>>操作AI系统至关重要。 了解DataOps,MLOPS,AIOPS和LLMOPS对于成功的生产部署至关重要。
8。挑战#7:适应快速技术进步
“新图书馆与我们的堆栈不兼容,但是它更快。我会适合。” -假设工程经理,2024>
技术变革的迅速步伐既提出了机遇和挑战:
- 压倒性的工具选择:
数据科学领域正在迅速发展。 成功需要融合技术专长,业务敏锐度,协作技巧以及致力于持续学习的承诺。
10。参考[1] Elwin,M。(2024)。 V形数据科学家在生成AI时代。
中等。 [链接到原始中等文章] [2-10] [链接到其余参考]
以上是不受欢迎的意见:成为一名好数据科学家比以往任何时候都更难的详细内容。更多信息请关注PHP中文网其他相关文章!

Apollo Research的一份新报告显示,先进的AI系统的不受检查的内部部署构成了重大风险。 在大型人工智能公司中缺乏监督,普遍存在,允许潜在的灾难性结果

传统测谎仪已经过时了。依靠腕带连接的指针,打印出受试者生命体征和身体反应的测谎仪,在识破谎言方面并不精确。这就是为什么测谎结果通常不被法庭采纳的原因,尽管它曾导致许多无辜者入狱。 相比之下,人工智能是一个强大的数据引擎,其工作原理是全方位观察。这意味着科学家可以通过多种途径将人工智能应用于寻求真相的应用中。 一种方法是像测谎仪一样分析被审问者的生命体征反应,但采用更详细、更精确的比较分析。 另一种方法是利用语言标记来分析人们实际所说的话,并运用逻辑和推理。 俗话说,一个谎言会滋生另一个谎言,最终

航空航天业是创新的先驱,它利用AI应对其最复杂的挑战。 现代航空的越来越复杂性需要AI的自动化和实时智能功能,以提高安全性,降低操作

机器人技术的飞速发展为我们带来了一个引人入胜的案例研究。 来自Noetix的N2机器人重达40多磅,身高3英尺,据说可以后空翻。Unitree公司推出的G1机器人重量约为N2的两倍,身高约4英尺。比赛中还有许多体型更小的类人机器人参赛,甚至还有一款由风扇驱动前进的机器人。 数据解读 这场半程马拉松吸引了超过12,000名观众,但只有21台类人机器人参赛。尽管政府指出参赛机器人赛前进行了“强化训练”,但并非所有机器人均完成了全程比赛。 冠军——由北京类人机器人创新中心研发的Tiangong Ult

人工智能以目前的形式并不是真正智能的。它擅长模仿和完善现有数据。 我们不是在创造人工智能,而是人工推断 - 处理信息的机器,而人类则

一份报告发现,在谷歌相册Android版7.26版本的代码中隐藏了一个更新的界面,每次查看照片时,都会在屏幕底部显示一行新检测到的面孔缩略图。 新的面部缩略图缺少姓名标签,所以我怀疑您需要单独点击它们才能查看有关每个检测到的人员的更多信息。就目前而言,此功能除了谷歌相册已在您的图像中找到这些人之外,不提供任何其他信息。 此功能尚未上线,因此我们不知道谷歌将如何准确地使用它。谷歌可以使用缩略图来加快查找所选人员的更多照片的速度,或者可能用于其他目的,例如选择要编辑的个人。我们拭目以待。 就目前而言

增强者通过教授模型根据人类反馈进行调整来震撼AI的开发。它将监督的学习基金会与基于奖励的更新融合在一起,使其更安全,更准确,真正地帮助

科学家已经广泛研究了人类和更简单的神经网络(如秀丽隐杆线虫中的神经网络),以了解其功能。 但是,出现了一个关键问题:我们如何使自己的神经网络与新颖的AI一起有效地工作


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

记事本++7.3.1
好用且免费的代码编辑器

禅工作室 13.0.1
功能强大的PHP集成开发环境

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

Atom编辑器mac版下载
最流行的的开源编辑器