2018年8月10日,北京大学组织了一场院内讨论,首次提出AI for Science(科学智能)的概念。北京科学智能研究院成立于去年,是全球第一家以“AI for Science”为主题的研究机构。其实,学术界开展相关科研的时间更早,已有一定成果积累。5月30日,在2023中关村论坛“人工智能驱动的科学研究论坛”上,多家国内外专家就AI for Science重要性、研究成果及人才培养等话题展开深入研讨和交流,并围绕人工智能在生命科学、材料科学等领域的研究进展和突破进行分享,以期进一步挖掘人工智能在科学研究方面的潜力。
为什么重要
让科研体系从作坊模式过渡到“安卓”模式
近年来,AI forScience已在国际领先的研究机构中形成共识,各国日趋重视AI for Science的巨大潜力。这种概念在科研机构中流行的原因,要从科研瓶颈说起。
“做科研有两种方式,数据驱动和基本原理驱动”,中国科学院院士、北京科学智能研究院院长鄂维南详细介绍这两种模式下的困难,“数据驱动的瓶颈在于数据收集效率低下、缺乏有效的数据分析方法。至于基本原理驱动,量子力学奠基人之一的保罗·狄拉克一百年前就说过,寻求基本原理这个任务已基本完成,但用基本原理解决实际问题的效率比较低下,因为表达基本原理的数学问题太难了”。
这就造成了结构力学、机械工程、航空航天、电子工程等这些简单问题可以得到解决,材料性质和材料设计、药物、催化剂等复杂问题,只能通过经验和试错的办法解决理论和应用的脱离。
到底简单和复杂问题的边界是什么?鄂维南认为,“是自由度(维数)的个数,也就是说随着维数增加,问题的复杂度指数跟着增加,这正是AI可以帮助我们解决的。AI为数据驱动模式提供新工具,提高基本原理驱动模型的可靠性和效率,还可以把数据驱动和基本原理驱动结合起来”。
科研的四个基本工具分别是基本原理和数据分析方法、实验、文献、算力。
从新型科研基础设施建设角度看,“我们做科研的具体操作方式还是小农作坊的方式,比如做实验,把所有设备买过来,自己从头到尾做一遍,这个周期非常长而且效率低下”,鄂维南说,有了AI会推动下一代工具建设,从过去的作坊模式过渡到安卓模式,建一个科研大平台,针对基本原理的一个开源平台,针对文献的一个知识库,针对实验的几个实验中心和一个实验云平台,针对算力的几个算力中心和一个算力云平台。
有什么成果
基于大语言模型+向量数据库的文献知识库
共识有了,工具备受期待。根据美国国家科学基金会统计数据,科研人员花费在查找和消化科技资料上的时间占全部科研时间的51%、计划思考占8%、实验研究占32%、书面总结占9%。科研检索方式将从查阅式的眼查手翻和基于互联网的搜索式检索阶段进入对话式检索阶段。
“但通过对话式大语言模型检索是有局限性的,比如幻觉与偏见、数据滞后、缓存限制”,墨奇科技副总裁孟卓飞总结。
基于这些痛点,北京科学智能研究院、中国科学院计算机网络信息中心、墨奇科技联合发布了一款基于大模型+向量检索引擎的文献知识库Science Navigator V1.0,该知识库包括以科研人员为代表的用户层、以GPT4等为代表的模型层、由向量数据库+搜索引擎组成的中间层、由文献和教材等支撑的数据层。模型层由北京科学智能研究院负责,中间层由墨奇科技负责,数据层由中国科学院计算机网络信息中心负责。
孟卓飞介绍,ScienceNavigator V1.0支持文本、图片、表格、公式跨模态识别处理,科研人员可选用文心一言、LLM等各种大小模型,实现问题解析的最佳效果,第一批已收录化学、材料、AI等领域近百万篇论文,未来将扩展至自然、人文学科亿级文献。
怎样垂直整合:
建立协作体系+推动AIfor Science进课堂
AI for Science意味着跨学科、大融合,其快速发展将引发科研模式重构,人才、机制、生态、学科交叉等方面还存在很多挑战和问题,新时代下如何构建垂直整合的科研体系需要群策群力。
黄铁军博士是北京智源人工智能研究院院长,拥有30多年的科研经验,其最深刻的领悟是协同合作。“无论应用、研发还是基础理论,怎样形成一个协作体系特别重要。关于AI在科学领域的应用,我们需要思考如何更好地合作,以更高的效率取得成果。比如,基本粒子60多种、原子100多种,常用的数量也是比较明确的,如果组织的好,可以把元素周期表全部刷一遍,逐渐把整个物理、化学、生命的基本模型体系全建起来,大家在上面做研发做应用的效率就会高很多。”
负责本科生、研究生教学工作的北京大学材料科学与工程学院院长助理雷霆强调人才培养,“今年我们学院推出AI for material science(材料科学)系列课程,邀请本学院和北大其他学院及相关专家来上课,我们希望尽快推动AI for Science概念进入课堂,让学生们跳脱原有的思维方式和工具,尽快使用上新工具。新工具确实帮助加速实验科学的进步,而且同学和老师的评价都非常好。一些同学和老师提出了新的建议,例如相关内容仍不够丰富,还需要更多的技术参考资料等。
▲微课堂
AI for Science之材料科学
"Materials are the driving force behind almost all technologies," said David Srolovitz, a member of the National Academy of Engineering in the U.S. and the Dean of the Faculty of Engineering at the University of Hong Kong.。基于人工智能的原子间势能以接近QM的精度实现大规模原子模拟。DP (数据处理) 的专业化应用展现了结构金属和合金的完美晶体和缺陷特性,因此DP是理解许多缺陷特性的唯一途径。”
AI for Science之生命科学
清华大学卓越访问教授、美国芝加哥丰田计算技术研究所教授许锦波:“蛋白质是生命的物质基础,是生命活动的主要承担者。AI技术适用于各应用场景的蛋白质从头设计,比如设计减毒的新型蛋白质药物,用于治疗胃癌、结直肠癌、肝癌、黑色素瘤等多种类型肿瘤,可以设计绿色农药,保障粮食安全和食品安全。”
AI for Science之原子动力学
美国科学院院士、普林斯顿大学化学系教授罗伯特·卡尔:“在没有经验输入的情况下,从基础量子理论对复杂分子过程进行AI建模,可以具有良好/优秀的预测能力,在存在难以用经验模型描述的化学反应时,这种方法在化学、材料科学和生物学中很重要。有了更精确的参考量子力学模型,系统地提高精度应该是可能的。”
北京商报记者 魏蔚
以上是2023中关村论坛|当AI遇上科学研究,科学家们有话说的详细内容。更多信息请关注PHP中文网其他相关文章!