最近,由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架 OneKE 宣布开源,并且捐赠给 OpenKG 开放知识图谱社区。
知识图谱是实现大模型可信可控的关键技术之一,知识抽取可助力构建领域知识图谱。OneKE致力于帮助研究人员和开发者更好地处理信息抽取、文本数据结构化、知识图谱构建等问题。
通过OneKE抽取风险事件、人物实体、机构实体等可以清晰呈现事件脉络、事件发展趋势和实体之间关联,构建好的图谱可以帮助大模型实现跨实体、跨文档的复杂推理。OneKE支持中英双语,支持OpenSPG和DeepKE开源框架,可开箱即用。
大语言模型已经显著提升了人工智能系统处理世界知识的能力。然而,真实世界的信息高度碎片化、非结构化,使得大语言模型在处理信息抽取任务时,仍会因抽取内容与自然语言表述之间的巨大差异导致效果不佳;此外,自然语言文本信息存在较多的歧义、多义、隐喻等,给知识抽取任务带来较大的挑战。这也导致以大语言模型为代表的生成式人工智能依然存在推理能力不足、事实知识匮乏、生成结果不稳定等问题,极大地阻碍了大语言模型的产业化落地。
统一知识抽取框架可大幅降低领域知识图谱的构建成本,有比较广阔的应用场景。这是指,通过从海量的数据中萃取结构化知识,构建高质量知识图谱并建立知识要素间的逻辑关联,可以实现可解释的推理决策,也可用于增强大模型缓解幻觉,并提升稳定性,加速大模型垂直领域的落地应用。
在医疗领域,通过知识抽取实现医生经验的知识化管理,构建可控的辅助诊疗和医疗问答。在金融领域,知识抽取科用于金融指标、风险事件、因果关系及产业链等,实现自动的金融研报生成、风险预测、产业链分析等。在政务场景,可实现政务法规的知识化,提升政务服务的办事效率和准确决策。
加速推进生产式人工智能的产业落地,蚂蚁集团和浙江大学成立了知识图谱联合实验室,围绕大模型增强的知识图谱建设、知识增强的可信可控生成功能、领域常识世界图谱等课题展开全方位合作,以期通过联合技术攻坚建立大语言模型与知识图谱双向增强的可控生成功能范式。
蚂蚁集团和浙江大学联合建立和升级了蚂蚁百灵大模型在知识抽取领域的能力,并发布中英双语大模型知识抽取框架OneKE,同时开源基于LLaMA2全参数微调的版本。测试指标显示,OneKE在多个全监督及零样本实体/关系/事件抽取任务上取得了相对较好的效果。
OneKE是一个出色的中英双语可泛化的知识抽取工具,其在中文NER命名实体识别任务、RE关系抽取任务、EE事件抽取任务上取得了相对较好的效果。
蚂蚁集团知识图谱负责人梁磊表示,蚂蚁将持续优化知识抽取的性能,服务不同场景的大模型可控、可信需求。未来也会携手行业伙伴,将相关的技术体系应用到金融、医疗、政务等各垂直领域,推动知识图谱与大语言模型双驱的可控生成技术的产业落地。
OneKE官方主页:http://oneke.openkg.cn/
OpenSPG GitHub:https://github.com/OpenSPG/openspg
以上是螞蟻集團、浙江大學聯合發布開源大模型知識抽取架構OneKE的詳細內容。更多資訊請關注PHP中文網其他相關文章!