博客列表 >NLPIRKGB知识图谱引擎为数据挖掘提供支持

NLPIRKGB知识图谱引擎为数据挖掘提供支持

#小耗子老公#的博客
#小耗子老公#的博客原创
2019年06月28日 11:48:19738浏览

  随着互联网的普及、计算机技术的发展,每天都会产生海量的信息,然而,人们真正需要的知识却很匮乏。为了解决这种信息泛滥与知识相对匮乏的矛盾,知识抽取这一研究领域开始被专家学者们广泛关注。知识抽取(Knowledge eXtraction KX)是对蕴涵于文献中的知识进行识别、理解、筛选和格式化,从而把文献中的各个知识点(包括常识知识和专家知识)抽取出来,以一定形式存入知识库中。常常与之混淆的概念有数据挖掘、知识发现、知识获取、信息抽取等,然而知识抽取研究对象是显性的、已有的知识,与数据挖掘有很大的区别,其是知识获取的有效方式之一,是信息获取的进一步发展。

  知识抽取既是其他信息获取手段的一种补充,又为其他信息处理技术提供技术支持。面对大量的信息,通过不同层次和精度的信息获取技术可以得到用户需要的相关文档。知识抽取技术可以从相关文档中抽取出粒度更小的关系和事件,以此满足用户的进一步需求。信息抽取作为将非结构化的信息转化为结构化的信息的一种方法,为进一步的数据信息处理,如数据挖掘,数据库查询等打下基础。从广义上讲,信息抽取的处理对象可以是语音、图像、文本、视频等众多类型的数据。从狭义上看,信息抽取可以只针对自然语言文本进行信息的抽取。

  北京理工大学大数据搜索与挖掘实验室张华平主任研发的KGB知识图谱引擎,KGB知识图谱引擎(Knowledge Graph Builder)是基于自然语言理解、汉语词法分析,采用KGB语法从结构化数据与非结构化文档中抽取各类知识,大数据语义智能分析与知识推理,深度挖掘知识关联,实时高效构建知识图谱。

  KGB知识图谱引擎功能介绍

  一、文档提取

  1、轻松解析多种格式文档

  KGB知识图谱引擎,可轻松解析多种格式、多种版本文档:TXT、DOC、EXCEL、PPT、PDF、XML等。对于图片信息,OCR可自动识别并抽取图片中的文字信息。

  2、结构化表格数据知识抽取

  KGB能够自适应解读并抽取结构化表格数据,实现知识的快速生成。

  3、非结构化文档知识抽取

  KGB知识规则引擎,快速定位非结构化文档中的关键信息(主体、时间、金额等),高效抽取知识。

  二、知识关联

  KGB知识图谱引擎深入挖掘知识关联,将知识实体链接为有意义的知识事实。并具有强大的知识推理能力,推理暗含的知识与结论,丰富知识图谱。

  三、知识推理

  KGB具有强大的知识推理能力,推理出暗含的知识,获取更多知识与结论,丰富知识图谱。1、演绎归纳推理(一般—特殊)

  KGB能够完成由一般特征到特殊个案的演绎知识推理和由特殊个案到一般特征的归纳知识推理,扩充大量暗含的知识,丰富知识图谱。

  2、知识计算(数值知识的加减乘除计算)

  对于数值型知识,KGB能够识别并对数值型知识进行加减乘除的知识计算推理,并可对知识计算的准确性进行核查。

  3、知识库检查

  KGB能够实时检查知识库,纠正知识错误与冲突,保证知识图谱正确性与一致性。

  随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段,中文信息处理将具有更加广阔的***。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础,在互联网日益成长的今天,中文信息处理技术将会更加成熟并创新。


声明:本文内容转载自脚本之家,由网友自发贡献,版权归原作者所有,如您发现涉嫌抄袭侵权,请联系admin@php.cn 核实处理。
全部评论
文明上网理性发言,请遵守新闻评论服务协议