近年来, 互联网的发展使计算机、网络和通信三者融为了一体。网络经济、注意力经济等一大批新概念的提出,以它独特而又巨大的社会效益、极具挑战和机遇的内涵,成为了信息科学中一个十分引人注目的难题。但是,网络在迅速、方便地给我们带来大量信息的同时, 也带来了一系列的问题。比如说,信息量过大而又难以及时消化;信息的真伪性难以准确识别;信息的安全难以妥善保证;信息的形式难以实现一致和统一处理等。
数据挖掘简单的说就是一个从大量、不完全、有干扰和随机的数据库中去获取隐藏在它们当中的、我们事先不知道的、但是包含大量潜在的有用信息和知识的过程。它是能够实现智能化和自动地把数据转变成有用信息和知识的一种技术和辅助工具,又是我们对数据库技术进行研究和改善的结果。数据挖掘,它又是一门非常广义的交叉学科, 它汇聚了各个不同领域的研究人员, 特别是数据库、人工智能、数理统计、可视化、并行计算等相关方面的专家和技术人员。
数据挖掘技术的信息主要是源于大数据和社会,所以在当前数据挖掘技术需求不断加大的今天,为了更好地促进所挖掘数据信息的真实性,促进其个性化职能的发挥,必须在大数据背景下注重信息失真的控制,切实做好数据挖掘技术管理的各项工作。
数据挖掘技术的具体流程就是先通过对于海量数据的保存,然后就已有数据中进行分析、整理、选择、转换等,数据的准备工作是数据挖掘技术的前提,也是决定数据挖掘技术效率及质量的主要因素。在完成数据准备工作后进一步对数据进行挖掘,然后对数据进行评估,最后实现运用。因此,数据挖掘能够运用到很多方面。如数据量巨大的互联网行业、天文学、气象学、生物技术,以及医疗保健、教育教学、银行、金融、零售等行业。通过数据挖掘技术将大数据融合在各种社会应用中,数据挖掘的结果参与到政府、企业、个人的决策中,发挥数据挖掘的社会价值,改变人们的生活方式,最大化数据挖掘的积极作用。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
其中KGB(Knowledge Graph Builder)知识图谱引擎是我们自主研发的知识图谱构建与推理引擎,基于汉语词法分析的基础上,采用KGB语法实现了实时高效的知识生成,可以从非结构化文本中抽取各类知识,并实现了从表格中抽取指定的内容等。KGB同时可以定义不同的动作,如抽取动作,并能自定义各类后处理程序。利用KGB知识图谱引擎可以抽取到产品的详细***信息,方便进行下一步的数据挖掘与图谱构建。
数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,尤其是在***营销中获得了成功,初步体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。