随着科学技术的迅速发展,人类开始进入大数据时代,云计算、大数据、移动互联网已成为时代三大主题,正在推动这新经济时代的发展。在科学领域、竞技领域及社会生活的方方面面,呈现出海量数据特征,在还来那个数据中蕴含着人类各种行为、心里信息,如认真挖掘加以科学分析利用,将对创造思维、创新模式、产品个性化及管理决策等等都具有极高的社会价值。大数据已被誉为21世纪发展创造的新动力。如何有效应用大数据、云计算等新信息技术,创造价值和财富,创造未来,是我们面临的巨大机遇和挑战。
大数据是在大量数据的环境下进行的,严格来说,大数据更像一种策略而非技术,核心概念为比以往有效的多的方式来管理海量的数据并从中提取价值。大数据具有复杂性、海量化、低密度、快速***等特点。而它的这些特点也决定的对它研究的方向以及出现的问题,目前的大数据分析有如下的问题:一个是数据量过大,从TB到PB、EB级。一个是数据分析时的数据可用性、数据建模、资源调度、专业工具分析匮乏、数据来源等问题。
数据的来源通常包括以下几种数据:交易数据、移动通信数据、人为数据、机器和传感器数据、互联网上的开放数据来源。在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。想要系统的认知大数据,必须要全面而细致的分解它,从三个层面来展开:
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。我将分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,尤其是在***营销中获得了成功,初步体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。