灵玖软件：NLPIR智能语义挖掘中文文本数据

　　随着现代信息传播技术手段和方式不断丰富，信息获取、信息传递、信息处理、信息再生、信息利用等功能应用日益多样化，智能化信息系统逐渐形成一个信息网络体系，人类社会的***方式、工作方式、学习方式、交往方式、生活方式、思维方式等发生了极其深刻的变革，互动化、即时性、全媒体等成为常态性的信息生态环境，传统的数据库组织架构和信息服务模式己经难以适应信息社会现实需要，整个信息技术架构的革命性重构势在必行，大数据成为信息技术发展的必由之路。

　　大数据的处理方法有很多，普遍适用的大数据处理流程，可以概括为四步，分别是采集、导入和预处理、统计和分析，最后是数据挖掘。

　　 1采集

　　大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

　　在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片是需要深入的思考和设计。

　　 2导入/预处理。

　　虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。

　　 3统计分析。

　　统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。

　　 4挖掘。

　　与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测(Predict)的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。

　　北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。

　　NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块，平台提供了客户端工具，云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中，可兼容Windows，Linux， Android，Maemo5, FreeBSD等不同操作系统平台，可以供Java，Python，C，C#等各类开发语言使用。

　　随着云计算、移动互联网以及物联网等技术的发展和完善，相信大数据在各个领域的应用会越来越广泛和深入，相关的研究也会越来越全面和深入，在信息管理领域，综合应用数据挖掘技术和人工智能技术，获取用户知识、文献知识等各类知识，将是实现知识检索和知识管理发展的必经之路。

相关文章