思路总结-----对微博情感分析的的挖掘-mysql教程-PHP中文网

首页

数据库

mysql教程

思路总结-----对微博情感分析的的挖掘

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:57 PM

关键词数据库新浪微博

一朋友由于工作需要，准备对新浪微博进行相关的抓取挖掘。特别是情感分析这一块，便于他后期的实验实践。实际上，文本挖掘及分析在未来都会产生较大的效果。举一

一朋友由于工作需要，准备对新浪微博进行相关的抓取挖掘。特别是情感分析这一块，便于他后期的实验实践。实际上，文本挖掘及分析在未来都会产生较大的效果。举一个简单的例子，现在地铁里的每个人每天都会去刷新自己的人人好友圈，微信好友消息。而这些消息大部分是基于文本的。如何对这些原始的消息进行挖掘。进而为相应的精准营销做准备。在以后的营销中将会产生重大效果。

原始数据

这一部分的内容，我们可以通过爬虫技术来抓取。通过聚类算法，找到相同话题的所有微博。然后拿来做为原始数据。还有就是用户好友圈内的评价消息，还有用户产生的连接消息，等等。这些都可以作为原始数据来归入我们的数据库。

确订目标(商业理解)

这一步也同时与业务理解要很好的关联起来，首先，我们是要用这些原始数据来作什么？比如，我们用情感分析，所有不同用户对同一事件的理解。我们要将他们的微博信息里的关键词找出来。然而进行相应的查找算法，进而确定所有用户对这一事件的评价。然后，我们要通过用户的评价，找到有二次商业利用值的客户。然后确订为目标客户。

数据理解

所抓取到的微博内容是什么，里边带几个链接？是用什么符号与之相连？文字，图片的分类，另外还有评论信息是否也有参考价值。里边的特殊符号代表什么？等等。这些信息，那些是对我们的来说是有用的，如何去用？比如说要从文本中挖掘出关建字，进行相关的营销活动。从而确定博主的情感动向。进而可以做些什么？理解我们的数据，才能更好的抓取到我们所要使用的数据。

模型建立

有人说，搞数据挖掘的人就是要来做这一部分的内容。你要建立一个好的模型，那以后的数据通过你的这个模型，那么你所需要的内容自动地就会呈现出来。而这一部分也是整个数据挖掘里最难的部分。

比如说我们的微博数据，我们可以通过决策树算法建立模型。最后输出那些关健字的客户就是我们的目标客户。又或者，我们可以通过神经网络的算法建立模型，找到相关的所的决策项。实际上，数据挖掘所用到的方法很多，也很复杂，我也是到现在还是没有弄清楚一些算法的核心思想。但这样并不影响我们来使用相关的算法来进行挖掘。再者说，现在的挖掘对象，真正上PB内容的资料也不是很多的。很多企业还停留在小型机的阶段。所以，有的时候，我会开玩笑的说：数据量太小的话，EXECL会更好一些，然后是ACCESS数据库。再然后就是ORCALE数据库.....

模型建立是一个比较幸苦的工作，可是如果建立完成后，一般3-5年不会发生变化。比如我们现在的信用卡的信用评分系统。

模型评估

这一部分内容，是进行相关优化。也就是说模型建立好了，开始要跑业务了。要测试一下看它到底能跑到什么样的程度。有的时候，，你挖掘了半年，也找到的目标客户，结果被其他人先用其他方法吸引走了，怎么办？所以才要有模型评估这件工作。

先将大数据里的一部分数据，一般是40%拿来先做训练，你也可以拿少量来试一试。然后看完成这些数据需要多长时间。换了其他的算法后，是否可以提高挖掘时间。一般这一步的数据分配要遵守一个4:3:3的原则，即40%拿来做训练，30%来做测试，另外的30%拿来做验证。综合来说，才能够评价这个模型的好坏，以及这个模型是否能产生它的相应价值。

发布模型

这是最后一步，让所有微博数据进行相应的算法优化。进而达到最好的挖掘效果。

在以上的这几个步骤中，模型评估与商业理解其实也是相辅相成的，因为这两个主要是与数据最为密切。而数据理解与商业理解又是相互制约的，很多时候，我们是有了大数据，但是我们找不到我们的所要挖掘的目标在那里，这时就需要不断的修订我们的商业理解与数据理解，然而，模型的相关内容，在整个闭环的过程中并不显的那么重要。有的时候，客户的一个很简单的需求，我们并不一定要用复杂的技术来实现，简单也许就意味着胜利。

再来说说在文本挖掘中的思路，少量的文本信息。我们可以放在在WORD里用复制粘贴来完成，多的话可以用EXCEL，再多的话可以用U1，要是还是多就用SAS与R，再多就用其他的了，具体什么软件，我也没用过。

好了，就先总结这么多吧。下周有空再写吧！

本文出自 “数据挖掘与可视化” 博客，转载请与作者联系！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

将用户添加到MySQL：完整的教程May 12, 2025 am 12:14 AM

掌握添加MySQL用户的方法对于数据库管理员和开发者至关重要，因为它确保数据库的安全性和访问控制。1)使用CREATEUSER命令创建新用户，2)通过GRANT命令分配权限，3)使用FLUSHPRIVILEGES确保权限生效，4)定期审计和清理用户账户以维护性能和安全。

掌握mySQL字符串数据类型：varchar vs.文本与charMay 12, 2025 am 12:12 AM

chosecharforfixed-lengthdata，varcharforvariable-lengthdata，andtextforlargetextfield.1）chariseffity forconsistent-lengthdatalikecodes.2）varcharsuitsvariable-lengthdatalikenames，ballancingflexibilitibility andperformance.3）

MySQL：字符串数据类型和索引：最佳实践May 12, 2025 am 12:11 AM

在MySQL中处理字符串数据类型和索引的最佳实践包括：1)选择合适的字符串类型，如CHAR用于固定长度，VARCHAR用于可变长度，TEXT用于大文本；2)谨慎索引，避免过度索引，针对常用查询创建索引；3)使用前缀索引和全文索引优化长字符串搜索；4)定期监控和优化索引，保持索引小巧高效。通过这些方法，可以在读取和写入性能之间取得平衡，提升数据库效率。

mysql：如何远程添加用户May 12, 2025 am 12:10 AM

ToaddauserremotelytoMySQL,followthesesteps:1)ConnecttoMySQLasroot,2)Createanewuserwithremoteaccess,3)Grantnecessaryprivileges,and4)Flushprivileges.BecautiousofsecurityrisksbylimitingprivilegesandaccesstospecificIPs,ensuringstrongpasswords,andmonitori

MySQL字符串数据类型的最终指南：有效的数据存储May 12, 2025 am 12:05 AM

tostorestringsefliceflicyInmySql，ChooSetherightDataTypeBasedyOrneOrneEds：1）USEcharforFixed-LengthStstringStringStringSlikeCountryCodes.2）UseVarcharforvariable-lengtthslikenames.3）USETEXTCONTENT.3）

mysql blob vs.文本：为大对象选择正确的数据类型May 11, 2025 am 12:13 AM

选择MySQL的BLOB和TEXT数据类型时，BLOB适合存储二进制数据，TEXT适合存储文本数据。1)BLOB适用于图片、音频等二进制数据，2)TEXT适用于文章、评论等文本数据，选择时需考虑数据性质和性能优化。

MySQL：我应该将root用户用于产品吗？May 11, 2025 am 12:11 AM

No,youshouldnotusetherootuserinMySQLforyourproduct.Instead,createspecificuserswithlimitedprivilegestoenhancesecurityandperformance:1)Createanewuserwithastrongpassword,2)Grantonlynecessarypermissionstothisuser,3)Regularlyreviewandupdateuserpermissions

MySQL字符串数据类型说明了：选择适合您数据的合适类型May 11, 2025 am 12:10 AM

mySqlStringDatatatPessHouldBechoseBeadeDataCharacteristicsAndUsecases：1）USECHARFORFIXED LENGTHSTRINGSTRINGSLIKECOUNTRYCODES.2）USEDES.2）usevarcharforvariable-lengtthstringstringstringstringstringstringstringslikenames.3）usebinaryorvarrinaryorvarinarydatalbonydatalgebgeenfopical.4）

See all articles