昨天微博看见有人出了一道题
在100万个用户名中,尽可能找出机器自动创建的用户名。
其实就是反spam比较简单的一种。
有些人说拿每个用户名取google或baidu搜索下看看有没有上网痕迹。先不说这个靠不靠谱,出题人明显是想从算法角度去解决此问题,而非社会工程学,所以那些就算了。
我开始想了个对100万个用户名先进行分词,然后统计每个词在这100万个用户名中出现的次数,也就是统计词频。然后按照词频进行倒排序,取top n。接下来就在那100万个用户名中找出包含top n中出现的词。这些很可能就是机器创建的。
但后来想这么做并不科学,可能会误杀一大片正常用户名。因为在每个时间段都会出现一些热词,很多人喜欢用这些热词作为用户名的一部分。或者是某些经典词,可能会被大部分人使用。
因此我觉得除非可以人工参与进来找出一些热词。将热词从top n中排除。否则这个方法一点也不好。
想看看大家有什么想法,一起讨论下。注意,此命题说了只能针对用户名,而不能去对用户发言或注册日期之类的做处理。
'tom'.substr(str_shuffle("abcdefghijklmnopqrstuvwxyz"), 0, 4);