搜索
首页后端开发php教程 昨天微博看见有人出了一道题解决方法

昨天微博看见有人出了一道题
在100万个用户名中,尽可能找出机器自动创建的用户名。
其实就是反spam比较简单的一种。

有些人说拿每个用户名取google或baidu搜索下看看有没有上网痕迹。先不说这个靠不靠谱,出题人明显是想从算法角度去解决此问题,而非社会工程学,所以那些就算了。

我开始想了个对100万个用户名先进行分词,然后统计每个词在这100万个用户名中出现的次数,也就是统计词频。然后按照词频进行倒排序,取top n。接下来就在那100万个用户名中找出包含top n中出现的词。这些很可能就是机器创建的。

但后来想这么做并不科学,可能会误杀一大片正常用户名。因为在每个时间段都会出现一些热词,很多人喜欢用这些热词作为用户名的一部分。或者是某些经典词,可能会被大部分人使用。

因此我觉得除非可以人工参与进来找出一些热词。将热词从top n中排除。否则这个方法一点也不好。


想看看大家有什么想法,一起讨论下。注意,此命题说了只能针对用户名,而不能去对用户发言或注册日期之类的做处理。


------解决方案--------------------
1、从以往的注册经历上看,机器自动创建的用户名 多以用户提交的注册信息组合而成。也有前缀加顺号的
2、考察前缀相同的用户名是最简洁的方式

如果手边有可供利用的数据,倒是可以探究一下算法。遗憾的是没有
------解决方案--------------------
这个我也关注下哈哈,虽然初学不太懂。
------解决方案--------------------
引用:
1、从以往的注册经历上看,机器自动创建的用户名 多以用户提交的注册信息组合而成。也有前缀加顺号的
2、考察前缀相同的用户名是最简洁的方式

如果手边有可供利用的数据,倒是可以探究一下算法。遗憾的是没有

就拿csdn的用户库来试。。。手上还有100M+的那个库。。。。

目前觉得靠谱点的就是 某些字符 + 数字,并且数字是顺着一直下去的。

------解决方案--------------------
如果我是机器,我就不用简字,英文,我用日文韩文马来文,你能有那么大的数据库辨伪?
所以防护王道还是验证码。
------解决方案--------------------
这个用算法无解...

ci169
ci1699
ci16999
ci169999
ci1699999

就像上面这几个CSDN账号哪个是机器注册能算出来嘛。
------解决方案--------------------
为什么hot的被认为机器的????
------解决方案--------------------
有意思的题目,有没有什么免费LAMP空间?上传一份,大家来攻破一下。
'tom'.substr(str_shuffle("abcdefghijklmnopqrstuvwxyz"), 0, 4);

------解决方案--------------------
使用 贝叶斯分类 应该只正路,只是如何组织原始数据是个问题
在有众多不确定因素的前提下就贸然提及算法有点不妥
建议你先使用 weka(一个java的数据挖掘软件)做一下探测
------解决方案--------------------
人注册的用户名肯定是有一定的逻辑的,这样才方便记忆,而机器自动注册的不用;
我觉得可以用破解密码的方法,用字典做筛子筛一下先。
题目只是说尽可能找出。

其实即便是错乱字母排序出来的用户名,也无法确定就是机器注册的,
除非有用户登录行为或者注册间隔等辅助信息,,不然,我真觉得这个找法没啥意义。
声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
超越炒作:评估当今PHP的角色超越炒作:评估当今PHP的角色Apr 12, 2025 am 12:17 AM

PHP在现代编程中仍然是一个强大且广泛使用的工具,尤其在web开发领域。1)PHP易用且与数据库集成无缝,是许多开发者的首选。2)它支持动态内容生成和面向对象编程,适合快速创建和维护网站。3)PHP的性能可以通过缓存和优化数据库查询来提升,其广泛的社区和丰富生态系统使其在当今技术栈中仍具重要地位。

PHP中的弱参考是什么?什么时候有用?PHP中的弱参考是什么?什么时候有用?Apr 12, 2025 am 12:13 AM

在PHP中,弱引用是通过WeakReference类实现的,不会阻止垃圾回收器回收对象。弱引用适用于缓存系统和事件监听器等场景,需注意其不能保证对象存活,且垃圾回收可能延迟。

解释PHP中的__ Invoke Magic方法。解释PHP中的__ Invoke Magic方法。Apr 12, 2025 am 12:07 AM

\_\_invoke方法允许对象像函数一样被调用。1.定义\_\_invoke方法使对象可被调用。2.使用$obj(...)语法时,PHP会执行\_\_invoke方法。3.适用于日志记录和计算器等场景,提高代码灵活性和可读性。

解释PHP 8.1中的纤维以进行并发。解释PHP 8.1中的纤维以进行并发。Apr 12, 2025 am 12:05 AM

Fibers在PHP8.1中引入,提升了并发处理能力。1)Fibers是一种轻量级的并发模型,类似于协程。2)它们允许开发者手动控制任务的执行流,适合处理I/O密集型任务。3)使用Fibers可以编写更高效、响应性更强的代码。

PHP社区:资源,支持和发展PHP社区:资源,支持和发展Apr 12, 2025 am 12:04 AM

PHP社区提供了丰富的资源和支持,帮助开发者成长。1)资源包括官方文档、教程、博客和开源项目如Laravel和Symfony。2)支持可以通过StackOverflow、Reddit和Slack频道获得。3)开发动态可以通过关注RFC了解。4)融入社区可以通过积极参与、贡献代码和学习分享来实现。

PHP与Python:了解差异PHP与Python:了解差异Apr 11, 2025 am 12:15 AM

PHP和Python各有优势,选择应基于项目需求。1.PHP适合web开发,语法简单,执行效率高。2.Python适用于数据科学和机器学习,语法简洁,库丰富。

php:死亡还是简单地适应?php:死亡还是简单地适应?Apr 11, 2025 am 12:13 AM

PHP不是在消亡,而是在不断适应和进化。1)PHP从1994年起经历多次版本迭代,适应新技术趋势。2)目前广泛应用于电子商务、内容管理系统等领域。3)PHP8引入JIT编译器等功能,提升性能和现代化。4)使用OPcache和遵循PSR-12标准可优化性能和代码质量。

PHP的未来:改编和创新PHP的未来:改编和创新Apr 11, 2025 am 12:01 AM

PHP的未来将通过适应新技术趋势和引入创新特性来实现:1)适应云计算、容器化和微服务架构,支持Docker和Kubernetes;2)引入JIT编译器和枚举类型,提升性能和数据处理效率;3)持续优化性能和推广最佳实践。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版