ホームページ  >  記事  >  バックエンド開発  >  昨日、誰かがWeiboで質問しているのを見ました

昨日、誰かがWeiboで質問しているのを見ました

WBOY
WBOYオリジナル
2016-06-13 12:56:17749ブラウズ

昨日、誰かが Weibo で次の質問をしました:
100 万のユーザー名の中から、マシンによって自動的に作成されたユーザー名を見つけてください。
実際、これは比較的単純なスパム対策方法です。

ユーザー名ごとに Google または Baidu を検索して、インターネット アクセスの痕跡がないか確認するという人もいます。これが信頼できるかどうかは別として、質問者は明らかにソーシャルエンジニアリングではなくアルゴリズムの観点からこの問題を解決したかったので、忘れてください。

私は、100 万のユーザー名を単語に分割し、これらの 100 万のユーザー名に各単語が出現する回数、つまり単語の頻度をカウントすることを考え始めました。次に、単語の頻度に従って逆順に並べ替え、上位 n を取得します。次に、100 万件のユーザー名の中から上位 n 位に含まれる単語を見つけます。これらはおそらく機械によって作成されたものです。

しかし、これを後から行うのは非科学的であり、多数の通常のユーザー名を誤って削除してしまう可能性があります。どの時代にもいくつかのホットワードが出現するため、多くの人はこれらのホットワードをユーザー名の一部として使用することを好みます。または、ほとんどの人が使用する可能性のある古典的な単語。

したがって、人間が介入しない限り、ホットワードを見つけることはできないのではないかと感じています。上位 n 件のホットワードを除外します。そうでなければ、この方法はまったく良くありません。


皆さんの考えを見て、一緒に議論したいと思います。この提案では、ユーザー名のみを処理でき、ユーザーのコメントや登録日は処理できないことに注意してください。


-----解決策---------
1.マシンによって自動的に作成されるユーザー名の大部分は、ユーザーが送信した登録情報で構成されています。シーケンス記号
を伴う接頭辞もあります 2. 最も簡単な方法は、同じプレフィックス
を持つユーザー名を確認することです。
利用可能なデータが手元にある場合は、アルゴリズムを調べることができます。残念ながら
-----解決策はありません---------------------
私も注意してみますこれは笑、初心者なのでよくわかりませんが。
------解決策---------
引用:
1. 過去の登録経験から判断すると、機械によって自動的に作成されるユーザー名は、ほとんどがユーザーが送信した登録情報で構成されています。シーケンス記号
を伴う接頭辞もあります 2. 最も簡単な方法は、同じプレフィックスを持つユーザー名を確認することです

利用可能なデータが手元にある場合は、アルゴリズムを調べることができます。残念ながら

はありません csdn ユーザー ライブラリを試してみてください。 。 。そのライブラリは今でも 1 億冊以上手元にあります。 。 。 。

現時点でより信頼できると思うのは、特定の文字 + 数字であり、数字が最後まで入っています。

-----解決策--------------------------------
もし私が機械だったら、略語を使う代わりに、英語、日本語、韓国語、マレー語を使います。偽造品を検出するためのこれほど大規模なデータベースはありますか?
したがって、自分自身を守る最善の方法は確認コードです。
------解決策---------
このアルゴリズムには解決策がありません...

ci169
ci1699
ci16999
ci169999
ci1699999

上記の CSDN アカウントと同様に、マシン登録によって計算できるアカウントはどれですか?
------解決策-----
なぜホットはマシンとみなされますか?
------解決策-----
興味深い質問ですが、空き LAMP スペースはありますか?コピーをアップロードして、みんなに壊してもらいましょう。
'tom'.substr(str_shuffle("abcdefghijklmnopqrstuvwxyz"), 0, 4);

-----解決策--------------------------------
ベイズ分類は正しい方法でのみ使用する必要があり、元のデータをどのように整理するかが問題です
不確実な要素が多い場合にアルゴリズムについて軽率に言及するのは適切ではない
最初に weka (Java データ マイニング ソフトウェア) を使用して検出を行うことをお勧めします
------解決策------ --
人が登録するユーザー名には、覚えやすいように特定のロジックが必要です。また、機械による自動登録の必要はありません。
パスワードを解読する方法を使用して、辞書をふるいに使用して最初にふるいにかけることはできると思います。
質問は、できるだけ多くのことを調べてくださいと言っているだけです。

実際、たとえユーザー名が紛らわしい文字で並べ替えられていたとしても、それが機械によって登録されたものであるかどうかはわかりません。
ユーザーのログイン行動や登録間隔などの補助情報がなければ、この方法は本当に意味がないと思います。
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。