ホームページ  >  記事  >  バックエンド開発  >  Baidu の検索結果を解析する方法 link?url=parameter

Baidu の検索結果を解析する方法 link?url=parameter

WBOY
WBOYオリジナル
2016-07-25 09:08:165667ブラウズ
  1. クエリ Baidu リンク?ulr=Real link form
  2. /*
  3. getrealurl enenba.comによる301および302リダイレクト後のURLアドレスを取得します
  4. @param str $url Query
  5. $return str 指定された URL の実際の URL
  6. */
  7. function getrealurl($url){
  8. $header = get_headers($url,1);
  9. if (strpos($header[0],'301 ') || strpos($header[0],'302')) {
  10. if(is_array($header['Location'])) {
  11. return $header['Location'][count($header['Location '] )-1];
  12. }else{
  13. return $header['Location'];
  14. }
  15. }else {
  16. return $url;
  17. }
  18. }
  19. $input = '
    /form>';
  20. $url = isset($_GET['url'])?$_GET['url']:'';
  21. if(empty($url) ) exit ($input);
  22. $urlreal = getrealurl($url);
  23. echo '実際の URL は次のとおりです:'.$urlreal;
  24. $urlreal = ltrim($urlreal,'http://');
  25. $search = ' /ebac5573358cc3c0659257bfcf54([0-9a-f]+)/i';
  26. preg_match($search,$url,$r);
  27. $url_encode = $r[1];
  28. echo ' < br/>暗号文部分は次のとおりです: '.$url_encode.'
    ';
  29. $urlreal_arr = str_split($urlreal);
  30. $url_encode_arr = str_split($url_encode,2);
  31. echo ' < br />';
  32. echo $input;
  33. ?>
コードをコピー

免責事項: cnbeta の記事は私が公開したものではありません。私の分析は私自身の考えと研究に基づいているだけであり、結果があるかどうかについては私自身の結論を持っています。 Baidu の結果 URL のロングコードをよく見てみると、暗号文は a ~ f の数字と文字のみで構成されており、16 進数のコードであることがわかりました。 16 進数は 0->1->2->3->4->5->7->8->9->a->b->c->d->e->f 一連の URL を収集し、最初のコードを数えました。 ebac5573358cc3c0659257bfcf54XX.... XXコードに対応するURLは以下の通りです。 33 0 23 @ 13 P 03 ` 73 p 63 32 1 22 A 12 Q 02 A 72 Q 62 " 31 2 21 B 11 R 01 b 71 r 61 #30 3 20 C 10 S 00 C 70 秒 60 $37 4 27 D 17 T 07 D 77 T 67 % 36 5 26 E 16 U 06 e 76 u 66 & 35 6 25 F 15 V 05 f 75 v 65 ' 34 7 24 G 14 W 04 g 74 w 64 ( 3b 8 2b H 1b X 0b h 7b x 6b ) 3a 9 2a I 1a Y 0a i 7a y 6a ※39:29J19Z09J79Z69 + 38 ; 28 K 18 [ 08 K 78 { 68 , 3f 2d N 1d ^ 0d n 7d ~ 6d / 3c ? 2c o 1c _ 0c o 7c 6c

ASCIIコード表の文字である必要があることがわかりましたが、順序が混同されているはずです。しかし、この 1 ベースのシステムではすべて次のようになります。 3->2->1->0->7->6->5->4->b->a->9->8->f->e->d->c 降順に4桁となっており、全体的に順位が下がっていることがわかります。 しかし、不可解なのは、ASCII では _ から ` までが隣接しており、対応する 0c と 73 がジャンプしていることです。まさか、パターンが見えません。2 番目のコードセットを見てみましょう。 ebac5573358cc3c0659257bfcf54XXYY。 。 。 。 コードYYに対応するURLは以下の通りです。 70 0 60 @ 50 P 40 ` 30 P 20 71 1 61 A 51 Q 41 A 31 Q 21 " 72 2 62 B 52 R 42 b 32 r 22 #73 3 63 C 53 S 43 C 33 S 23 $ 74 4 64 D 54 T 44 D 34 T 24 % 75 5 65 E 55 U 45 e 35 u 25 & 76 6 66 F 56 V 46 f 36 v 26 ' 77 7 67 G 57 W 47 g 37 w 27 (78 8 68 高さ 58 x 48 高さ 38 x 28 ) 79 9 69 I 59 Y 49 I 39 Y 29 ※7a:6a J 5a Z 4a j 3a z 2a + 7b 6b K 5b [ 4b k 3b { 2b ] , 7c 6e N 5e ^ 4e n 3e ~ 2e / 7f?6f?5f_4f?3f?2f

2番目のグループの秘密テキストは16進数の昇順に従います。 0->1->2->3->4->5->7->8->9->a->b->c->d->e->f 全体的には減ってきています。 3番目のグループを見てみましょう ebac5573358cc3c0659257bfcf54XXYYZZ。 。 。 。 ZZコードに対応するURLは以下の通りです。 84 0 94 @ a4 P b4 ` c4 p d4 85 1 95 A a5 Q b5 a c5 q d5 " 86 2 96 B a6 R b6 b c6 r d6 #87 3 97 C a7 S b7 c c7 s d7 $ 80 4 90 D a0 T b0 d c0 t d0 % 81 5 91 E a1 U b1 e c1 u d1 & 82 6 92 F a2 V b2 f c2 v d2 ' 83 7 93 G a3 W b3 g c3 w d3 ( 8c 8 9c H ac X bc h cc x dc ) 8b 9 9b I ab Y bb i cd y dd * 8e : 9e J ae Z be jcez de + 8f 9f K af [ bf k cf { df ; 、 88 9a N aa ^ ば n ca ~ da / 8b ? 9b O ab _ bb o cb db

順序は説明しません: 4->5->6->7->0->1->2->3->4->c->b->e->f->8->9->a->b 全体的に増えてきています 最後の桁数は見ていませんが、おそらく16進数の4桁の集まりであることはわかります。増加しているか減少しているかを判断するには、ある程度のデータが必要です。 次回は1,000件のURLデータを集めて判定します。



声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。