ホームページ  >  記事  >  バックエンド開発  >  1688 Web サイトのコンテンツをクロールすることはできませんが、他のサイトをクロールすることは可能です。

1688 Web サイトのコンテンツをクロールすることはできませんが、他のサイトをクロールすることは可能です。

WBOY
WBOYオリジナル
2016-06-20 12:32:23734ブラウズ

テスト URL
https://detail.1688.com/offer/520938481930.html?spm=a260k.635.199825914.5.MRicAH
Web ページの HTML コードを取得できる限り。

いつも 1 行しか取得できません
<script>top.location.href='/login.php';</script>
クロールを防ぐために処理されているのではないかと思います。


どのような方法を使用しても、実際の商品ページの HTML コードを取得してください。ありがとうございます。


ディスカッションへの返信 (解決策)

ヒントを見るログインする必要があるということでしょうか?
CURL を使用してログインをシミュレートし、再試行するとどうなるでしょうか。

curl_setopt($ch,CURLOPT_POSTFIELDS,$post_file); ////HTTP "POST" 操作のすべてのデータを含む文字列を渡します。
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file); /////返された Cookie 情報を $cookie_jar ファイルに保存します
curl_exec($ch);///
curl_close($ ch) を実行します;////閉じる

プロンプトはログインする必要があることを意味しますか?
CURL を使用してログインをシミュレートし、再試行するとどうなるでしょうか。

curl_setopt($ch,CURLOPT_POSTFIELDS,$post_file); ////HTTP "POST" 操作のすべてのデータを含む文字列を渡します。
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file); /////返された Cookie 情報を $cookie_jar ファイルに保存します
curl_exec($ch);///
curl_close($ ch) を実行します;////閉じる



あなたの分析は理にかなっていますが、私にとっては役に立ちません。
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。