ホームページ >バックエンド開発 >PHPの問題 >PHPでリダイレクトされたWebページのソースコードを読む方法

PHPでリダイレクトされたWebページのソースコードを読む方法

PHPzオリジナル: 2023-03-31 09:05:091657ブラウズ

PHP は、開発者が動的な Web アプリケーションを作成するのに役立つ、広く使用されているサーバーサイドスクリプト言語です。ただし、PHP 開発者は、ジャンプリンクである可能性のある外部 Web ページのソースコードを読み取る必要がある場合があります。この記事では、PHP を使用してリダイレクトリンクのソースコードを読み取る方法を学びます。

注: この記事では、読者がすでに PHP 言語に精通しており、HTML および HTTP プロトコルの基本を理解していることを前提としています。

ステップ 1: cURL を使用してリンクを開く

cURL は、PHP で URL を処理するために使用されるライブラリです。リンクされた Web ページのソースコードを読み取るには、cURL を使用してリンクを開く必要があります。以下は、cURL を使用して PHP で Web ページを開くための基本的なコードです:

$url = 'http://www.example.com';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$output = curl_exec($ch);
curl_close($ch);

上記のコードでは、最初に読み取る Web ページのリンクアドレスを定義し、次に cURL ハンドルを作成し、アクセスリンクオプションを指定してcURLリクエストを送信し、応答結果を取得します。結果は $output 変数に保存されます。

ステップ 2: ジャンプリンクを処理する

場合によっては、開いたリンクがジャンプリンクである可能性があります。これは、別のリンクにリダイレクトされることを意味します。リダイレクトされた Web ページのソースコードを取得するには、応答ヘッダー情報をチェックして、Location ヘッダーがあるかどうかを判断する必要があります。存在する場合、これはジャンプリンクであることを意味し、リダイレクトされたリンクのアドレスは Location に格納されます。ソースコードを取得するには、cURL を使用してこのリダイレクトされたリンクを開いてください。

以下はコード例です:

$url = 'http://www.example.com';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
$output = curl_exec($ch);
$info = curl_getinfo($ch);
curl_close($ch);

if ($info['http_code'] == 301 || $info['http_code'] == 302) {
    $url = $info['redirect_url'];
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    $output = curl_exec($ch);
    curl_close($ch);
}

上記のコードでは、curl_setopt オプション: CURLOPT_FOLLOWLOCATION を追加しました。このオプションは、cURL にリダイレクトに従い、新しいリンクを自動的に開くように指示します。次に、レスポンスヘッダ情報を取得し、リダイレクト情報があるかどうかを判断します。存在する場合は、curl_init() 関数を使用して新しい cURL ハンドルを作成し、リダイレクトリンクを開いて、ソースコードを取得します。

ステップ 3: ソースコードを解析する

Web ページのソースコードを取得したら、データを処理できるようにさらに解析する必要があります。 PHP の組み込み DOMDocument クラスを使用して HTML ドキュメントを解析できます。

以下はコード例です:

$url = 'http://www.example.com';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
$output = curl_exec($ch);
$info = curl_getinfo($ch);
curl_close($ch);

if ($info['http_code'] == 301 || $info['http_code'] == 302) {
    $url = $info['redirect_url'];
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    $output = curl_exec($ch);
    curl_close($ch);
}

$doc = new DOMDocument();
@$doc->loadHTML($output);
$elements = $doc->getElementsByTagName('html');
$title = $doc->getElementsByTagName('title')->item(0)->nodeValue;

上記のコードでは、最初に DOMDocument オブジェクトを作成し、次に、loadHTML() 関数を呼び出して、取得した Web ページのソースコードを次のように渡します。パラメータ。次に、getElementsByTagName() 関数を使用して指定された要素を取得し、nodeValue 属性を使用して要素のテキストコンテンツを取得します。この例では、HTML 要素と title 要素を取得します。

ステップ 4: データを処理する

最後に、取得したデータを処理し、必要に応じて保存または表示できます。以下は簡単な例です。

$url = 'http://www.example.com';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
$output = curl_exec($ch);
$info = curl_getinfo($ch);
curl_close($ch);

if ($info['http_code'] == 301 || $info['http_code'] == 302) {
    $url = $info['redirect_url'];
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    $output = curl_exec($ch);
    curl_close($ch);
}

$doc = new DOMDocument();
@$doc->loadHTML($output);
$title = $doc->getElementsByTagName('title')->item(0)->nodeValue;
echo "源码标题是：" . $title . "\n";
echo "HTML源码是：" . $output;

上記のコードでは、最初に Web ページのタイトルを取得し、次に HTML ソースコードを直接出力します。

結論

この記事では、PHP を使用してリダイレクトされた Web ページのソースコードを読み取る方法を学びました。 cURL を使用してリンクを開いたり、ジャンプリンクを処理したり、HTML ドキュメントを解析したり、データを処理したりすることで、ジャンプリンクの Web ページのソースコードを簡単に読み取ることができます。これは、Web クローラー、データ分析、データマイニング、その他のシナリオを使用する必要がある場合に非常に便利なスキルです。

以上がPHPでリダイレクトされたWebページのソースコードを読む方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

php html cURL 对象 location 数据分析 http

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：PHP でボタンのクリックが一度失敗するとどうなりますか?次の記事：PHP でボタンのクリックが一度失敗するとどうなりますか?

続きを見る