CURL データ収集に基づく単一ページコレクション関数 get_html の使用

ホームページ

バックエンド開発

PHPチュートリアル

CURL データ収集に基づく単一ページコレクション関数 get_html の使用_PHP チュートリアル

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 21, 2016 pm 03:11 PM

curlgethtml1つ使用関数方法存在するに基づくデータ収集のコレクションページ

シリーズなので1日や2日では終わらないので、順次公開していきます

概要:

1.curlデータ収集シリーズ単一ページ収集関数get_html

2.curlデータ収集シリーズ複数ページ並列収集関数get_htmls

3.curlデータ収集系通常処理関数get _matches

4.Curlデータ収集シリーズのコード分割

5.カールデータ収集系列並列ロジック制御関数web_spider

単一ページの収集は、データ収集プロセスで最も一般的に使用される機能です。場合によっては、この収集方法はサーバーのアクセス制限下でのみ使用できます。これは遅いですが、簡単に制御できるため、一般的に使用されるカールを作成することが非常に重要です。関数呼び出し

私たちは Baidu と NetEase に精通しているため、これら 2 つの Web サイトのホームページのコレクションを例として使用します

最も簡単な書き方:

コードをコピーしますコードは次のとおりです:

$url = 'http://www.baidu.com';
 $ch =curl_init( $url);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
curl_setopt($ch,CURLOPT_TIMEOUT,5);
$html =curl_exec($ch);
if($html !== false){
 echo $ html;
}

頻繁に使用するため、curl_setopt_array を使用して関数の形式で記述することができます:

コードをコピーしますコードは次のとおりです:

function get_html($url, $options = array()){
 $options[CURLOPT_RETURNTRANSFER] = true;
 $options[CURLOPT_TIMEOUT] = 5;
 $ch =curl_init($url);
curl_setopt_array($ch,$options);
 $html = curl_exec($ch);
curl_close($ch);
 if($html === FALSE) {
 return false; 
} 
 return $ html; 

コードを次のようにコピーします: $ url = 'http://www.baidu.com';

echo get_html($url);

たとえば、適切なページを取得するには、いくつかの特定のパラメーターを渡す必要がある場合があります。今すぐ NetEase ページを取得するには: 

コードをコピーします

コードは次のとおりです:$url = ' http://www.163.com';

echo get_html($url);

 
何も入っていない空白が表示されます。次に、curl_getinfo を使用して関数を作成し、何が起こるかを確認します:

コードをコピーします

コードは次のとおりです: function get_info($url,$options = array( )){

$options[CURLOPT_RETURNTRANSFER] = true;

 $options[CURLOPT_TIMEOUT] = 5;
 $ch =curl_init($url);
curl_setopt_array($ch,$options);
 $html =curl_exec($ch) ;
 $info =curl_getinfo($ch);
curl_close($ch);
 return $info;
}
 $url = 'http://www.163.com';
 var_dump(get_info($url)) ;

http_code 302

リダイレクトが確認できます。この時点で、いくつかのパラメータを渡す必要があります:

コードをコピーします

コードは次のとおりです: $url = 'http://www. 163.com'; $options[CURLOPT_FOLLOWLOCATION] = true;

echo get_html($url,$options);

なぜそのようなページが私たちのコンピュータがアクセスするページと異なるのかがわかるでしょう? ? ?

サーバーがクライアントがどのデバイス上にあるかを判断するにはパラメーターがまだ十分ではないようなので、通常のバージョンが返されます

USERAGENT

コードをコピーする必要があるようです
コードは次のとおりです:

$url = 'http://www.163.com'; $options[CURLOPT_FOLLOWLOCATION] = true; $options[ CURLOPT_USERAGENT] = 'Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0';

echo get_html($url,$options);

OKこれでページが出てきました。基本的にこのget_html関数は基本的にそのような拡張機能を実現できます

もちろん、それを実現する他の方法もあります。NetEase の Web ページが明確にわかっている場合は、単にそれを収集することができます:

コードをコピーしますコードは次のとおりです:

 $url = 'http:/ /www.163 .com/index.html';
echo get_html($url);

これも普通に収集できます

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

スカラータイプ、リターンタイプ、ユニオンタイプ、ヌル可能なタイプなど、PHPタイプのヒントはどのように機能しますか？Apr 17, 2025 am 12:25 AM

PHPタイプは、コードの品質と読みやすさを向上させるためのプロンプトがあります。 1）スカラータイプのヒント：php7.0であるため、基本データ型は、int、floatなどの関数パラメーターで指定できます。 3）ユニオンタイプのプロンプト：PHP8.0であるため、関数パラメーターまたは戻り値で複数のタイプを指定することができます。 4）Nullable Typeプロンプト：null値を含めることができ、null値を返す可能性のある機能を処理できます。

PHPは、オブジェクトのクローニング（クローンキーワード）と__Clone Magicメソッドをどのように処理しますか？Apr 17, 2025 am 12:24 AM

PHPでは、クローンキーワードを使用してオブジェクトのコピーを作成し、\ _ \ _クローンマジックメソッドを使用してクローン動作をカスタマイズします。 1.クローンキーワードを使用して浅いコピーを作成し、オブジェクトのプロパティをクローン化しますが、オブジェクトのプロパティはクローニングしません。 2。\ _ \ _クローン法は、浅いコピーの問題を避けるために、ネストされたオブジェクトを深くコピーできます。 3.クローニングにおける円形の参照とパフォーマンスの問題を避けるために注意し、クローニング操作を最適化して効率を向上させます。

PHP対Python：ユースケースとアプリケーションApr 17, 2025 am 12:23 AM

PHPはWeb開発およびコンテンツ管理システムに適しており、Pythonはデータサイエンス、機械学習、自動化スクリプトに適しています。 1.PHPは、高速でスケーラブルなWebサイトとアプリケーションの構築においてうまく機能し、WordPressなどのCMSで一般的に使用されます。 2。Pythonは、NumpyやTensorflowなどの豊富なライブラリを使用して、データサイエンスと機械学習の分野で驚くほどパフォーマンスを発揮しています。

さまざまなHTTPキャッシングヘッダー（例：キャッシュコントロール、ETAG、ラスト変更）を説明してください。Apr 17, 2025 am 12:22 AM

HTTPキャッシュヘッダーの主要なプレーヤーには、キャッシュコントロール、ETAG、およびラスト修飾が含まれます。 1.Cache-Controlは、キャッシュポリシーを制御するために使用されます。例：キャッシュコントロール：Max-Age = 3600、public。 2。ETAGは、一意の識別子を介してリソースの変更を検証します。例：ETAG： "686897696A7C876B7E"。 3. Last-Modifiedは、リソースの最後の変更時間を示しています。

PHPでの安全なパスワードハッシュ（例：Password_hash、password_verify）を説明します。 MD5またはSHA1を使用してみませんか？Apr 17, 2025 am 12:06 AM

PHPでは、Password_hashとpassword_verify関数を使用して安全なパスワードハッシュを実装する必要があり、MD5またはSHA1を使用しないでください。 1）password_hashセキュリティを強化するために、塩値を含むハッシュを生成します。 2）password_verifyハッシュ値を比較して、パスワードを確認し、セキュリティを確保します。 3）MD5とSHA1は脆弱であり、塩の値が不足しており、最新のパスワードセキュリティには適していません。

PHP：サーバー側のスクリプト言語の紹介Apr 16, 2025 am 12:18 AM

PHPは、動的なWeb開発およびサーバー側のアプリケーションに使用されるサーバー側のスクリプト言語です。 1.PHPは、編集を必要とせず、迅速な発展に適した解釈言語です。 2。PHPコードはHTMLに組み込まれているため、Webページの開発が簡単になりました。 3。PHPプロセスサーバー側のロジック、HTML出力を生成し、ユーザーの相互作用とデータ処理をサポートします。 4。PHPは、データベースと対話し、プロセスフォームの送信、サーバー側のタスクを実行できます。

PHPとWeb：その長期的な影響を調査しますApr 16, 2025 am 12:17 AM

PHPは過去数十年にわたってネットワークを形成しており、Web開発において重要な役割を果たし続けます。 1）PHPは1994年に発信され、MySQLとのシームレスな統合により、開発者にとって最初の選択肢となっています。 2）コア関数には、動的なコンテンツの生成とデータベースとの統合が含まれ、ウェブサイトをリアルタイムで更新し、パーソナライズされた方法で表示できるようにします。 3）PHPの幅広いアプリケーションとエコシステムは、長期的な影響を促進していますが、バージョンの更新とセキュリティの課題にも直面しています。 4）PHP7のリリースなど、近年のパフォーマンスの改善により、現代の言語と競合できるようになりました。 5）将来的には、PHPはコンテナ化やマイクロサービスなどの新しい課題に対処する必要がありますが、その柔軟性とアクティブなコミュニティにより適応性があります。

なぜPHPを使用するのですか？利点と利点が説明されましたApr 16, 2025 am 12:16 AM

PHPの中心的な利点には、学習の容易さ、強力なWeb開発サポート、豊富なライブラリとフレームワーク、高性能とスケーラビリティ、クロスプラットフォームの互換性、費用対効果が含まれます。 1）初心者に適した学習と使用が簡単。 2）Webサーバーとの適切な統合および複数のデータベースをサポートします。 3）Laravelなどの強力なフレームワークを持っています。 4）最適化を通じて高性能を達成できます。 5）複数のオペレーティングシステムをサポートします。 6）開発コストを削減するためのオープンソース。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、