検索
ホームページバックエンド開発PHPチュートリアルPHP を使用したリンクのスクレイピング

PHP によるリンクのスクレイピング

by justin、2007 年 8 月 11 日

FROM:http://www.merchantos.com/makebeta/php/scraping-links-with-php/#curl_content

この中でチュートリアルでは、任意の Web ページからリンクを収集する PHP スクリプトを作成する方法を学びます。

学ぶ内容 cURL を使用して Web サイト (URL) からコンテンツを取得する方法。 PHP DOM 関数を呼び出して HTML を解析し、リンクを抽出できるようにします。 XPath を使用して、ページの特定の部分からリンクを取得します。スクレイピングしたリンクを MySQL データベースに保存します。それをすべてリンク スクレーパーにまとめます。スクレーパーを他に使用できるものは何ですか。コンテンツのスクレイピングに関連する法的問題。必要なもの PHP と MySQL の基本的な知識。 PHP 5 を実行している Web サーバー。PHP の cURL 拡張子。 MySQL?リンクを保存したい場合。ページのコンテンツを取得する

cURL は、PHP でリモート サーバーにリクエストを行うための優れたツールです。ほぼあらゆる方法でブラウザを模倣できます。ターゲット サイトのコンテンツを取得するコードは次のとおりです:

$ch = curl_init();curl_setopt($ch, CURLOPT_USERAGENT, $userAgent);curl_setopt($ch, CURLOPT_URL,$target_url);curl_setopt($ch, CURLOPT_FAILONERROR, true);curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);curl_setopt($ch, CURLOPT_AUTOREFERER, true);curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);curl_setopt($ch, CURLOPT_TIMEOUT, 10);$html = curl_exec($ch);if (!$html) {echo "<br />cURL error number:" .curl_errno($ch);echo "<br />cURL error:" . curl_error($ch);exit;}

リクエストが成功すると、$html には $target_url のコンテンツが入力されます。呼び出しが失敗した場合は、失敗に関するエラー メッセージが表示されます。

curl_setopt($ch, CURLOPT_URL,$target_url);

この行は、どの URL がリクエストされるかを決定します。たとえば、このサイトをスクレイピングしたい場合は、$target_url = “/makebeta/” となります。設定されている残りのオプションについては説明しません (CURLOPT_USERAGENT を除く ? 以下を参照)。ここで、PHP と cURL に関する詳細なチュートリアルを読むことができます。

ヒント: ユーザー エージェントを偽る

間違ったユーザー エージェント文字列を表示すると、多くの Web サイトはうまくいきません。ユーザーエージェント文字列とは何ですか?これは、Web サーバーへのすべてのリクエストの一部であり、どの種類のエージェント (ブラウザ、スパイダーなど) がコンテンツをリクエストしているかをサーバーに伝えます。一部の Web サイトでは、ユーザー エージェントに応じて異なるコンテンツが提供されるため、試してみることをお勧めします。これは、cURL で、オプションとして CURLOPT_USERAGENT を指定して、curl_setopt() を呼び出して実行します。

$userAgent = 'Googlebot/2.1 (http://www.googlebot.com/bot.html)';curl_setopt($ch, CURLOPT_USERAGENT, $userAgent);

これにより、cURL のユーザー エージェントが Google のユーザー エージェントを模倣するように設定されます。ユーザー エージェントの包括的なリストは、ここで見つけることができます: ユーザー エージェント。

一般的なユーザー エージェント

私はあなたのために少し作業を行い、最も一般的なユーザー エージェントを集めました:

検索エンジン ユーザー エージェント Google ? Googlebot/2.​​1 ( http://www.googlebot.com/bot.html) Google イメージ ? Googlebot-Image/1.0 ( http://www.googlebot.com/bot.html) MSN ライブ ? msnbot-Products/1.0 (+http://search.msn.com/msnbot.htm) Yahoo ? Mozilla/5.0 (互換性; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) ブラウザ ユーザー エージェントに問い合わせます Firefox (WindowsXP) ? Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6 IE 7 ? Mozilla/4.0 (互換性; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30) IE 6 ? Mozilla/4.0 (互換性; MSIE 6.0; Windows NT 5.1; .NET CLR 1.1.4322) Safari ? Mozilla/5.0 (Macintosh; U; Intel Mac OS X; en) AppleWebKit/522.11 (Gecko のような KHTML) Safari/3.0.2 Opera ? Opera/9.00 (Windows NT 5.1; U; en) PHP の DOM 関数を使用して HTML を解析する

PHP は、HTML コンテンツを操作するための非常に優れたツールである DOM 関数を提供します。 DOM 関数を使用すると、HTML (または XML) をオブジェクト構造 (または DOM、ドキュメント オブジェクト モデル) に解析できます。やり方を見てみましょう:

すごい

すごい、本当に簡単ですか?はい!これで、HTML 内のあらゆるものにきれいな方法でアクセスするために使用できる、すばらしい DOMDocument オブジェクトができました。私はこれを Russll Beattie の投稿で発見しました:Using PHP TO Scrape Sites As Feeds, thanks Russell!

ヒント: お気付きかもしれませんが、loadHTML() の前に @ を付けています。これにより、HTML パーサーがスローする迷惑な警告が抑制されます。標準に準拠していないコードを含む多くのページ。

XPath を使用すると、必要なリンクを簡単に取得できます。

次に、DOM の本当の魔法である XPath について説明します。 XPath を使用すると、DOM ノード (HTML のタグとも呼ばれる) のコレクションを収集できます。順序なしリスト内のリンクのみを取得したいとします。必要なのは、「/html/body//ul//li//a」のようなクエリを作成し、それを XPath->evaluate() に渡すことだけです。 XPath の使用方法をすべて説明するつもりはありません。私は自分自身で学んでいるだけであり、他の人がすでに素晴らしい例のリストを作成しているからです (XPath の例)。これは、XPath を使用してページ上のすべてのリンクを取得するコード スニペットです:

リンクを反復して保存します

次に、XPath を使用して収集したすべてのリンクを反復処理し、データベースに保存します。まず、リンクを反復処理するコード:

$dom = new DOMDocument();@$dom->loadHTML($html);
$xpath = new DOMXPath($dom);$hrefs = $xpath->evaluate("/html/body//a");
for ($i = 0; $i < $hrefs->length; $i++) {$href = $hrefs->item($i);$url = $href->getAttribute('href');storeLink($url,$target_url);}
 
 
FULL PROGRAM:

$userAgent = 'Googlebot/2.1 (http://www.googlebot.com/bot.html)';curl_setopt($ch, CURLOPT_USERAGENT, $userAgent);curl_setopt($ch, CURLOPT_URL,$target_url);curl_setopt($ch, CURLOPT_FAILONERROR, true);curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);curl_setopt($ch, CURLOPT_AUTOREFERER, true);curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);curl_setopt($ch, CURLOPT_TIMEOUT, 10);$html = curl_exec($ch);if (!$html) { echo "
cURL error number:" .curl_errno($ch); echo "
cURL error:" . curl_error($ch); exit;}$dom = new DOMDocument();@$dom->loadHTML($html);$xpath = new DOMXPath($dom);$hrefs = $xpath->evaluate("/html/body//a");

for ($i = 0; $i < $hrefs->length; $i++) { $href = $hrefs->item($i); $url = $href->getAttribute('href'); echo $url; echo "
"; }

?>
then you can store url to your database. more details from here:http://www.merchantos.com/makebeta/php/scraping-links-with-php/#curl_content
 
REF:tutorial on PHP and cURL 
You can find a comprehensive list of user agents here: User Agents.
Using PHP TO Scrape Sites As Feeds
声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
PHPメール:ステップバイステップ送信ガイドPHPメール:ステップバイステップ送信ガイドMay 09, 2025 am 12:14 AM

PhpisusedForsedingEmailsDueToitsIttegration withServerMailServicesAndExternalSmtpproviders、自動化とMarketingCampaign.1)SetupYourphpenvironment withebeBironment witheBiserverandphp、保証

PHP経由で電子メールを送信する方法:例とコードPHP経由で電子メールを送信する方法:例とコードMay 09, 2025 am 12:13 AM

メールを送信する最良の方法は、PHPMailerライブラリを使用することです。 1)Mail()関数を使用することはシンプルですが信頼できないため、電子メールがスパムを入力するか、配信できない場合があります。 2)PHPMailerは、より良い制御と信頼性を提供し、HTMLメール、添付ファイル、SMTP認証をサポートします。 3)SMTP設定が正しく構成されていることを確認し、暗号化(StartTLSやSSL/TLSなど)を使用してセキュリティを強化します。 4)大量の電子メールについては、メールキューシステムを使用してパフォーマンスを最適化することを検討してください。

高度なPHPメール:カスタムヘッダーと機能高度なPHPメール:カスタムヘッダーと機能May 09, 2025 am 12:13 AM

customedersandaddadvancedfeaturesinphpemailentalitylivainability.1)customederadddetadata fortrackingandcategorization.2)htmLemailsallowStingtintintintintintinteractivity.3)添付物質の添付物質の添付

php&smtpでメールを送信するためのガイドphp&smtpでメールを送信するためのガイドMay 09, 2025 am 12:06 AM

PHPとSMTPを使用してメールを送信することは、PHPMailerライブラリを介して実現できます。 1)PHPMailerをインストールして構成する、2)SMTPサーバーの詳細を設定する、3)電子メールコンテンツを定義し、4)メールを送信してエラーを処理します。この方法を使用して、電子メールの信頼性とセキュリティを確保します。

PHPを使用して電子メールを送信する最良の方法は何ですか?PHPを使用して電子メールを送信する最良の方法は何ですか?May 08, 2025 am 12:21 AM

BestappRoachforseminginphpisusingthephpmailerlibrarydueToitsReliability、featurrichness、andeaseofuse.phpmailerSupportssmtpは、detairederorhandlingを提供します

PHPでの依存関係注射のベストプラクティスPHPでの依存関係注射のベストプラクティスMay 08, 2025 am 12:21 AM

依存関係注射(DI)を使用する理由は、コードのゆるい結合、テスト可能性、および保守性を促進するためです。 1)コンストラクターを使用して依存関係を注入します。2)サービスロケーターの使用を避け、3)依存関係噴射コンテナを使用して依存関係を管理する、4)依存関係を注入することでテスト可能性を向上させる、5)注入依存性を回避、6)パフォーマンスに対するDIの影響を考慮します。

PHPパフォーマンスのチューニングのヒントとコツPHPパフォーマンスのチューニングのヒントとコツMay 08, 2025 am 12:20 AM

phpperformancetuningisucial cuseenhancess andandandadsand。

PHP電子メールセキュリティ:電子メールを送信するためのベストプラクティスPHP電子メールセキュリティ:電子メールを送信するためのベストプラクティスMay 08, 2025 am 12:16 AM

bestpracticesforsendingemails securlyinphpinclude:1)sutureconsmttarttlsencryptionとの使用の使用、2)検証およびサンシジン化のinputStopReventinjectuctacks、3)adinitivedinitivedInemailsopenslsl、4)adlinglinglingemailoaに

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール