もちろん、PHP 正規表現を使用してページ内のすべてのリンクを取得するのが最も便利な方法です。正規表現を記述するには、まずパターンを要約する必要があります。では、ページ上のリンクにはいくつの形式があるでしょうか。以下を見てみましょう。
はじめに
リンクはハイパーリンクであり、ある要素 (テキスト、画像、ビデオなど) から別の要素 (テキスト、画像、ビデオなど) へのリンクです。通常、Web ページには 3 種類のリンクがあります。1 つはページへの完全なパスである絶対 URL ハイパーリンクで、もう 1 つは同じ Web サイト上の他のページにリンクする相対 URL ハイパーリンクです。ページ内のハイパーリンク。通常、同じページ内の他の場所にリンクします。
リンクの種類を理解すると、取得する主なリンクが絶対 URL ハイパーリンクと相対 URL ハイパーリンクであることがわかります。正しい正規表現を作成するには、探しているオブジェクトのパターンを理解する必要があります。
インターネット上の一意のリソースを識別する、URL (Uniform Resource Locator) とも呼ばれる絶対リンクから始めましょう。 URL の構造には、プロトコル、サーバー名、パス、ファイル名の 3 つの部分が含まれています。
プロトコルは、開くファイルの処理方法をブラウザに指示する識別子です。最も一般的なものは http プロトコルです。この記事では HTTP プロトコルのみを考慮します。他の https、ftp、mailto、telnet プロトコルなどについても、必要に応じて追加できます。
サーバー名は、このサーバーにアクセスする方法をブラウザーに伝える方法であり、通常はドメイン名または IP アドレス、場合によってはポート番号 (デフォルトは 80) です。 FTP プロトコルにはユーザー名とパスワードも含めることができますが、この記事では考慮しません。
パスとファイル名は通常 / で区切られ、ファイルへのパスとファイル自体の名前を示します。特定のファイル名がない場合は、このフォルダー内のデフォルトのファイルがアクセスされます (サーバー側で設定可能)。
クロールされる絶対リンクの典型的な形式は、
<span style="color: #000000">http://www.xxx.com/xxx/yyy のように要約できることがわかりました。 /zzz .html<code><span style="color: #000000">http://www.xxx.com/xxx/yyy/zzz.html</span>
每个部分可以使用的字符范围有明确的规范,具体可以参考RFC1738。那么正则表达式就可以写出来了。
/(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.]+)/i
解释如下:
(http|https)第一个括号内匹配的是协议部分。
([wd-_]+[.wd-_]+)第二个括号内匹配的是域名部分。
([/]?[w/.]+)第三个括号内匹配的是相对路径。
写到这个时候,基本上大部分的网址都能匹配到了,但是对于URL中带有参数的还不能抓取,这样有可能造成再次访问的时候页面报错。关于参数RFC1738规范中要求是用?来分割,后面带上参数,但是现代的RIA应用有可能使用其他奇怪的形式进行分割。
稍微修改一下,这样就可以将查询参数部分搜索出来。这里仍然没有涵盖全部的情况,例如URL中有中文、有空格及其他特殊字符的情况,但是基本上能够满足我的需求了,就没有继续深化。
/(http|ftp|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.\?=&;%@#\+,]+)/i
使用括号的好处是,在处理结果时,可以很容易的获取到协议、域名、相对路径这些内容,方便后续的处理。
例如使用 preg_match_all()
各部で使用できる文字の範囲については明確な仕様が定められていますので、詳しくはRFC1738を参照してください。その後、正規表現を書くことができます。
rrreee
(http|https) 最初の括弧はプロトコル部分と一致します。 ([wd-_]+[.wd-_]+)
2 番目の括弧はドメイン名の部分と一致します。
([/]?[w/.]+) 3 番目の括弧は相対パスと一致します。
rrreee
🎜 括弧を使用する利点は、結果を処理するときに、プロトコル、ドメイン名、および相対パスを簡単に取得して、後続の処理を容易にすることができることです。 🎜🎜たとえば、preg_match_all()
を使用して照合する場合、結果配列 🎜index 0 はすべての結果、1 はプロトコル、2 はドメイン名、3 は相対パス 🎜 です。 🎜🎜要約: 上記がこの記事の全内容です。皆様の学習に役立つことを願っています。 🎜🎜関連する推奨事項: 🎜🎜🎜 PHP で複数フィールドのあいまい一致クエリを実装する方法 🎜🎜🎜🎜🎜🎜php🎜mailer バインディング メールボックスを実装する方法 🎜🎜🎜🎜🎜 最初の文字を取得するために PHP でカスタム関数を実装する方法漢字の🎜🎜 🎜🎜🎜🎜🎜🎜🎜以上がPHP を使用してページ内の URL の定期的なクロールを実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

PHPは、現代のWeb開発、特にコンテンツ管理とeコマースプラットフォームで依然として重要です。 1)PHPには、LaravelやSymfonyなどの豊富なエコシステムと強力なフレームワークサポートがあります。 2)パフォーマンスの最適化は、Opcacheとnginxを通じて達成できます。 3)PHP8.0は、パフォーマンスを改善するためにJITコンパイラを導入します。 4)クラウドネイティブアプリケーションは、DockerおよびKubernetesを介して展開され、柔軟性とスケーラビリティを向上させます。

PHPは、特に迅速な開発や動的なコンテンツの処理に適していますが、データサイエンスとエンタープライズレベルのアプリケーションには良くありません。 Pythonと比較して、PHPはWeb開発においてより多くの利点がありますが、データサイエンスの分野ではPythonほど良くありません。 Javaと比較して、PHPはエンタープライズレベルのアプリケーションでより悪化しますが、Web開発により柔軟性があります。 JavaScriptと比較して、PHPはバックエンド開発により簡潔ですが、フロントエンド開発のJavaScriptほど良くありません。

PHPとPythonにはそれぞれ独自の利点があり、さまざまなシナリオに適しています。 1.PHPはWeb開発に適しており、組み込みのWebサーバーとRich Functionライブラリを提供します。 2。Pythonは、簡潔な構文と強力な標準ライブラリを備えたデータサイエンスと機械学習に適しています。選択するときは、プロジェクトの要件に基づいて決定する必要があります。

PHPは、サーバー側で広く使用されているスクリプト言語で、特にWeb開発に適しています。 1.PHPは、HTMLを埋め込み、HTTP要求と応答を処理し、さまざまなデータベースをサポートできます。 2.PHPは、ダイナミックWebコンテンツ、プロセスフォームデータ、アクセスデータベースなどを生成するために使用され、強力なコミュニティサポートとオープンソースリソースを備えています。 3。PHPは解釈された言語であり、実行プロセスには語彙分析、文法分析、編集、実行が含まれます。 4.PHPは、ユーザー登録システムなどの高度なアプリケーションについてMySQLと組み合わせることができます。 5。PHPをデバッグするときは、error_reporting()やvar_dump()などの関数を使用できます。 6. PHPコードを最適化して、キャッシュメカニズムを使用し、データベースクエリを最適化し、組み込み関数を使用します。 7

PHPが多くのWebサイトよりも優先テクノロジースタックである理由には、その使いやすさ、強力なコミュニティサポート、広範な使用が含まれます。 1)初心者に適した学習と使用が簡単です。 2)巨大な開発者コミュニティと豊富なリソースを持っています。 3)WordPress、Drupal、その他のプラットフォームで広く使用されています。 4)Webサーバーとしっかりと統合して、開発の展開を簡素化します。

PHPは、特にWeb開発の分野で、最新のプログラミングで強力で広く使用されているツールのままです。 1)PHPは使いやすく、データベースとシームレスに統合されており、多くの開発者にとって最初の選択肢です。 2)動的コンテンツ生成とオブジェクト指向プログラミングをサポートし、Webサイトを迅速に作成および保守するのに適しています。 3)PHPのパフォーマンスは、データベースクエリをキャッシュおよび最適化することで改善でき、その広範なコミュニティと豊富なエコシステムにより、今日のテクノロジースタックでは依然として重要になります。

PHPでは、弱い参照クラスを通じて弱い参照が実装され、ガベージコレクターがオブジェクトの回収を妨げません。弱い参照は、キャッシュシステムやイベントリスナーなどのシナリオに適しています。オブジェクトの生存を保証することはできず、ごみ収集が遅れる可能性があることに注意する必要があります。

\ _ \ _ Invokeメソッドを使用すると、オブジェクトを関数のように呼び出すことができます。 1。オブジェクトを呼び出すことができるように\ _ \ _呼び出しメソッドを定義します。 2。$ obj(...)構文を使用すると、PHPは\ _ \ _ Invokeメソッドを実行します。 3。ロギングや計算機、コードの柔軟性の向上、読みやすさなどのシナリオに適しています。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ドリームウィーバー CS6
ビジュアル Web 開発ツール

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

WebStorm Mac版
便利なJavaScript開発ツール
