ホームページ >バックエンド開発 >PHPチュートリアル >CURLデータ収集による通常処理関数get_matchesの使い方_PHPチュートリアル
最初の 2 つのブログ投稿に基づく:
curlデータ収集に基づくシングルページコレクション関数get_htmlの使用法
curlデータ収集に基づくシングルページ並列収集関数get_htmlsの使用法
必要な HTML ファイルを取得しました。次に、取得したファイルを処理して、必要な収集データを取得する必要があります。
HTML ドキュメントにはペアになっていないタグが多く、厳密ではないため、HTML ドキュメントの解析には XML のような解析クラスはありません。このとき、Simplehtmldom は HTML ドキュメントを操作する JQuery に似た解析クラスです。必要なデータを取得するのは非常に便利ですが、残念ながら遅いです。これは、ここでの説明の焦点ではありません。私は主に、収集する必要がある情報を迅速に取得できるように、収集する必要があるデータを照合するために正規表現を使用します。
get_html は返されたデータを判断できますが、get_htmls は判断できないことを考慮して、デバッグと呼び出しを容易にするために次の 2 つの関数が作成されています:
データを収集するとき、リスト ページが収集されることが多く、リスト ページから取得したコンテンツ ページのリンクに基づいてコンテンツ ページが収集されるため、またはそれ以上のレベルで、ネストされたループが多くなり、コードが不十分に感じられるでしょう。それでは、コレクション リスト ページのコードをコレクション コンテンツ ページのコードから分離したり、より多くのレベルのコレクション コードを分離したり、ループを簡素化したりすることはできるでしょうか?