ホームページ >バックエンド開発 >PHPチュートリアル >PHPでWebページをクロール・解析する方法を詳しく解説、PHPのクロール・解析を詳しく解説_PHPチュートリアル
この記事では、PHPでWebページをクローリング・解析する方法について説明します。参考のために皆さんと共有してください。詳細は次のとおりです:
ファイルのクロールと分析は非常に簡単です。このチュートリアルでは、それを実装するための例を段階的に説明します。はじめましょう!
まず、どの URL アドレスをクロールするかを決定する必要があります。これはスクリプトで設定するか、$QUERY_STRING 経由で渡すことができます。簡単にするために、変数をスクリプト内で直接設定しましょう。
リーリー 2 番目のステップでは、指定されたファイルを取得し、file() 関数を通じて配列に保存します。
さて、配列内にファイルができました。ただし、分析したいテキストがすべて 1 行に収まるわけではありません。このファイルを解決するには、配列 $lines_array を文字列に変換するだけです。これを実現するには、implode(x,y) 関数を使用します。後で爆発(文字列変数の配列)を使用したい場合は、x を「|」または「!」またはその他の同様の区切り文字に設定することをお勧めします。ただし、今回の目的では、x をスペースに設定するのが最善です。 y は、implode() で処理する配列であるため、もう 1 つの必須パラメータです。
リーリークローリング作業が完了したので、分析を始めます。この例では、
と の間のすべてを取得したいと考えています。文字列を解析するには、正規表現と呼ばれるものも必要です。 リーリーコードを見てみましょう。ご覧のとおり、eregi() 関数は次の形式で実行されます:
リーリー「(.*)」はすべてを意味し、「
と の間のすべてを分析する」と解釈できます。 $lines_string は分析対象の文字列、$head は分析結果が格納される配列です。最後にデータを入力します。
と の間にはインスタンスが 1 つしかないため、配列には要素が 1 つだけ存在し、それが必要な要素であると想定できます。印刷してみましょう。 リーリーこれがすべてのコードです。
リーリーさらに PHP 関連のコンテンツに興味のある読者は、このサイトの特別トピックをチェックしてください: 「PHP 正規表現の使用法の概要」、「PHP+ajax のスキルとアプリケーションの概要」、「PHP の操作とオペレーターの使用法の概要」 、「PHP ネットワークプログラミング」スキルまとめ」、「PHP 基本構文入門チュートリアル」、「php Office ドキュメント操作スキルまとめ(word、excel、access、ppt 含む)」、「php 日時の使い方まとめ」、「php object-指向性プログラミング入門チュートリアル』、『php文字列の使い方まとめ』、『php+mysqlデータベース操作入門チュートリアル』、『一般的なphpデータベース操作スキルまとめ』
この記事が PHP プログラミングのすべての人に役立つことを願っています。