検索
ホームページバックエンド開発PHPチュートリアルPHPコレクションクラス スヌーピーキャプチャ画像例_PHPチュートリアル

私は PHP の Snoopy クラスを 2 日間使用してきましたが、非常に便利であることがわかりました。要求された Web ページ内のすべてのリンクを取得するには、fetchlinks を直接使用します。すべてのテキスト情報を取得するには、fetchtext を使用します (内部処理には依然として正規表現が使用されます)。フォーム送信のシミュレーションなど、他にも多くの機能があります。 。


使用方法:

まず Snoopy クラスをダウンロードします。ダウンロード アドレス: http://sourceforge.net/projects/snoopy/
まずオブジェクトをインスタンス化し、次に対応するメソッドを呼び出してクロールされた Web ページ情報を取得します

コードをコピーします コードは次のとおりです:

'snoopy/Snoopy.class.php' を含めます;

$snoopy = 新しいスヌーピー();

$sourceURL = "http://www.jb51.net";
$snoopy->fetchlinks($sourceURL);

$a = $snoopy->結果;

Web ページ内のすべての画像のアドレスを取得する方法は提供されていません。ページ上のすべての記事のリスト内の画像のアドレスを取得する必要があります。次に、主に正規表現の一致が重要であるため、自分でコードを作成しました。

コードをコピーします コードは次のとおりです:

//画像と一致する正規表現
$reTag = "/PHPコレクションクラス スヌーピーキャプチャ画像例_PHPチュートリアル/i";


ニーズが非常に特殊であるため、http:// で始まる画像のみをキャプチャする必要があります (外部サイトからの画像はホットリンクを妨げる可能性があるため、最初にローカルでキャプチャする必要があります)

1. 指定された Web ページをクロールし、予想される記事アドレスをすべて除外します。

2. 最初のステップでループして記事のアドレスを取得し、正規表現を使用して画像と一致し、ページ上のルールに一致するすべての画像アドレスを取得します。

3. 画像のサフィックスと ID に従って画像を保存します (ここでは gif、jpg のみ) --- この画像ファイルが存在する場合は、まずそれを削除してから保存します。

コードをコピーします コードは次のとおりです:


「snoopy/Snoopy.class.php」をインクルードします;

$snoopy = 新しいスヌーピー();

$sourceURL = "http://xxxxx";
$snoopy->fetchlinks($sourceURL);

$a = $snoopy->結果;
$re = "/d+.html$/";

//リクエストをフィルタリングして、指定されたファイルアドレスを取得します
foreach ($a として $tmp) {
If (preg_match($re, $tmp)) {
getImgURL($tmp);
}
}

関数 getImgURL($siteName) {
$snoopy = 新しいスヌーピー();
$snoopy->fetch($siteName);

$fileContent = $snoopy->結果;

//画像と一致する正規表現
$reTag = "/PHPコレクションクラス スヌーピーキャプチャ画像例_PHPチュートリアル/i";

If (preg_match($reTag, $fileContent)) {
$ret = preg_match_all($reTag, $fileContent, $matchResult);
                                                for ($i = 0, $len = count($matchResult[1]); $i saveImgURL($matchResult[1][$i], $matchResult[2][$i]);
}
}
}

関数 saveImgURL($name, $suffix) {
$url = $name.".".$suffix;

echo "リクエストされた画像アドレス: ".$url."
";

$imgSavePath = "E:/xxx/style/images/";
$imgId = preg_replace("/^.+/(d+)$/", "1", $name);
if ($suffix == "gif") {
$imgSavePath .= "感情";
} else {
$imgSavePath .= "トピック";
}
$imgSavePath .= ("/".$imgId.".".$suffix);

If (is_file($imgSavePath)) {
unlink($imgSavePath);
echo "

ファイル「.$imgSavePath.」はすでに存在するため、削除されます

";
}

$imgFile = file_get_contents($url);
$flag = file_put_contents($imgSavePath, $imgFile);

if ($flag) {
echo "

File".$imgSavePath."正常に保存されました

";
}
}
?>

PHP を使用して Web ページ (コンテンツ、画像、リンク) をクロールする場合、最も重要なことは規則性 (クロールされたコンテンツと指定されたルールに基づいて目的のデータを取得すること) であると思います。アイデアは実際には比較的単純で、使用されるメソッドも同様です。たくさんあるわけではなく、ほんの少しだけです (コンテンツをキャプチャするには、他の人が書いたクラスのメソッドを呼び出すだけです)

しかし、以前思ったのは、PHP は次のメソッドを実装していないようです。たとえば、ファイル内に N 行がある場合 (N は非常に大きい)、ルールに適合する行の内容を置き換える必要があります。たとえば、3 行目は aaa であり、 bbbbb に変換する必要があります。ファイルを変更する必要がある場合の一般的な方法:

1. ファイル全体を一度に読み取り (または 1 行ずつ読み取り)、一時ファイルを使用して最終的な変換結果を保存し、元のファイルを置き換えます

2. 1 行ずつ読み取り、fseek を使用してファイル ポインターの位置を制御し、fwrite で書き込みます

オプション 1 は、ファイルが大きい場合に一度に読み取ることはお勧めできません (1 行ずつ読み取り、一時ファイルに書き込んでから元のファイルを置き換えるのは効率的ではありません)。オプション 2 は、置換される文字列の長さが非常に短い場合です。目標値以下の場合は問題ありませんが、それを超えると問題が発生し、次の行のデータが破壊されます(のように新しい内容に置き換えることはできません)。 JavaScript における「選択」の概念)。

以下はオプション 2 を使用したテストのコードです:

コードをコピーします コードは次のとおりです:

$mode = "r+";
$filename = "d:/file.txt";
$fp = fopen($filename, $mode);
if ($fp) {
$i = 1;
while (!feof($fp)) {
$str = fgets($fp);
エコー $str;
If ($i == 1) {
$len = strlen($str);
fseek($fp, -$len, SEEK_CUR);//ポインタを前に移動します
fwrite($fp, "123");
}
i++;
}
fclose($fp);
}
?>

このとき、ファイル ポインタは実際には次の行の先頭を指します。その後、fwrite を使用してファイル ポインタを前の行の先頭に戻します。長さが指定されていない場合、これは置換操作です。この場合、次の行のデータに影響します。必要なのは、この行を削除するか、行全体を次の行に置き換えるなど、この行のみを操作することです。 1 つだけ 1. 上記の例は要件を満たしていません。適切な方法がまだ見つかっていない可能性があります...

www.bkjia.comtru​​ehttp://www.bkjia.com/PHPjc/825392.html技術記事 PHP の Snoopy クラスを 2 日間使用してきましたが、非常に便利であることがわかりました。要求された Web ページ内のすべてのリンクを取得するには、fetchlinks を直接使用します。すべてのテキスト情報を取得するには、fetchtext を使用します (...
もあります)。
声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
PHP対Python:違いを理解しますPHP対Python:違いを理解しますApr 11, 2025 am 12:15 AM

PHP and Python each have their own advantages, and the choice should be based on project requirements. 1.PHPは、シンプルな構文と高い実行効率を備えたWeb開発に適しています。 2。Pythonは、簡潔な構文とリッチライブラリを備えたデータサイエンスと機械学習に適しています。

PHP:それは死にかけていますか、それとも単に適応していますか?PHP:それは死にかけていますか、それとも単に適応していますか?Apr 11, 2025 am 12:13 AM

PHPは死にかけていませんが、常に適応して進化しています。 1)PHPは、1994年以来、新しいテクノロジーの傾向に適応するために複数のバージョンの反復を受けています。 2)現在、電子商取引、コンテンツ管理システム、その他の分野で広く使用されています。 3)PHP8は、パフォーマンスと近代化を改善するために、JITコンパイラおよびその他の機能を導入します。 4)Opcacheを使用してPSR-12標準に従って、パフォーマンスとコードの品質を最適化します。

PHPの未来:適応と革新PHPの未来:適応と革新Apr 11, 2025 am 12:01 AM

PHPの将来は、新しいテクノロジーの傾向に適応し、革新的な機能を導入することで達成されます。1)クラウドコンピューティング、コンテナ化、マイクロサービスアーキテクチャに適応し、DockerとKubernetesをサポートします。 2)パフォーマンスとデータ処理の効率を改善するために、JITコンパイラと列挙タイプを導入します。 3)パフォーマンスを継続的に最適化し、ベストプラクティスを促進します。

PHPの抽象クラスまたはインターフェイスに対して、いつ特性を使用しますか?PHPの抽象クラスまたはインターフェイスに対して、いつ特性を使用しますか?Apr 10, 2025 am 09:39 AM

PHPでは、特性は方法が必要な状況に適していますが、継承には適していません。 1)特性により、クラスの多重化方法が複数の継承の複雑さを回避できます。 2)特性を使用する場合、メソッドの競合に注意を払う必要があります。メソッドの競合は、代替およびキーワードとして解決できます。 3)パフォーマンスを最適化し、コードメンテナビリティを改善するために、特性の過剰使用を避け、その単一の責任を維持する必要があります。

依存関係噴射コンテナ(DIC)とは何ですか?また、なぜPHPで使用するのですか?依存関係噴射コンテナ(DIC)とは何ですか?また、なぜPHPで使用するのですか?Apr 10, 2025 am 09:38 AM

依存関係噴射コンテナ(DIC)は、PHPプロジェクトで使用するオブジェクト依存関係を管理および提供するツールです。 DICの主な利点には、次のものが含まれます。1。デカップリング、コンポーネントの独立したもの、およびコードの保守とテストが簡単です。 2。柔軟性、依存関係を交換または変更しやすい。 3.テスト可能性、単体テストのために模擬オブジェクトを注入するのに便利です。

通常のPHPアレイと比較して、SPL SPLFIXEDARRAYとそのパフォーマンス特性を説明してください。通常のPHPアレイと比較して、SPL SPLFIXEDARRAYとそのパフォーマンス特性を説明してください。Apr 10, 2025 am 09:37 AM

SplfixedArrayは、PHPの固定サイズの配列であり、高性能と低いメモリの使用が必要なシナリオに適しています。 1)動的調整によって引き起こされるオーバーヘッドを回避するために、作成時にサイズを指定する必要があります。 2)C言語アレイに基づいて、メモリと高速アクセス速度を直接動作させます。 3)大規模なデータ処理とメモリに敏感な環境に適していますが、サイズが固定されているため、注意して使用する必要があります。

PHPは、ファイルを安全に処理する方法をどのように処理しますか?PHPは、ファイルを安全に処理する方法をどのように処理しますか?Apr 10, 2025 am 09:37 AM

PHPは、$ \ _ファイル変数を介してファイルのアップロードを処理します。セキュリティを確保するための方法には次のものが含まれます。1。アップロードエラー、2。ファイルの種類とサイズを確認する、3。ファイル上書きを防ぐ、4。ファイルを永続的なストレージの場所に移動します。

Null Coulescingオペレーター(??)およびNull Coulescing Assignment Operator(?? =)とは何ですか?Null Coulescingオペレーター(??)およびNull Coulescing Assignment Operator(?? =)とは何ですか?Apr 10, 2025 am 09:33 AM

JavaScriptでは、nullcoalescingoperator(??)およびnullcoalescingsignmentoperator(?? =)を使用できます。 1.??最初の非潜水金または非未定されたオペランドを返します。 2.??これらの演算子は、コードロジックを簡素化し、読みやすさとパフォーマンスを向上させます。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール