ホームページ  >  記事  >  バックエンド開発  >  file_get_contents とcurlを使用してコレクションを書き込む

file_get_contents とcurlを使用してコレクションを書き込む

PHP中文网
PHP中文网オリジナル
2017-07-29 18:27:011619ブラウズ

使用するデータがすべて同じ Web サイト上にあり、データの表示形式が同じであることがよくあります。たとえば、淘宝網や Amazon では、情報を手動で入力すると、作業負荷が高くなります。現時点では、収集プログラムを作成して直接収集して表示することができます。 サーバーはfile_get_contentsとcurlをサポートしています

まず、ページにテキストボックスと送信ボタンを追加します。テキストボックスは、コレクションページのアドレスを入力するために使用されます。

コレクションは通常のインターセプト関数を使用する必要があります

function preg_substr($start, $end, $str) // 正则截取函数      
{      
    $temp = preg_split($start, $str);      
    $content = preg_split($end, $temp[1]);      
    return $content[0];      
}


コレクションは文字列インターセプト関数を使用する必要があります

function str_substr($start, $end, $str) // 字符串截取函数      
{      
    $temp = explode($start, $str, 2);      
    $content = explode($end, $temp[1], 2);      
    return $content[0];      
}


収集されたコンテンツを保存する機能もあります:

function writelog($str)
{
@unlink("log.txt");
$open=fopen("log.txt","a" );
fwrite($open,$str);
fclose($open);
}

収集されたコンテンツは異なる場合がありますfrom ours ブラウザーで表示されるコンテンツに一貫性がないため、正しい正規表現を見つけることができません。ここで、保存された txt ファイルを開いて、その中で正しいインターセプト文字列を見つけることができます。


画像さえ収集する必要がある場合は、画像機能を使用する必要があります:

function getImage($url, $filename='', $dirName, $fileType, $type=0)
{
    if($url == ''){return false;}
    //获取文件原文件名
    $defaultFileName = basename($url);
    //获取文件类型
    $suffix = substr(strrchr($url,'.'), 1);
    if(!in_array($suffix, $fileType)){
        return false;
    }
    //设置保存后的文件名
    $filename = $filename == '' ? time().rand(0,9).'.'.$suffix : $defaultFileName;
          
    //获取远程文件资源
    if($type){
        $ch = curl_init();
        $timeout = 5;
        curl_setopt($ch, CURLOPT_URL, $url);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
        $file = curl_exec($ch);
        curl_close($ch);
    }else{
        ob_start();
        readfile($url);
        $file = ob_get_contents();
        ob_end_clean();
    }
    //设置文件保存路径
    $dirName = $dirName.'/'.date('Y', time()).'/'.date('m', time()).'/'.date('d',time()).'/';
    if(!file_exists($dirName)){
        mkdir($dirName, 0777, true);
    }
    //保存文件
    $res = fopen($dirName.$filename,'a');
    fwrite($res,$file);
    fclose($res);
    return $dirName.$filename;
}

コレクションコードは投稿を防ぐためにここに追加されているため、画像に直接アクセスしてください。例としてAmazonの商品ページを入力します:

以下に示すようにコレクション結果を見てください。データベースに参加するのは比較的簡単です。時間があれば紹介します。下位レベルのリンクを自動的に入力したり、ページを自動的にめくったりします。

以上がfile_get_contents とcurlを使用してコレクションを書き込むの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。