이는 cURL에 대한 유연한 다중 스레드 호출입니다. PHP 매뉴얼 http://us2.php.net/manual/zh/function.curl-multi-select.php 에서 제공하는 샘플과 다르며, 코드 실행 효율이 훨씬 높습니다 여기에 두 가지 파일이 있습니다. 하나는 두 개의 클래스를 포함하는 muti_curl 파일입니다 一个是运사용 가능한 방법, 这里是批weight检查代理ip是否可用
- class request_setting {
- public $url = false;
- public $method = 'GET';
- public $ post_data = null;
- 공개 $headers = null;
- 공개 $options = null;
- 함수 __construct($url, $method = "GET", $post_data = null, $headers = null, $options = null) {
- $this->url = $url;
- $this->method = $method;
- $this->post_data = $post_data;
- $this-> ;headers = $headers;
- $this->options = $options;
- }
- 공개 함수 __destruct() {
- unset($this->url, $this->method , $this->post_data, $this->headers, $this->options);
- }
- }
- /**************************************************** * *****************************************
- 일괄 작업 클래스
- ************************************************ **** ********************************************/
- class muti_curl {
- protected $thread_size = 100;
- protected $timeout = 30;
- private $callback;
- protected $options = array(
- CURLOPT_SSL_VERIFYPEER => false,//禁用后cURL将终止从服务端进行验证。使用 CURLOPT_CAINFO选项设置证书使用 CURLOPT_CAPATH选项设置证书目录 如果CURLOPT_SSL_VERIFYPEER(默认值为2)被启用CURLOPT_SSL_VERIFYHOST需要被设置成TRUE否则设置为FALSE。 自cURL 7.10开始默认为TRUE。从cURL 7.10开始默认绑 정 안정 。
- CURLOPT_RETURNTRANSFER => true, //CURLOPT_CONNECTTIMEOUT => 15,
- CURLOPT_TIMEOUT => 30,
- // CURLOPT_HTTP_VERSION=>CURL_HTTP_VERSION_1_0, //사용하는 현대적인 时候用这个去抓取数据,更爽
- // CURLOPT_AUTOREFERER=>false,// :결정중점,자체 헤더 중 추천자: 信息.
- // CURLOPT_BINARYTRANSFER=>false, //현재 CURLOPT_RETURNTRANSFER의 时候, 返回原生的(Raw)이 출력되지 않습니다.
- // ESSION=>사실,/ / 启用时curl会仅仅传递一个session cookie,忽略其他的cookie,默认状况下cURL会将所有的cookie返回
- // CURLOPT_CRLF=>false,// 启用时将Unix의换行符转换成回车换行符.
- // CURLOPT_DNS_USE_GLOBAL_CACHE=>false, // 启用时会启用一个全局的DNS缓存,此项为线程보안에 사용됩니다.
- // FAILONERROR=>false, //显示HTTP状态码,默认行为是忽略编号小于等于400的HTTP信息。
- // CURLOPT_FILETIME=>true, //启用时会尝试修改远程文档中당신은 매우 만족스럽습니다. CURLINFO_FILETIME이 실행되었습니다.curl_getinfo().
- // CURLOPT_FOLLOWLOCATION=>false, // 启用时会将服务器服务器返回的"위치: "放在header中递归的返回给服务器,使用CURLOPT_MAXREDIRS可以递归返回의 양이 결정됩니다.
- // CURLOPT_FORBID_REUSE =>true, //현재는 사용하지 않습니다.
- // CURLOPT_FRESH_CONNECT=>true,//
- // CURLOPT_FTP_USE_EPRT=>false,// 启用时当FTP下载时,使用EPRT (或 LPRT)命令。设置为FALSE时禁用EPRT와LPRT,使用PORT命令만 가능합니다.
- // CURLOPT_FTP_USE_EPSV=>false,// FTP传输过程中回复到PASV模式前首先尝试EPSV命令。设置为FALSE时禁用EPSV命令。
- // CURLOPT_FTPAPPEND=>false, // 사용 가능한 时追加写入文件而不是覆盖它.
- // CURLOPT_FTPASCII=>false,// CURLOPT_TRANSFERTEXT적 이름.
- // CURLOPT_FTPLISTONLY=>false,// 사용 가능한 사용 방법 FTP目录 출력 이름입니다.
- // CURLOPT_HEADER=>true,// 사용하기 위한 용도는 다음과 같습니다.
- // CURLINFO_HEADER_OUT=>false, //求字符串。
- // CURLOPT_HTTPGET=>true,// GET, 因为GET是默认是, 所以只被修改情况下使用.
- // 엘 => 사실 ,// 启用时会HTTP代理来传输.
- // CURLOPT_MUTE=>true,// 启用时将cURL函数中所有修改过的参数恢复默认值。
- // OPT_NETRC=>거짓 ,// 에서 连接建立以后,访问~/.netrc文件获取用户name and 密码信息连接远程站点。
- // CURLOPT_NOBODY=>true, 신체 부분이 분리되었습니다.
- / / CURLOPT_NOPROGRESS=>false,//사용하는 컬이 사용하기에 적합합니다.
- // CURLOPT_NOSIGNAL=>false,//传递给php의 여행信号。이 항목은 SAPI 멀티스레드 전송 중에 기본적으로 활성화됩니다. cURL 7.10에 추가되었습니다.
- // CURLOPT_POST=>false,// 활성화되면 양식 제출과 마찬가지로 일반 POST 요청이 전송됩니다(application/x-www-form-urlencoded 입력).
- // CURLOPT_PUT=>false,// 활성화되면 HTTP가 파일을 보낼 수 있도록 허용합니다. CURLOPT_INFILE 및 CURLOPT_INFILESIZE를 동시에 설정해야 합니다.
- // CURLOPT_TRANSFERTEXT=>false,// 활성화되면 FTP 전송에 ASCII 모드를 사용합니다. LDAP의 경우 HTML이 아닌 일반 텍스트 정보를 검색합니다. Windows 시스템에서는 시스템이 STDOUT을 바이너리 모드로 설정하지 않습니다.
- // CURLOPT_UNRESTRICTED_AUTH=>true,// 도메인 이름이 변경된 경우에도 CURLOPT_FOLLOWLOCATION을 사용하여 생성된 헤더의 여러 위치에 사용자 이름 및 비밀번호 정보를 지속적으로 추가합니다.
- // CURLOPT_UPLOAD=>false,// 활성화되면 파일 업로드를 허용합니다.
- // CURLOPT_VERBOSE =>true,// 활성화되면 모든 정보가 보고되고 STDERR 또는 지정된 CURLOPT_STDERR에 저장됩니다.
- );
- private $headers = array();
- private $requests = array();
- private $requestMap = array();
- /*********************
- 콜백 함수 구성
- ********************/
- 함수 __construct($callback = null) {
- $this->callback = $callback;
- }
-
- /**************************************************** * ****************
- __get 메소드 오버로드
- *********************** * **********************************************/
- 공용 함수 __get($ name) {
- return (isset($this->{$name})) ? $this->{$name} : null;
- }
-
- /**************************************************** * *********************
- __set 메소드 오버로드
- ****************** *** **********************************/
- 공개 함수 __set($name, $value) {
- // 增加一个设置到headers
- if ($name == "options" || $name == "headers") {
- $this->{$name} = $value $this->{$name };
- } else {
- $this->{$name} = $value;
- }
- return true;
- }
- //增加一个请求
- 공개 function add($request) {
- $this->requests[] = $request;
- return true;
- }
-
-
- 공개 함수 요청($url, $method = "GET", $post_data = null, $headers = null, $options = null) {
- $this->requests[] = new request_setting($url, $method, $post_data, $headers, $options );
- true 반환;
- }
-
- 공개 함수 get($url, $headers = null, $options = null) {
- return $this->request($url, "GET", null, $headers, $options);
- }
-
- 공개 함수 post($url, $post_data = null, $headers = null, $options = null) {
- 반환 $this->request($url, "POST", $post_data, $headers, $options);
- }
-
- 비공개 함수 Single_curl() {
- $ch = cur_init(); //初始化
- $request = array_shift($this->requests);//把第一个单元移出并作为结果
- $options = $this->get_options($request);//获得该单代设置
- 컬_setopt_array($ch, $options);//批设置
- $output = 컬_exec($ch);
- $curl_info = 컬_getinfo($ch);
-
- if ($this->callback) {
- $callback = $this->callback;
- if (is_callable($this->callback)) {
- call_user_func($callback, $output, $curl_info, $request);
- }
- }
- else
- return $output;
- return true;
- }
-
-
- 비공개 함수 Rolling_curl($ thread_size = null) {
- if ($thread_size){
- $this->thread_size = $thread_size;
- }
-
- if (count($this->requests) < $this->thread_size){
- $this->thread_size = count($this->requests);
- }
- if ($this->thread_size < 2) {
- $errorinfo = '线程大小必须大于 1!!!!';
- throw new Exception($errorinfo);
- }
- $queue =curl_multi_init();
-
- //재线程里开始增加任务队列
- for ($i = 0; $i < $this->thread_size; $i ) {
- $ch = 컬_init();
- $options = $this->get_options($this->requests[$i]);
- 컬_setopt_array($ch, $options) ;//获得设置
- cur_multi_add_handle($queue, $ch);//添加进去
- $key = (string) $ch;
- $this->requestMap[$key] = $i;
- }
- do {
- while (($statu_run_muti_exec = cur_multi_exec($queue, $active)) == CURLM_CALL_MULTI_PERFORM) ;
- if ($statu_run_muti_exec != CURLM_OK){ break; }
- // 发现完成的一个请求,进行处理
- while ($done =curl_multi_info_read($queue)) {
- $curl_info =curl_getinfo($done['handle']);
- $ 출력 = 컬_멀티_getcontent($done['handle']);
- $callback = $this->callback;
- if (is_callable($callback)){
- $key = (문자열) $done[ 'handle'];
- $request = $this->requests[$this->requestMap[$key]];
- unset($this->requestMap[$key]);//这个销毁变一个未处理的请求加入到一个已经完成成队列中
- if ($i < count($this->requests) && isset($this->requests[$i]) && $i < count($this->requests)) {
- $ch =curl_init();
- $options = $this->get_options($this->requests[$i]);
- curl_setopt_array($ch, $options);
- curl_multi_add_handle($queue, $ch);
- $key = (문자열) $ch;
- $this->requestMap[$key] = $i;
- $i ;
- }
- cur_multi_remove_handle($queue, $done['handle']);
- echo "done ";
- print_r($queue);
- print_r ($done);
- }
- // 이 단계는 매우 중요합니다. 요청 중 하나가 완료되면 시간 초과 시간을 재설정해야 합니다.
- // 여기서 중요한 점은 모든 스레드에서 최소한 하나의 요청이 첫 번째 요청에 유효한지 확인하는 것입니다. 그렇지 않으면 처음에는 모든 것이 적용되지 않아 $active=0이 되므로 다음은 실행되지 않습니다.
- if ($active >0){
- cur_multi_select($queue, $this ->timeout );
- }
-
- } while ($active);
- curl_multi_close($queue);
- return true;
- }
- 공개 함수 실행($ thread_size = null) {
- //thread_size의 크기를 판단합니다. 요청이 하나만 있는 경우 단일 스레드 모드를 사용합니다
- if (count($this->requests) == 1) {
- return $this->single_curl( );
- } else {
- return $this->rolling_curl($thread_size);
- }
- }
- 비공개 함수 get_options($request) {
- $options = $this ->__get('options');
- if (ini_get('safe_mode') == 'Off' || !ini_get('safe_mode')) {
- // $options[CURLOPT_FOLLOWLOCATION] = 1;
- // $options[CURLOPT_MAXREDIRS] = 5;
- }
- $headers = $this->__get('headers');
-
- if ($request->options) {
- $options = $request->options $options;
- }
- $options[CURLOPT_URL] = $request->url;
- //The 다음은 각각 게시 옵션과 헤더 옵션입니다. ;
- }
- if ( $headers) {
- $options[CURLOPT_HEADER] = 0;
- $options[CURLOPT_HTTPHEADER] = $headers;
- }
- return $options;
- }
-
- 공개 함수 __destruct() {
- unset($this->thread_size, $this->callback, $this->options, $this->headers, $this- >요청);
- }
- }
- ?>
-
-
- 코드 복사
-
header("content-type:text/html; charset=utf-8");
- require("muti_curl_class.php");set_time_limit(0);
- $sucesesnum=0;
- $good_proxy=array();
- function request_callback($response, $info, $request) {
- global $ ;
- // 下面的正規可以選擇性地顯示回傳的結果
- /* if (preg_match("~(.*?)~i", $response, $out )) {
- $title = $out[1];
- }*/
- // echo '
'.$response .' ';
- echo '
';
- //對回應也就是 $response 進行偵測判斷裡面是否有設定的字符,如果有判斷運用該代理成功
- if( $response !== false && substr_count($response, 'User -agent: Baiduspider') >=1 ) {
- // $result = true;
- echo "true
";
- // echo $request[options][10004];
- // print_r ($request->options);
- echo $request->options[CURLOPT_PROXY];
- $good_proxy[]=$request->options[CURLOPT_PROXY];
- }
- }
- echo '
the-->'. $sucesesnum.'// print_r ($request);
- //echo $request-> url;
- $sucesesnum ;
- echo "
";
- }
- $params = array_merge($_GET, $_POST); //此處取得傳遞過來的代理ip的位址
- $result = $proxy_ip = trim($params['ip']);
- $timeout=intval(trim($params['timeout']));
- if($timeoutif($timeout>300){$timeout=300;}
- $thread_size=intval(trim($params['thread_size']));
- if($thread_sizeize if($thread_size>300){$thread_size =300;}
-
- if($proxy_ip == '') {
- echo '請輸入IP!!';
- return;
- }
- $replace_arr1 = array(' ', 'qq代理:', 'dn28.com', 'qqip', 'qq代理', 'qqqipip ', '代理ip:', 'ip:', '代理ip','"',"'",'\','/',' ');
- $result = str_replace($replace_arr1, array (''), $result);
- $result = str_replace(",", "n", $result);
- $resArr = explode("n", $result);
- foreach( $resArr as $k => $v) {
- $posProxy = getPos($v, '@');
- if($posProxy===false){
- if (!empty($v )){$proxyip_and_port = $v; }
- }else{
- $proxyip_and_port = substr($v, 0, $posProxy);
- }
- $newRes[] =trim($proxyip_and_port) ;
- }
- print_r($newRes);
- //die();
- $option_setting = array(
- CURLOPT_SSL_VERIFYPEER => 0,
- CURLOPT_SSL_VERIFYPEER => 0, 5,
- CURLOPT_TIMEOUT => 30,
- CURLOPT_HEADER=>false,
- CURLOPT_PROXY=>'',///這個地方設定代理的位置
- );$btime=time();
- $rc = new muti_curl("request_callback");
- $rc->timeout = $timeout ;
- $rc->thread_size = $thread_size;
- foreach ($newRes as $v) {
- $option_setting[CURLOPT_PROXY]=$v;
- $request = new request_ $setting($, $setting( method = "GET", $post_data = null,$header= null, $option_setting);
- $rc->add($request);
- }
- $rc->execute();
- $etime=time();
- $usedtime=$etime-$btime;
- echo 'all'. $sucesesnum.'use'. $usedtime;
- echo '
';
- $good_proxy= array_unique($good_proxy);
- $str='';
- foreach ($good_proxy as $v){
- $str.="'".trim($v)."' ,";
- }
- $str= str_replace ( ' ' , '' ,$str );
- $str = preg_replace('/s /', ' ', $str);
- echo $str.'
';
- var_export ($good_proxy);
- //var_dump ($good_proxy);
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- //*************************************** ************************************************** *********************
- //************************ *******只用了一個函數
-
- function parseProxyInfo ( $proxyStr ) {
- //$proxyStr = '202.115.207.25:80@HTTP;四川省成都市四川師範大學' ;
- $posIp = getPos($proxyStr, ':');
- $ip = substr($proxyStr, 0, $posIp);
- $posPort = getPos($proxyStr, '@');
- $port = substr($proxyStr, $posIp 1, $posPort-$posIp-1);
- $posType = getPos($proxyStr, ';');
- $type = substr($proxyStr , $posPort 1, $posType-$posPort-1);
- $location = substr(strstr($proxyStr, ';'), 1);
- return array(
- 'ip' => $ ip,
- 'port' => $port,
- 'type' => $type,
- 'location' => $location
- );
- }
- function getPos($haystack, $needle){ return strpos($haystack, $needle);}
-
- 函數check_proxy_is_useful($model, $proxy_info_arr = array()) {
- 全域$params, $config;
- if($model == 'single') {
- $proxy_port = intval(trim($params['port']));
- $check_proxy_url = $config['verify_url'];
- $proxy_time_out = intval(trim($params['timeout']));
- $retry = intval(trim($params['retry']));
- $proxy_ip = trim($params['ip']);
- $proxy = 新代理( $proxy_ip, $proxy_port, $check_proxy_url, $proxy_time_out, $retry );
- // 成功返回string success,失敗返回boolean false
- $result = $proxy -> check_proxy();
- //var_dump($result);
- $proxy_str_success = ''.$proxy_ip.':'.$proxy_port.'@'.'HTTP代理驗證成功! ';
- $proxy_str_failed = ''.$proxy_ip.':'.$proxy_port.'@'.'HTTP代理驗證失敗! ';
- 回傳$result !== false ? $proxy_str_success : $proxy_str_failed;
- } elseif ($model == 'collect') {
- $proxy_port = intval(triminfo_ ['port']));
- $check_proxy_url = $config['verify_url'];
- $proxy_time_out = intval(trim($params['timeout']));
- $retry = intval($params['timeout']));
- $retry = intval( trim($params['retry']));
- $proxy_ip = trim($proxy_info_arr[ 'ip']);
- /*echo $proxy_ip.'
';
- echo $ proxy_port.'
';
- echo $check_proxy_url.'';
- echo $proxy_time_out.'
';
- echo $retry.'
' ;*/
- if(!isset($proxy) )) {
- $proxy = new proxy( $proxy_ip, $proxy_port, $check_proxy_url, $proxy_time_out, $retry );
- }
- / / 成功回傳string success,失敗回傳boolean false
- $結果= $proxy -> check_proxy();
- return $result;
- }
- }
-
- function getget_single(){
- 全域$params, $config;
- $proxy_ip = trim($params ['ip']);
- if($proxy_ip == '') {
- echo '請輸入IP!! ';
- return;
- }
- echo check_proxy_is_useful('single' );
- }
-
- function get_proxy_by_collect(){
-
- function get_proxy_by_collect(){
- 38 美元, $config; $params['url'] = trim($params['url']);
- if($params['url'] == '') {
- echo '請輸入url!';
- return;
- }
- //$url = 'http:// www.dn28.com/html/75/n-5175.html';
- $con = iconv('GBK', ' UTF-8', file_get_contents($params['url']));
- preg_match ('/
|