ホームページ >バックエンド開発 >PHPチュートリアル >CURL と正規表現を使用した PHP スパイダークローラー

CURL と正規表現を使用した PHP スパイダークローラー

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2016-07-25 09:08:531241ブラウズ

Fengwang fcms コンテンツ管理システム
get.php クロールフレームワーク、Web コンテンツを分析および処理し、関連する置換を実行します。
std.php 一般的な正規表現
news_67_com.php http://news.67.com のクローラーアナライザー
まずリストを取得し、次にコンテンツページを取得します。
また、監視、統計、エラー処理機能もありません。個人的にはそのほうが楽しいと思います。

include_once dirname(__FILE__) . '/std.php';
$site = array(
'aname' => '中国娱乐网',
'domain' => 'news.67.com',
'dirname' => '目录名称，用于匹配基于目录不同的正文',
'gettype' => 'default',
//获取主文件
'creg' => '/(?si)(.*?)\<\!--文章 end-->/',
'code' => 'utf-8',
'sub' => '获取子目录正则',
'content' => 'tag1',
'img_upload'=> array('tag1' => ''),
//下一页
'reg_next' => '/(?is)下一页\>\><\/a>/',

'key0' => '/(?is)/',

'key0_ap' => array(array(',', '|'), ' '),

'tag0' => '/(?is)

([^<^>]*?)<\/h1>/',

'', '', '', '', '', '',

.*?(.*?)<\/p>\s*/',

\s*/',

\s*/',

\s*/',

\s*/',

'/(?is)\s*<\/center>\s*/',

\s*/',

', '', '', '

', '

'tag1_arp' => array(

array(

'/(?is)

<\/p>/',

'/(?is)<\/strong>/'

),

array(

'', ''

),

),

'strip' => array('tag1' => ''),

'tag2' => '/(?is)
导读：\s*(.*?)\s*<\/div>/',

'tag2_arp' => array(

array(

'/(?is)　/'

),

array(

''

),

),

'tag3' => '/(?is)(中国娱乐网)/',

'tag4' => '/(?is)
日期：(\d+-\d+-\d+ \d+:\d+:\d+).*?<\/div>/',

);

$map = array(

'tag' => 'key0',

'title' => 'tag0',

'content' => 'tag1',

'summary' => 'tag2',

'source' => 'tag3',

'pub_date' => 'tag4',

);

$site_list = array(

'aname' => '中国娱乐网',

'domain' => 'www.67.com',

'gettype' => 'default',

'creg' => '/(?si)
(.*?)
/',

'code' => 'gbk',

'reg_next' => '/(?si)

下一页<\/a><\/li>/',

//链接

'tag0' => '/(?is)
.*?[^<^>]*?<\/a>.*?<\/div>/',

//标题

'tag1' => '/(?is)
.*?([^<^>]*?).*?
/',

'tag1_arp' => array(

array(

'/(?is)(组图)/',

'/(?is)(图)/',

'/(?is)(图../',

'/( ?is)(组图../',

'/(?is)./',

'/(?is)(《|》)/',

),

array(

'', '', '', '', '', '',

)

),

);

$list_map = array(

'url' => 'tag0',

'title' => 'tag1',

);

$site_list_sub = array();

复制代

global $std;
$std = array(
'url' => '[0-9a-zA-Z.:-/%_#;&]+',

' img' => '/(?is));

复制代

/**
* test.php
*
* @author xzfred

* @copyright 2009 fengone.com

* @created 2010-12-07 .

* @version $Id: php.php 3 2008 -10-10 07:49:21Z フレッド $

* SVNPath $HeadURL: http://192.168.0.16/svn/vim/skeletons/php.php $

*/

/*

include_once "std.php";

include_once "lady_163_com.php";

*/

include_once $GLOBALS['g_dir_core'] 。 "get.php";

//======================================== ========================================

include_once DIR_HOST_TAG 。 '/tuku_ent_china_com.php';

$obj = new FcHtmlParse($site);

$c = $obj->parse(file_get_contents("http://tuku.ent.china.com/fun/html/2011- 08-23/181703.xml"));

echo "nnn ==================n";

echo $c['field']['tag1' ][0];

echo "nnn ==================n";

var_dump($c);

exit();

//列表测试

$obj = new FcHtmlParse($site_list);

$c = $obj->parse(file_get_contents("http://tuku.ent.china.com/fun/html/3569_1.html"));

var_dump( $c);

exit();

/*

$obj = new FcHtmlGet($site);

$c = $obj->getPage('http://star.pclady.com.cn/entertainment/ ss/1106/703240.html');

var_dump($c);

$obj = new FcHtmlGet($site);

$c = $obj->getPage('http://star.pclady.com .cn/entertainment/ss/1106/703240.html');

var_dump($c);

$obj = 新しい FcHtmlParse($site);

$img_obj = 新しい FcHtmlImgUpload($site);

$data = file_get_contents("e:/b.html");

$c = $obj->parse($data);

$ic = $img_obj->upload($c['tag']['tag1'] [0]);

var_dump($ic);

$data = file_get_contents("e:/a.html");

$c = $obj->parse($data);

$ic = $img_obj ->upload($c['tag']['tag1'][0]);

var_dump($ic);

*/

//var_dump($c['tag']['tag1'] );

复制幣

include_once $GLOBALS['g_dir_core'] . 'host/std.php';
$site = array(
'aname' => '中华网娱乐图库',

'domain' => 'tuku.ent.china.com',

'dirname' => '目录名称，用于匹配基于目录不同的正文',

'gettype' => 'default',

//获取主文件

'creg' => '/(?si)(.*?<\/list>)/',

'code' => 'utf-8',

'sub' => '获取子目录正则',

'content' => 'tag1',

'img_upload'=> array('tag1' => ''),

//下一页

'reg_next' => '/(?is)下一页<\/a>/',

'key0' => '/(?is)/',

'key0_ap' => array(array(',', '|'), ' '),

'tag0' => '/(?is)title="([^"]*?)"/',

'tag0_arp' => array(

array(

'/(?is)$图$/',

'/(?is)\"/',

'/(?is)独家：/',

'/(?is)独家:/',

'/(?is)(《|》)/',

),

array(

'', '', '', '', '',

)

),

'tag1' => '/(?is)(.*?)<\/list>/',

'tag1_brp' => array(

array(

'/(?is)\s*\s*/'

),

array(

'

$1

$3
'

)

),

'tag1_arp' => array(

array(

'/(?is)
([^<^>]*?)<\/p>/',

'/(?is)\<br\/\>/',

),

array(

'
$1

',

'',

)

),

'strip' => array('tag1' => ''),

//网名

'tag3' => '/(?is)([^<^>]*?)<\/span>/',

'tag4' => '/(?is)(中华网)/'

);

$map = array(

'tag' => 'key0',

'title' => 'tag0',

'content' => 'tag1',

'author' => 'tag3',

'source' => 'tag4'

);

$site_list = array(

'aname' => '中华网娱乐图库',

'domain' => 'tuku.ent.china.com',

'gettype' => 'default',

'creg' => '/(?si)
(.*?)
<\/div>/',

'code' => 'utf-8',

'reg_next' => '/(?si)
下一页<\/a><\/li>/',

//链接

'tag0' => '/(?is)
.*?<\/span>[^<^>]*?<\/a><\/div>/',

'tag0_brp' => array(

array(

'/(?is)\.htm/',

),

array(

'.xml'

)

),

//标题

'tag1' => '/(?is)
.*?<\/span>([^<^>]*?)<\/a><\/div>/',

'tag1_arp' => array(

array(

'/(?is)$图$/',

'/(?is)\"/',

'/(?is)独家：/',

'/(?is)独家:/',

'/(?is)(《|》)/',

),

array(

'', '', '', '', '',

)

),

);

$list_map = array(

'url' => 'tag0',

'title' => 'tag1',

);

$site_list_sub = array();

复制代码

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：携帯電話番号の位置クエリ: PHP+MYSQL次の記事：携帯電話番号の位置クエリ: PHP+MYSQL

続きを見る

CURL と正規表現を使用した PHP スパイダー クローラー

([^<^>]*?)<\/h1>/',

関連記事

CURL と正規表現を使用した PHP スパイダークローラー