本文实例讲述了PHP抓取及分析网页的方法。分享给大家供大家参考,具体如下:
抓取和分析一个文件是非常简单的事。这个教程将通过一个例子带领你一步一步地去实现它。让我们开始吧!
首先,我首必须决定我们将抓取的URL地址。可以通过在脚本中设定或通过$QUERY_STRING传递。为了简单起见,让我们将变量直接设在脚本中。
<?php $url = 'http://www.php.net'; ?>
第二步,我们抓取指定文件,并且通过file()函数将它存在一个数组里。
<?php $url = 'http://www.php.net'; $lines_array = file($url); ?>
好了,现在在数组里已经有了文件了。但是,我们想分析的文本可能不全在一行里面。为了解决这个文件,我们可以简单地将数组$lines_array转化成一个字符串。我们可以使用implode(x,y)函数来实现它。如果在后面你想用explode(将字符串变量数组),将x设成"|"或"!"或其它类似的分隔符可能会更好。但是出于我们的目的,最好将x设成空格。y是另一个必要的参数,因为它是你想用implode()处理的数组。
<?php $url = 'http://www.php.net'; $lines_array = file($url); $lines_string = implode('', $lines_array); ?>
现在,抓取工作就做完了,下面该进行分析了。出于这个例子的目的,我们想得到在
到之间的所有东西。为了分析出字符串,我们还需要叫做正规表达式的东西。
<?php $url = 'http://www.php.net'; $lines_array = file($url); $lines_string = implode('', $lines_array); eregi("<head>(.*)</head>", $lines_string, $head); ?>
让我们看一下代码。正如你所见,eregi()函数按下面的格式执行:
eregi("<head>(.*)</head>", $lines_string, $head);
"(.*)"表示所有东西,可以解释为,"分析在
和间的所以东西"。$lines_string是我们正在分析的字符串,$head是分析后的结果存放的数组。最后,我们可以输数据。因为仅在
和间存在一个实例,我们可以安全的假设数组中仅存在着一个元素,而且就是我们想要的。让我们把它打印出来吧。
<?php $url = 'http://www.php.net'; $lines_array = file($url); $lines_string = implode('', $lines_array); eregi("<head>(.*)</head>", $lines_string, $head); echo $head[0]; ?>
这就是全部的代码了。
<?php //获取所有内容url保存到文件 function get_index ( $save_file , $prefix = "index_" ){ $count = 68 ; $i = 1 ; if ( file_exists ( $save_file )) @ unlink ( $save_file ); $fp = fopen ( $save_file , "a+" ) or die( "Open " . $save_file . " failed" ); while( $i < $count ){ $url = $prefix . $i . ".htm" ; echo "Get " . $url . "..." ; $url_str = get_content_url ( get_url ( $url )); echo " OK/n" ; fwrite ( $fp , $url_str ); ++ $i ; } fclose ( $fp ); } //获取目标多媒体对象 function get_object ( $url_file , $save_file , $split = "|--:**:--|" ){ if (! file_exists ( $url_file )) die( $url_file . " not exist" ); $file_arr = file ( $url_file ); if (! is_array ( $file_arr ) || empty( $file_arr )) die( $url_file . " not content" ); $url_arr = array_unique ( $file_arr ); if ( file_exists ( $save_file )) @ unlink ( $save_file ); $fp = fopen ( $save_file , "a+" ) or die( "Open save file " . $save_file . " failed" ); foreach( $url_arr as $url ){ if (empty( $url )) continue; echo "Get " . $url . "..." ; $html_str = get_url ( $url ); echo $html_str ; echo $url ; exit; $obj_str = get_content_object ( $html_str ); echo " OK/n" ; fwrite ( $fp , $obj_str ); } fclose ( $fp ); } //遍历目录获取文件内容 function get_dir ( $save_file , $dir ){ $dp = opendir ( $dir ); if ( file_exists ( $save_file )) @ unlink ( $save_file ); $fp = fopen ( $save_file , "a+" ) or die( "Open save file " . $save_file . " failed" ); while(( $file = readdir ( $dp )) != false ){ if ( $file != "." && $file != ".." ){ echo "Read file " . $file . "..." ; $file_content = file_get_contents ( $dir . $file ); $obj_str = get_content_object ( $file_content ); echo " OK/n" ; fwrite ( $fp , $obj_str ); } } fclose ( $fp ); } //获取指定url内容 function get_url ( $url ){ $reg = '/^http:////[^//].+$/' ; if (! preg_match ( $reg , $url )) die( $url . " invalid" ); $fp = fopen ( $url , "r" ) or die( "Open url: " . $url . " failed." ); while( $fc = fread ( $fp , 8192 )){ $content .= $fc ; } fclose ( $fp ); if (empty( $content )){ die( "Get url: " . $url . " content failed." ); } return $content ; } //使用socket获取指定网页 function get_content_by_socket ( $url , $host ){ $fp = fsockopen ( $host , 80 ) or die( "Open " . $url . " failed" ); $header = "GET /" . $url . " HTTP/1.1/r/n" ; $header .= "Accept: */*/r/n" ; $header .= "Accept-Language: zh-cn/r/n" ; $header .= "Accept-Encoding: gzip, deflate/r/n" ; $header .= "User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; InfoPath.1; .NET CLR 2.0.50727)/r/n" ; $header .= "Host: " . $host . "/r/n" ; $header .= "Connection: Keep-Alive/r/n" ; //$header .= "Cookie: cnzz02=2; rtime=1; ltime=1148456424859; cnzz_eid=56601755-/r/n/r/n"; $header .= "Connection: Close/r/n/r/n" ; fwrite ( $fp , $header ); while (! feof ( $fp )) { $contents .= fgets ( $fp , 8192 ); } fclose ( $fp ); return $contents ; } //获取指定内容里的url function get_content_url ( $host_url , $file_contents ){ //$reg = '/^(#|<a href="http://lib.csdn.net/base/18" class='replace_word' title="JavaScript知识库" target='_blank' style='color:#df3434; font-weight:bold;'>JavaScript</a>.*?|ftp:////.+|http:////.+|.*?href.*?|play.*?|index.*?|.*?asp)+$/i'; //$reg = '/^(down.*?/.html|/d+_/d+/.htm.*?)$/i'; $rex = "/([hH][rR][eE][Ff])/s*=/s*['/"]*([^>'/"/s]+)[/"'>]*/s*/i" ; $reg = '/^(down.*?/.html)$/i' ; preg_match_all ( $rex , $file_contents , $r ); $result = "" ; //array(); foreach( $r as $c ){ if ( is_array ( $c )){ foreach( $c as $d ){ if ( preg_match ( $reg , $d )){ $result .= $host_url . $d . "/n" ; } } } } return $result ; } //获取指定内容中的多媒体文件 function get_content_object ( $str , $split = "|--:**:--|" ){ $regx = "/href/s*=/s*['/"]*([^>'/"/s]+)[/"'>]*/s*(.*?<//b>)/i" ; preg_match_all ( $regx , $str , $result ); if ( count ( $result ) == 3 ){ $result [ 2 ] = str_replace ( "多媒体: " , "" , $result [ 2 ]); $result [ 2 ] = str_replace ( " " , "" , $result [ 2 ]); $result = $result [ 1 ][ 0 ] . $split . $result [ 2 ][ 0 ] . "/n" ; } return $result ; } ?>
更多关于PHP相关内容感兴趣的读者可查看本站专题:《php正则表达式用法总结》、《PHP+ajax技巧与应用小结》、《PHP运算与运算符用法总结》、《PHP网络编程技巧总结》、《PHP基本语法入门教程》、《php操作office文档技巧总结(包括word,excel,access,ppt)》、《php日期与时间用法总结》、《php面向对象程序设计入门教程》、《php字符串(string)用法总结》、《php+mysql数据库操作入门教程》及《php常见数据库操作技巧汇总》
希望本文所述对大家PHP程序设计有所帮助。

要保護應用免受與會話相關的XSS攻擊,需採取以下措施:1.設置HttpOnly和Secure標誌保護會話cookie。 2.對所有用戶輸入進行輸出編碼。 3.實施內容安全策略(CSP)限制腳本來源。通過這些策略,可以有效防護會話相關的XSS攻擊,確保用戶數據安全。

优化PHP会话性能的方法包括:1.延迟会话启动,2.使用数据库存储会话,3.压缩会话数据,4.管理会话生命周期,5.实现会话共享。这些策略能显著提升应用在高并发环境下的效率。

theSession.gc_maxlifetimesettinginphpdeterminesthelifespanofsessiondata,setInSeconds.1)它'sconfiguredinphp.iniorviaini_set().2)abalanceisesneededeededeedeedeededto toavoidperformance andunununununexpectedLogOgouts.3)

在PHP中,可以使用session_name()函數配置會話名稱。具體步驟如下:1.使用session_name()函數設置會話名稱,例如session_name("my_session")。 2.在設置會話名稱後,調用session_start()啟動會話。配置會話名稱可以避免多應用間的會話數據衝突,並增強安全性,但需注意會話名稱的唯一性、安全性、長度和設置時機。

會話ID應在登錄時、敏感操作前和每30分鐘定期重新生成。 1.登錄時重新生成會話ID可防會話固定攻擊。 2.敏感操作前重新生成提高安全性。 3.定期重新生成降低長期利用風險,但需權衡用戶體驗。

在PHP中設置會話cookie參數可以通過session_set_cookie_params()函數實現。 1)使用該函數設置參數,如過期時間、路徑、域名、安全標誌等;2)調用session_start()使參數生效;3)根據需求動態調整參數,如用戶登錄狀態;4)注意設置secure和httponly標誌以提升安全性。

在PHP中使用會話的主要目的是維護用戶在不同頁面之間的狀態。 1)會話通過session_start()函數啟動,創建唯一會話ID並存儲在用戶cookie中。 2)會話數據保存在服務器上,允許在不同請求間傳遞數據,如登錄狀態和購物車內容。

如何在子域名間共享會話?通過設置通用域名的會話cookie實現。 1.在服務器端設置會話cookie的域為.example.com。 2.選擇合適的會話存儲方式,如內存、數據庫或分佈式緩存。 3.通過cookie傳遞會話ID,服務器根據ID檢索和更新會話數據。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3漢化版
中文版,非常好用

Dreamweaver CS6
視覺化網頁開發工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!