這篇文章主要介紹了在laravel中使用Symfony的Crawler元件分析HTML,需要的朋友可以參考下
Crawler全名是DomCrawler,是Symfony框架的元件。令人髮指的是DomCrawler的沒有中文文檔,Symfony也沒有翻譯該部分,所以使用DomCrawler開發只能一點一點摸索,現將使用過程中的經驗總結。
首先是安裝
composer require symfony/dom-crawler composer require symfony/css-selector
css-seelctor 是css選擇器,用css選擇節點時有些函式會用到
手冊裡面使用的例子是
use Symfony\Component\DomCrawler\Crawler; $html = <<<‘HTML‘ Hello World! Hello Crawler! HTML; $crawler = new Crawler($html); foreach ($crawler as $domElement) { var_dump($domElement->nodeName); }
列印的結果是
string ‘html‘ (length=4)
因為這段html程式碼的nodeName就是html,英文不好,開始使用的時候還以為程式錯了。 。 。
實際使用過程,如果new Crawler($html)會出現亂碼問題,應該是跟頁面編碼有關,所以可以採用下面的方式,先初始化crawler,然後再加入node
$crawler = new Crawler(); $crawler->addHtmlContent($html);
addHtmlContent的第二個參數是charset,預設是utf-8。
其他範例可以參考官方文檔,http://symfony.com/doc/current/components/dom_crawler.html
記錄工作中一點點試出來的用法
filterXPath(string $xpath) 方法,依照手冊上的說法,該方法的參數是$xpath,常用的是p,p等塊。
echo $crawler->filterXPath(‘//body/p‘)->text(); echo $crawler->filterXPath(‘//body/p‘)->last()->text();
輸出是第一個和下一個p標籤區塊的文字
var_dump($crawler->filterXPath(‘//body‘)->html());
輸出body內的html
foreach ($crawler->filterXPath(‘//body/p‘) as $i => $node) { $c = new Crawler($node); echo $c->filter(‘p‘)->text(); }
filterXPath獲得的是DOMElement區塊的數組,每個DOMElement區塊可以使用新的crawler物件繼續解析
$nodeValues = $crawler->filterXPath(‘//body/p‘)->each(function (Crawler $node, $i) { return $node->text(); });
crawler提供了each循環,使用閉包函數簡化程式碼,不過注意的是,這種寫法$nodeValues得到的是數組,需要進一步處理。
其他用法
echo $crawler->filterXPath(‘//body/p‘)->attr(‘class‘);
可以取得第一個p標籤對應class屬性的值「message ”
$crawler->filterXPath(‘//p[@class="样式"]‘)->filter(‘a‘)->attr(‘href‘); $crawler->filterXPath(‘//p[@class="样式"]‘)->filter(‘a>img‘)->extract(array(‘alt‘, ‘href‘))
以上是獲得標籤屬性的一些方法
filter和filterXPath不同,手冊上寫的是css選擇器,不太明白,我理解是p這種XPath節點包含的元素,具體情況還需要在實際開發中嘗試。
總的來說感覺DomCrawler要比simple html dom好用一些,可能是我用的比較淺顯。
上述只是Crawler的基本功能,更過用法請查閱symfony手冊關於Crawler部分的函數
http://api.symfony.com/3.2/Symfony/Component/DomCrawler/Crawler .html
Crawler主要問題還是範例太少,函數手冊裡面沒有使用實例,只能在實際使用中去摸索。 。 。 。
symfony關於DomCrawler的文檔,裡面有少數例子
http://symfony.com/doc/current/components/dom_crawler.html
以上是在laravel使用Crawler元件對HTML進行分析的詳細內容。更多資訊請關注PHP中文網其他相關文章!

使用數據庫存儲會話的主要優勢包括持久性、可擴展性和安全性。 1.持久性:即使服務器重啟,會話數據也能保持不變。 2.可擴展性:適用於分佈式系統,確保會話數據在多服務器間同步。 3.安全性:數據庫提供加密存儲,保護敏感信息。

在PHP中實現自定義會話處理可以通過實現SessionHandlerInterface接口來完成。具體步驟包括:1)創建實現SessionHandlerInterface的類,如CustomSessionHandler;2)重寫接口中的方法(如open,close,read,write,destroy,gc)來定義會話數據的生命週期和存儲方式;3)在PHP腳本中註冊自定義會話處理器並啟動會話。這樣可以將數據存儲在MySQL、Redis等介質中,提升性能、安全性和可擴展性。

SessionID是網絡應用程序中用來跟踪用戶會話狀態的機制。 1.它是一個隨機生成的字符串,用於在用戶與服務器之間的多次交互中保持用戶的身份信息。 2.服務器生成並通過cookie或URL參數發送給客戶端,幫助在用戶的多次請求中識別和關聯這些請求。 3.生成通常使用隨機算法保證唯一性和不可預測性。 4.在實際開發中,可以使用內存數據庫如Redis來存儲session數據,提升性能和安全性。

在無狀態環境如API中管理會話可以通過使用JWT或cookies來實現。 1.JWT適合無狀態和可擴展性,但大數據時體積大。 2.Cookies更傳統且易實現,但需謹慎配置以確保安全性。

要保護應用免受與會話相關的XSS攻擊,需採取以下措施:1.設置HttpOnly和Secure標誌保護會話cookie。 2.對所有用戶輸入進行輸出編碼。 3.實施內容安全策略(CSP)限制腳本來源。通過這些策略,可以有效防護會話相關的XSS攻擊,確保用戶數據安全。

优化PHP会话性能的方法包括:1.延迟会话启动,2.使用数据库存储会话,3.压缩会话数据,4.管理会话生命周期,5.实现会话共享。这些策略能显著提升应用在高并发环境下的效率。

theSession.gc_maxlifetimesettinginphpdeterminesthelifespanofsessiondata,setInSeconds.1)它'sconfiguredinphp.iniorviaini_set().2)abalanceisesneededeededeedeedeededto toavoidperformance andunununununexpectedLogOgouts.3)

在PHP中,可以使用session_name()函數配置會話名稱。具體步驟如下:1.使用session_name()函數設置會話名稱,例如session_name("my_session")。 2.在設置會話名稱後,調用session_start()啟動會話。配置會話名稱可以避免多應用間的會話數據衝突,並增強安全性,但需注意會話名稱的唯一性、安全性、長度和設置時機。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載
最受歡迎的的開源編輯器

禪工作室 13.0.1
強大的PHP整合開發環境