Heim > Artikel > Backend-Entwicklung > Reguläre PHP-Ausdrücke: So gleichen Sie den gesamten JavaScript-Code in HTML ab
In der Webentwicklung wird häufig JavaScript verwendet, um einige Funktionen zu implementieren. In HTML-Seiten werden JavaScript-Codeausschnitte normalerweise in 3f1c4e4b6b16bbbd69b2ee476dc4f83a
-Tags eingebettet, aber manchmal werden Skriptausschnitte nicht in Standard-3f1c4e4b6b16bbbd69b2ee476dc4f83a
-Tags platziert, sondern sind im enthalten Attribute anderer HTML-Elemente wie onclick
, onload
usw. 3f1c4e4b6b16bbbd69b2ee476dc4f83a
标记中,但有时脚本片段并没有放在标准的 3f1c4e4b6b16bbbd69b2ee476dc4f83a
标记中,而是存在于其他 HTML 元素的属性中,如 onclick
、onload
等。
如果我们想要找到 HTML 页面中所有的 JavaScript 代码段,我们可以使用 PHP 的正则表达式来匹配。
正则表达式(regular expression)是用来描述字符串模式的一种语法规则。在 PHP 中,使用 /
符号将正则表达式包裹起来,如 /pattern/
,其中 pattern
表示所要匹配的模式。
常用的正则表达式元字符包括:
.
:匹配任何单个字符*
:匹配前一个字符的零个或多个实例+
:匹配前一个字符的一个或多个实例?
:匹配前一个字符的一个或零个实例|
:选择匹配字符串中的其中一项d
:匹配数字w
:匹配字母、数字、下划线s
:匹配空格符、制表符、换行符等空白字符首先,我们可以使用 preg_match_all
函数来匹配 HTML 页面中所有的 3f1c4e4b6b16bbbd69b2ee476dc4f83a
标记:
$html = file_get_contents('example.html'); // 获取 HTML 文件内容 $pattern = "/<script(.*?)>(.*?)</script>/is"; // 匹配 script 标记的正则表达式 preg_match_all($pattern, $html, $matches); // 执行匹配
上述代码中,我们使用 file_get_contents
函数获取一个 HTML 文件的内容,然后使用正则表达式 /f4fd8c3eec17f88bd2bc2649b35d067f(.*?)2cacc6d41bbb37262a98f745aa00fbf0/is
匹配 HTML 页面中所有 3f1c4e4b6b16bbbd69b2ee476dc4f83a
标记的内容,并将匹配的结果存储在 $matches
数组中。
然而,这样只是获取了包含在 3f1c4e4b6b16bbbd69b2ee476dc4f83a
标记中的 JavaScript 代码,而不包括其它属性中的代码。
首先,我们需要知道包含 JavaScript 代码的属性名称。例如,点击事件的 JavaScript 代码可能存在于 onclick
属性中,其他事件的 JavaScript 代码可能存在于 onload
、onsubmit
、onchange
等属性中。
我们可以使用 PHP 内置的 get_meta_tags
函数获取 HTML 页面的所有元标记,并分析其属性,找出包含 JavaScript 代码的属性名称:
$html = file_get_contents('example.html'); // 获取 HTML 文件内容 $meta_tags = get_meta_tags('data://text/html;base64,' . base64_encode($html)); // 获取元标记信息 $pattern = "/on[a-z]+=['"](.*?)['"]/i"; // 匹配属性中的 JavaScript 代码的正则表达式 $matches = array(); // 存储匹配结果 foreach($meta_tags as $tag=>$value) { // 遍历元标记 if(preg_match_all($pattern, $value, $submatches)) { // 匹配属性中的 JavaScript 代码 $matches = array_merge($matches, $submatches[1]); // 合并匹配结果 } }
上述代码中,我们使用 get_meta_tags
函数获取 HTML 页面的元标记。然后,我们使用正则表达式 "/on[a-z]+=['"](.*?)['"]/i"
匹配所有属性名以 on
开头的属性,其中包含 JavaScript 代码。最后,我们使用 preg_match_all
函数将匹配的结果存储在 $matches
数组中。
通过上述两个步骤,我们已经成功地找到了 HTML 页面中所有的 JavaScript 代码。现在,我们需要将这些代码片段合并为一个字符串,并可以方便地处理。
$html = file_get_contents('example.html'); // 获取 HTML 文件内容 $script_pattern = "/<script(.*?)>(.*?)</script>/is"; $attr_pattern = "/on[a-z]+=['"](.*?)['"]/i"; preg_match_all($script_pattern, $html, $script_matches); // 匹配 script 标记中的代码 $attr_matches = array(); // 存储属性中的代码 $meta_tags = get_meta_tags('data://text/html;base64,' . base64_encode($html)); // 获取元标记 foreach($meta_tags as $tag=>$value) { // 遍历元标记 if(preg_match_all($attr_pattern, $value, $submatches)) { // 匹配属性中的代码 $attr_matches = array_merge($attr_matches, $submatches[1]); } } $all_script = implode(" ", array_merge($script_matches[2], $attr_matches)); // 合并所有代码为一个字符串
上述代码中,我们使用 implode
函数将 $script_matches[2]
和 $attr_matches
/
-Symbole, um reguläre Ausdrücke zu umschließen, wie z. B. /pattern/
, wobei pattern
das abzugleichende Muster darstellt. 🎜🎜Zu den häufig verwendeten Metazeichen für reguläre Ausdrücke gehören: 🎜.
: Entspricht jedem einzelnen Zeichen. *
: Entspricht dem vorherigen Null oder mehrere Instanzen eines Zeichens+
: Entspricht einer oder mehreren Instanzen des vorherigen Zeichens?
: Entspricht einer oder Nullinstanzen des vorherigen Zeichens|
: Wählt eines der Elemente in der passenden Zeichenfolge ausd
: Übereinstimmungszahlenw
: Übereinstimmung mit Buchstaben, Zahlen und Unterstrichens
: Übereinstimmung mit Leerzeichen, Tabulatoren und Zeilenumbrüchen preg_match_all
verwenden, um den gesamten 3f1c4e4b6b16bbbd69b2ee476dc4f83a
abzugleichen Tag: 🎜rrreee🎜Im obigen Code verwenden wir die Funktion file_get_contents
, um den Inhalt einer HTML-Datei abzurufen, und verwenden dann den regulären Ausdruck /<script(. *?)> ;(.*?)2cacc6d41bbb37262a98f745aa00fbf0/is
gleicht den Inhalt aller 3f1c4e4b6b16bbbd69b2ee476dc4f83a
-Tags in der HTML-Seite ab und speichert die übereinstimmenden Ergebnisse in $matches Array. 🎜🎜Dadurch wird jedoch nur der im <code>3f1c4e4b6b16bbbd69b2ee476dc4f83a
-Tag enthaltene JavaScript-Code abgerufen, nicht der Code in anderen Attributen. 🎜onclick
vorhanden sein, und der JavaScript-Code für andere Ereignisse kann in onload
, onsubmit
vorhanden sein >, onchange
und andere Attribute. 🎜🎜Wir können die in PHP integrierte Funktion get_meta_tags
verwenden, um alle Meta-Tags der HTML-Seite abzurufen und ihre Attribute zu analysieren, um die Attributnamen herauszufinden, die JavaScript-Code enthalten: 🎜rrreee🎜Im obigen Code Wir verwenden get_meta_tags
ruft die Meta-Tags einer HTML-Seite ab. Dann verwenden wir den regulären Ausdruck "/on[a-z]+=['"](.*?)['"]/i"
, um alle Attributnamen mit on abzugleichen. Code > Attribute, die JavaScript-Code enthalten. Schließlich verwenden wir die Funktion <code>preg_match_all
, um die übereinstimmenden Ergebnisse im Array $matches
zu speichern. 🎜implode
, um alle JavaScript-Codeausschnitte in $script_matches[2]
und $attr_matches
zusammenzuführen in einen String umwandeln, wobei die einzelnen Codefragmente mithilfe von Zeilenumbrüchen für die weitere Verarbeitung getrennt werden. 🎜
Das obige ist der detaillierte Inhalt vonReguläre PHP-Ausdrücke: So gleichen Sie den gesamten JavaScript-Code in HTML ab. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!