Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Ungkapan Biasa PHP: Bagaimana untuk memadankan semua kod JavaScript dalam HTML

Ungkapan Biasa PHP: Bagaimana untuk memadankan semua kod JavaScript dalam HTML

WBOY
WBOYasal
2023-06-22 18:31:061772semak imbas

Dalam pembangunan web, JavaScript sering digunakan untuk melaksanakan beberapa fungsi. Dalam halaman HTML, coretan kod JavaScript biasanya dibenamkan dalam teg 3f1c4e4b6b16bbbd69b2ee476dc4f83a, tetapi kadangkala coretan skrip tidak diletakkan dalam teg 3f1c4e4b6b16bbbd69b2ee476dc4f83a standard, tetapi wujud dalam atribut elemen HTML lain, seperti onclick , onload dsb.

Jika kami ingin mencari semua coretan kod JavaScript dalam halaman HTML, kami boleh menggunakan ungkapan biasa PHP untuk dipadankan.

Asas ungkapan biasa

Ungkapan biasa (ungkapan biasa) ialah peraturan tatabahasa yang digunakan untuk menerangkan corak rentetan. Dalam PHP, gunakan simbol / untuk membalut ungkapan biasa, seperti /pattern/, dengan pattern mewakili corak yang akan dipadankan.

Karakter meta ungkapan biasa yang biasa digunakan termasuk:

  • .: sepadan dengan mana-mana aksara tunggal
  • *: sepadan dengan sifar atau aksara sebelumnya Berbilang kejadian
  • +: Padankan satu atau lebih kejadian aksara sebelumnya
  • ?: Padankan satu atau sifar kejadian aksara sebelumnya
  • |: Pilih salah satu daripada rentetan sepadan
  • d: Padankan nombor
  • w: Padankan huruf, nombor, garis bawah
  • s: Padankan aksara ruang putih seperti ruang, tab, baris baharu , dsb.

Padankan kod JavaScript dalam teg skrip

Pertama, kita boleh menggunakan fungsi preg_match_all untuk memadankan semua aksara dalam halaman HTML 3f1c4e4b6b16bbbd69b2ee476dc4f83a tag:

$html = file_get_contents('example.html'); // 获取 HTML 文件内容
$pattern = "/<script(.*?)>(.*?)</script>/is"; // 匹配 script 标记的正则表达式
preg_match_all($pattern, $html, $matches); // 执行匹配

Dalam kod di atas, kami menggunakan fungsi file_get_contents untuk mendapatkan kandungan fail HTML, dan kemudian menggunakan ungkapan biasa /f4fd8c3eec17f88bd2bc2649b35d067f(.*?)2cacc6d41bbb37262a98f745aa00fbf0/is untuk memadankan kandungan semua 3f1c4e4b6b16bbbd69b2ee476dc4f83a teg dalam halaman HTML , Dan simpan hasil yang sepadan dalam tatasusunan $matches.

Walau bagaimanapun, ini hanya mendapat kod JavaScript yang terkandung dalam teg 3f1c4e4b6b16bbbd69b2ee476dc4f83a, bukan kod dalam atribut lain.

Memadankan kod JavaScript dalam atribut

Mula-mula, kita perlu mengetahui nama atribut yang mengandungi kod JavaScript. Contohnya, kod JavaScript untuk acara klik mungkin berada dalam atribut onclick dan kod JavaScript untuk acara lain mungkin berada dalam onload, onsubmit, onchange dan sebagainya.

Kita boleh menggunakan fungsi get_meta_tags terbina dalam PHP untuk mendapatkan semua teg meta halaman HTML dan menganalisis atributnya untuk mengetahui nama atribut yang mengandungi kod JavaScript:

$html = file_get_contents('example.html'); // 获取 HTML 文件内容
$meta_tags = get_meta_tags('data://text/html;base64,' . base64_encode($html)); // 获取元标记信息
$pattern = "/on[a-z]+=['"](.*?)['"]/i"; // 匹配属性中的 JavaScript 代码的正则表达式
$matches = array(); // 存储匹配结果
foreach($meta_tags as $tag=>$value) { // 遍历元标记
    if(preg_match_all($pattern, $value, $submatches)) { // 匹配属性中的 JavaScript 代码
        $matches = array_merge($matches, $submatches[1]); // 合并匹配结果
    }
}

Dalam kod di atas, kami Gunakan fungsi get_meta_tags untuk mendapatkan teg meta halaman HTML. Kami kemudian menggunakan ungkapan biasa "/on[a-z]+=['"](.*?)['"]/i" untuk memadankan semua sifat yang namanya bermula dengan on dan yang mengandungi kod JavaScript. Akhir sekali, kami menggunakan fungsi preg_match_all untuk menyimpan hasil yang sepadan dalam tatasusunan $matches.

Gabungkan semua kod JavaScript

Melalui dua langkah di atas, kami telah berjaya menemui semua kod JavaScript dalam halaman HTML. Sekarang, kita perlu menggabungkan coretan kod ini menjadi rentetan yang boleh diproses dengan mudah.

$html = file_get_contents('example.html'); // 获取 HTML 文件内容
$script_pattern = "/<script(.*?)>(.*?)</script>/is";
$attr_pattern = "/on[a-z]+=['"](.*?)['"]/i";

preg_match_all($script_pattern, $html, $script_matches); // 匹配 script 标记中的代码
$attr_matches = array(); // 存储属性中的代码
$meta_tags = get_meta_tags('data://text/html;base64,' . base64_encode($html)); // 获取元标记
foreach($meta_tags as $tag=>$value) { // 遍历元标记
    if(preg_match_all($attr_pattern, $value, $submatches)) { // 匹配属性中的代码
        $attr_matches = array_merge($attr_matches, $submatches[1]);
    }
}

$all_script = implode("
", array_merge($script_matches[2], $attr_matches)); // 合并所有代码为一个字符串

Dalam kod di atas, kami menggunakan fungsi implode untuk menggabungkan semua coretan kod JavaScript dalam $script_matches[2] dan $attr_matches ke dalam rentetan, menggunakan baris baharu untuk memisahkan setiap coretan kod untuk pemprosesan selanjutnya.

Atas ialah kandungan terperinci Ungkapan Biasa PHP: Bagaimana untuk memadankan semua kod JavaScript dalam HTML. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn