Rumah  >  Soal Jawab  >  teks badan

Python - Tajuk halaman web mengandungi baris baharu Bagaimana untuk mengekstraknya menggunakan ungkapan biasa?

Saya menggunakan python untuk melakukan perangkak web CSDN Apabila merangkak tajuk halaman web, ungkapan biasa yang saya gunakan (?<=<title>).+?(?=<) tidak lagi boleh digunakan dalam CSDN Apabila saya melihat kod sumber CSDN, tajuk dipaparkan dalam baris baharu

Jadi ungkapan biasa asal tidak boleh digunakan Jadi, di sini muncul soalan Tajuk halaman web seperti ini mengandungi pemisah baris.

PS:

  1. Saya tidak mahu menggunakan xpath atau beautifulsoup, saya hanya perlukan ungkapan biasa

  2. CSDN sendiri mempunyai mekanisme anti-crawler. Bukan kerana anti-crawler ini saya tidak dapat merangkak tajuknya

  3. .

Terima kasih semua

Mengikut kaedah @caimaoy, saya menukar ungkapan biasa kepada (?<=<title>)(?:.|n)+?(?=<) dan tajuk diekstrak dengan sempurna.
Terima kasih semua sekali lagi.

女神的闺蜜爱上我女神的闺蜜爱上我2699 hari yang lalu971

membalas semua(2)saya akan balas

  • 仅有的幸福

    仅有的幸福2017-06-22 11:53:43

    1. re.M Mod berbilang talian

    2. Tulis padanan berbilang baris sendiri http://python3-cookbook.readt...

    balas
    0
  • 曾经蜡笔没有小新

    曾经蜡笔没有小新2017-06-22 11:53:43

    Tambahkan flag pada ungkapan

    tite = '......'
    print(re.findall('(?<=\<title\>).+?(?=\<)', title, re.S))

    balas
    0
  • Batalbalas