検索

ホームページ  >  に質問  >  本文

Python - Web ページのタイトルに改行が含まれていますが、正規表現を使用して改行を抽出するにはどうすればよいですか?

Python を使用して CSDN Web クローラーを実行する場合、Web ページのタイトルをクロールするときは、常に正規表現 (?<=\<title\>) を使用します。 ?(?=\< ; ) は CSDN では使用できません。CSDN ソース コードに移動し、タイトルが改行されて

と表示されていることを確認してください。

その結果、本来の正規表現が使えなくなりました そこで疑問が生じます このようなWebページのタイトルに改行が含まれているのですが 正規表現で抽出するにはどうすればよいでしょうか?

追記:

  1. xpath メソッドや beautifulsoup メソッドは使用したくありません。必要なのは正規表現だけです。

  2. CSDN 自体にはクローラー対策の仕組みがあり、タイトルをクロールできなかったのはこのクローラー対策のせいではありません

###皆さん、ありがとうございました###

@caimaoy さんの方法を参考に、正規表現を

(?<=\<title\>)(?:.|\n) ?(?=\<)## に変更しました。 #、タイトルは完璧に抽出されています。

皆様、改めてありがとうございました。

女神的闺蜜爱上我女神的闺蜜爱上我2740日前1008

全員に返信(2)返信します

  • 仅有的幸福

    仅有的幸福2017-06-22 11:53:43

    1. re.M 複数行モード

    2. 複数行のマッチングを自分で書く http://python3-cookbook.readt...

    返事
    0
  • 曾经蜡笔没有小新

    曾经蜡笔没有小新2017-06-22 11:53:43

    式にflagを追加します

    リーリー

    返事
    0
  • キャンセル返事