検索

ホームページ  >  に質問  >  本文

Beautiful Soup を使用して HTML テーブルから特定の JavaScript リンクと日付を抽出する

美しいスープと FindALL メソッドを使用して HTML ドキュメントを解析しようとしていますが、必要な情報を分離できないようです。おそらく私がジュニア開発者であるため、ドキュメントといくつかのチュートリアルを見ましたが、番号とリンクを分離できないようです。

これは、基本情報を含むダミーの HTML テーブルです:

リーリー

プログラムを実行するときは、各行 (行) ごとに次の内容を抽出する必要があります。 日付 (ただし、YYMMDD、つまり 641110 に並べ替えられています) と、「LINK GOES HERE」という文字列 (ただし、有効なリンクにするには、別の文字列と連結する必要があります)

ここにリンクがあるとか、文字化けしているなどの追加情報は必要ありません (例: Hjkhjksgd)

編集: 正しい信頼性で Web の場所にログインできる必要もあります (パスワードとユーザー名を持っています)

私のコードが十分に明瞭で、変数などを理解するのに役立つプリントアウトがあることを願っています。他の方法にもオープンですが、美しいパンダやセレンについては理解できないようです... これまでのところ、私はこれを持っています:

リーリー

テーブルから文字列を取り出そうとしましたが、int のようには見えず、文字列が非常に混乱しています。文字列がごちゃごちゃしているため、希望するものと比較することはできません。 td タグが複数あるため、 td で分離できません。

同様のことを行おうとしている人のために、ここにプレースホルダを含む単純な英語のコードを示します。このため、そのままではコンパイルできません... 答えの助けに感謝します! ! !

ああああ

P粉436410586P粉436410586242日前340

全員に返信(1)返信します

  • P粉604848588

    P粉6048485882024-03-30 11:42:22

    私はあなたのニーズを達成するために datetime モジュールと re モジュールを使用しました。お役に立てば幸いです。コードは次のとおりです:

    リーリー

    返事
    0
  • キャンセル返事