>  Q&A  >  본문

Beautiful Soup을 사용하여 HTML 테이블에서 특정 JavaScript 링크와 날짜를 추출합니다.

아름다운 수프와 FindALL 메서드를 사용하여 HTML 문서를 구문 분석하려고 하는데 필요한 정보를 분리할 수 없는 것 같습니다. 제가 주니어 개발자이기 때문에 문서와 일부 튜토리얼을 살펴봤지만 숫자와 링크를 분리할 수는 없는 것 같습니다.

이것은 기본 정보가 포함된 더미 HTML 테이블입니다:

으아아아

프로그램을 실행할 때 각 줄(예: 행)에 대해 다음을 추출해야 합니다. 날짜(그러나 YYMMDD, 즉 641110으로 재정렬됨) 및 "LINK GOES HERE"라는 문자열(그러나 유효한 링크로 만들려면 다른 문자열과 연결해야 함)

링크가 여기에 있거나 잘못된 텍스트(예: Hjkhjksgd)와 같은 추가 정보는 필요하지 않습니다.

편집: 또한 올바른 신뢰성으로 웹 위치에 로그인할 수 있어야 합니다(비밀번호와 사용자 이름이 있습니다)

제 코드가 충분히 명확하고 변수 등을 이해하는 데 도움이 되는 인쇄물이 있기를 바랍니다. 나는 또한 다른 방법에도 열려 있어 아름다운 판다나 셀레늄을 알아낼 수 없는 것 같습니다... 지금까지 나는 이것을 얻었습니다:

으아아아

테이블에서 문자열을 꺼내려고 했는데 int처럼 보이지 않고 문자열이 매우 엉망입니다. 문자열이 엉망이어서 내가 원하는 것과 비교할 수 없습니다. td 태그가 여러 개 있으므로 td 로 분리할 수 없습니다.

비슷한 작업을 시도하는 사람을 위해 여기에 자리 표시자가 있는 일반 영어 코드가 있습니다. 이러한 이유로 있는 그대로 컴파일되지는 않습니다... 답변의 도움에 많은 감사를 드립니다! ! !

으으으으

P粉436410586P粉436410586203일 전299

모든 응답(1)나는 대답할 것이다

  • P粉604848588

    P粉6048485882024-03-30 11:42:22

    귀하의 요구 사항을 충족하기 위해 datetime模块和re 모듈을 사용했습니다. 도움이 되기를 바랍니다. 코드는 다음과 같습니다.

    으아아아

    회신하다
    0
  • 취소회신하다