>  Q&A  >  본문

html - python中怎么获取某个网页元素之前的所有源码?

<html>
    <head>
        <title>The Dormouse's story </title>
    </head> 
    <body> 
        <p id="p1">p1p1p1
            <b id='b1'>b1b1b1</b>
        </p> 
        <p id="p2">p2p2p2
            <ul id='u1'>u1u1u1</ul>
            <a id="a1">a1a1a1</a>
            <p id='d1'>
                <a id="a2">a2a2a2 </a>
                <b id='b2'>b2b2b2</b>
                <p id='p3'>p3p3p3</p>
            </p>
            <a id="a3">a3a3a3 </a>
        </p> 
        <p id="p4">p4p4p4</p>
    </body>
</html>

比如第一个a元素:a#a1,要获取这个元素以上的所有网页源码:

<html>
    <head>
        <title>The Dormouse's story </title>
    </head> 
    <body> 
        <p id="p1">p1p1p1
            <b id='b1'>b1b1b1</b>
        </p> 
        <p id="p2">p2p2p2
            <ul id='u1'>u1u1u1</ul>
            <a id="a1">a1a1a1</a>
        </p>
    </body>
</html>
天蓬老师天蓬老师2742일 전929

모든 응답(5)나는 대답할 것이다

  • 阿神

    阿神2017-04-18 09:49:08

    귀하의 원본 HTML이 표준에 맞지 않아서 조금 변경했습니다.
    lxml을 사용하여 다음 작업을 수행합니다.

    으아아아

    회신하다
    0
  • PHPz

    PHPz2017-04-18 09:49:08

    bs4를 사용하여 추출

    회신하다
    0
  • PHP中文网

    PHP中文网2017-04-18 09:49:08

    으아악

    회신하다
    0
  • 阿神

    阿神2017-04-18 09:49:08

    새내기 re모듈만 배워서 re모듈 + 일반적인 추출방법만 사용합니다

    으아아아

    회신하다
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-18 09:49:08

    be 모듈이 가장 편리합니다

    회신하다
    0
  • 취소회신하다