php小编小新在这里为大家介绍一种方法,可以通过网页抓取访问动态HTML元素。当我们在进行网页抓取时,有时会遇到一些动态生成的内容,这些内容在网页加载完成之前无法直接获取。幸运的是,我们可以利用一些工具和技术来解决这个问题。本文将介绍一种基于PHP的方法,使用它可以轻松地抓取访问动态HTML元素。让我们一起来看看吧!
我正在使用 go-rod 进行网页抓取。我想访问动态 3499910bf9dac5ae3c52d5ede7383485
内的链接。
为了使这个 a
可见,我必须完成一个搜索器,它是一个 input
,具有下一个格式(没有 submit
):
<form> <input> <!--this is the searcher--> <form/>
所以,当我完成后,出现我要访问的a
:
到这里,一切都还好。这是我用来完成搜索器的代码:
//page's url page := rod.new().mustconnect().mustpage("https://www.sofascore.com/") //acept cookies alert page.mustelement("cookiesalertselector...").mustclick() //completes the searcher el := page.mustelement(`searcherselector...`) el.mustinput("lionel messi")
现在问题出现了,当我想点击完成搜索后显示的a
时。
我尝试过这个:
diviwant := page.mustelement("aselector...") diviwant.mustclick()
还有这个:
diviwant := page.mustelement("aselector...").mustwaitvisible() diviwant.mustclick()
但是,它们都返回给我相同的错误:
panic: {-32000 node is detached from document } goroutine 1 [running]: github.com/go-rod/rod/lib/utils.glob..func2({0x100742dc0?, 0x140002bad50?}) /users/lucastomicbenitez/go/pkg/mod/github.com/go-rod/[email protected]/lib/utils/utils.go:65 +0x24 github.com/go-rod/rod.gene.func1({0x14000281ca0?, 0x1003a98b7?, 0x4?}) /users/lucastomicbenitez/go/pkg/mod/github.com/go-rod/[email protected]/must.go:36 +0x64 github.com/go-rod/rod.(*element).mustclick(0x14000289320) /users/lucastomicbenitez/go/pkg/mod/github.com/go-rod/[email protected]/must.go:729 +0x9c main.main() /users/lucastomicbenitez/development/golang/evolutionaryalgorithm/main/main.go:22 +0x9c exit status 2
所以,在寻找一些解决方案时,我发现了这个 github 问题并尝试通过此方法获取链接:
link := page.musteval(`()=> document.queryselector('aselector...').href`)
但它返回这个:
panic: eval js error: TypeError: Cannot read properties of null (reading 'href')
但是,我很确定选择器是正确的。 我做错了什么?
正如@hymns for disco在评论中所说,我只需要在搜索器完成后等待一段时间即可。
el.MustInput("Lionel Messi") time.Sleep(time.Second) link := page.MustEval(`()=> document.querySelector('aSelector...').href`)
以上是如何通过网页抓取访问动态 HTML 元素?的详细内容。更多信息请关注PHP中文网其他相关文章!