zhihu-go 源码解析：用 goquery 解析 HTML_html/css

집

웹 프론트엔드

HTML 튜토리얼

zhihu-go 源码解析：用 goquery 解析 HTML_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 21, 2016 am 08:52 AM

上一篇博客简单介绍了 zhihu-go项目的缘起，本篇简单介绍一下关于处理 HTML 的细节。

因为知乎没有开发 API，所以只能通过模拟浏览器操作的方式获取数据，这些数据有两种格式：普通的 HTML 文档和某些 Ajax 接口返回的 JSON（返回的数据实际上也是 HTML）。其实也就是爬虫了，抓取网页，然后提取数据。一般来说从 HTML 文档提取数据有这些做法：正则、XPath、CSS 选择器等。对我来说，正则写起来比较复杂，代码可读性差而且维护起来麻烦；XPath 没有详细了解，不过用起来应该不难，而且 Chrome 浏览器可以直接提取 XPath. zhihu-go 里用的是选择器的方式，使用了 goquery.

goquery 是 “a little like that j-thing, only in Go”，也就是用 jQuery 的方式去操作 DOM. jQuery 大家都很熟，API 也很简单明了。本文不详细介绍 goquery，下面选几个场景（API）讲讲在 zhihu-go 里的应用。

创建 Document 对象

goquery 暴露了两个结构体： Document和 Selection. Document表示一个 HTML 文档， Selection用于像 jQuery 一样操作，支持链式调用。goquery 需要指定一个 HTML 文档才能继续后续的操作，有以下几个构造方式：

NewDocumentFromNode(root *html.Node) *Document: 传入 *html.Node对象，也就是根节点。
NewDocument(url string) (*Document, error): 传入 URL，内部用 http.Get获取网页。
NewDocumentFromReader(r io.Reader) (*Document, error): 传入 io.Reader，内部从 reader 中读取内容并解析。
NewDocumentFromResponse(res *http.Response) (*Document, error): 传入 HTTP 响应，内部拿到 res.Body(实现了 io.Reader) 后的处理方式类似 NewDocumentFromReader.

因为知乎的页面需要登录才能访问（还需要伪造请求头），而且我们并不想手动解析 HTML 来获取 *html.Node，最后用到了另外两个构造方法。大致的使用场景是：

请求 HTML 页面（如问题页面），调用 NewDocumentFromResponse
请求 Ajax 接口，返回的 JSON 数据里是一些 HTML 片段，用 NewDocumentFromReader，其中 r = strings.NewReader(html)

为了方便举例说明，下文采用这个定义： var doc *goquery.Document.

查找到指定节点

Selection有一系列类似 jQuery 的方法， Document结构体内嵌了 *Selection，因此也能直接调用这些方法。主要的方法是 Selection.Find(selector string)，传入一个选择器，返回一个新的，匹配到的 *Selection，所以能够链式调用。

比如在用户主页（如黄继新），要获取用户的 BIO. 首先用 Chrome 定位到对应的 HTML：

<span class="bio" title="和知乎在一起">和知乎在一起</span>

对应的 go 代码就是：

doc.Find("span.bio")

如果一个选择器对应多个结果，可以使用 First(), Last(), Eq(index int), Slice(start, end int)这些方法进一步定位。

还是在用户主页，在用户资料栏的底下，从左往右展示了提问数、回答数、文章数、收藏数和公共编辑的次数。查看 HTML 源码后发现这几项的 class 是一样的，所以只能通过下标索引来区分。

先看 HTML 源码：

<div class="profile-navbar clearfix"><a class="item " href="/people/jixin/asks">提问<span class="num">1336</span></a><a class="item " href="/people/jixin/answers">回答<span class="num">785</span></a><a class="item " href="/people/jixin/posts">文章<span class="num">91</span></a><a class="item " href="/people/jixin/collections">收藏<span class="num">44</span></a><a class="item " href="/people/jixin/logs">公共编辑<span class="num">51648</span></a></div>

如果要定位找到回答数，对应的 go 代码是：

doc.Find("div.profile-navbar").Find("span.num").Eq(1)

属性操作

经常需要获取一个标签的内容和某些属性值，使用 goquery 可以很容易做到。

继续上面获取回答数的例子，用 Text() string方法可以获取标签内的文本内容，其中包含所有子标签。

text := doc.Find("div.profile-navbar").Find("span.num").Eq(1).Text()    // "785"

需要注意的是， Text()方法返回的字符串，可能前后有很多空白字符，可以视情况做清除。

获取属性值也很容易，有两个方法：

Attr(attrName string) (val string, exists bool): 返回属性值和该属性是否存在，类似从 map中取值
AttrOr(attrName, defaultValue string) string: 和上一个方法类似，区别在于如果属性不存在，则返回给定的默认值

常见的使用场景就是获取一个 a 标签的链接。继续上面获取回答的例子，如果想要得到用户回答的主页，可以这么做：

href, _ := doc.Find("div.profile-navbar").Find("a.item").Eq(1).Attr("href")

还有其他设置属性、操作 class 的方法，就不展开讨论了。

迭代

很多场景需要返回列表数据，比如问题的关注者列表、所有回答，某个答案的点赞的用户列表等。这种情况下一般需要用到迭代，遍历所有的同类节点，做某些操作。

goquery 提供了三个用于迭代的方法，都接受一个匿名函数作为参数：

Each(f func(int, *Selection)) *Selection: 其中函数 f的第一个参数是当前的下标，第二个参数是当前的节点
EachWithBreak(f func(int, *Selection) bool) *Selection: 和 Each类似，增加了中途跳出循环的能力，当 f返回 false时结束迭代
Map(f func(int, *Selection) string) (result []string): f的参数与上面一样，返回一个 string 类型，最终返回 []string.

比如获取一个收藏夹（如黄继新的收藏：关于知乎的思考）下所有的问题，可以这么做（见 zhihu-go/collections.go）：

func getQuestionsFromDoc(doc *goquery.Document) []*Question {	questions := make([]*Question, 0, pageSize)	items := doc.Find("div#zh-list-answer-wrap").Find("h2.zm-item-title")	items.Each(func(index int, sel *goquery.Selection) {		a := sel.Find("a")		qTitle := strip(a.Text())		qHref, _ := a.Attr("href")		thisQuestion := NewQuestion(makeZhihuLink(qHref), qTitle)		questions = append(questions, thisQuestion)	})	return questions}

EachWithBreak在 zhihu-go 中也有用到，可以参见 Answer.GetVotersN 方法： zhihu-go/answer.go.

删除节点、插入 HTML、导出 HTML

有一个需求是把回答内容输出到 HTML，说白了其实就是修复和清洗 HTML，具体的细节可以看 answer.go 里的 answerSelectionToHtml 函数. 其中用到了一些需要修改文档的操作。

比如，调用 Remove()方法把一个节点删掉：

sel.Find("noscript").Each(func(_ int, tag *goquery.Selection) {    tag.Remove() // 把无用的 noscript 去掉})

在节点后插入一段 HTML:

sel.Find("img").Each(func(_ int, tag *goquery.Selection) {    var src string    if tag.HasClass("origin_image") {        src, _ = tag.Attr("data-original")    } else {        src, _ = tag.Attr("data-actualsrc")    }    tag.SetAttr("src", src)    if tag.Next().Size() == 0 {        tag.AfterHtml("<br>")   // 在 img 标签后插入一个换行    }})

在标签尾部 append 一段内容：

wrapper := `<html><head><meta charset="utf-8"></head><body></body></html>`doc, _ := goquery.NewDocumentFromReader(strings.NewReader(wrapper))doc.Find("body").AppendSelection(sel)

最终输出为 html 文档：

html, err := doc.Html()

总结

上面的例子基本涵盖了 zhihu-go 中关于 HTML 操作的场景，得益于 goquery 和 jQuery 的 API 风格，实现起来还是非常简单的。

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

HTML의 미래 : 웹 디자인의 진화 및 트렌드Apr 17, 2025 am 12:12 AM

HTML의 미래는 무한한 가능성으로 가득합니다. 1) 새로운 기능과 표준에는 더 많은 의미 론적 태그와 WebComponents의 인기가 포함됩니다. 2) 웹 디자인 트렌드는 반응적이고 접근 가능한 디자인을 향해 계속 발전 할 것입니다. 3) 성능 최적화는 반응 형 이미지 로딩 및 게으른로드 기술을 통해 사용자 경험을 향상시킬 것입니다.

HTML vs. CSS vs. JavaScript : 비교 개요Apr 16, 2025 am 12:04 AM

웹 개발에서 HTML, CSS 및 JavaScript의 역할은 다음과 같습니다. HTML은 컨텐츠 구조를 담당하고 CSS는 스타일을 담당하며 JavaScript는 동적 동작을 담당합니다. 1. HTML은 태그를 통해 웹 페이지 구조와 컨텐츠를 정의하여 의미를 보장합니다. 2. CSS는 선택기와 속성을 통해 웹 페이지 스타일을 제어하여 아름답고 읽기 쉽게 만듭니다. 3. JavaScript는 스크립트를 통해 웹 페이지 동작을 제어하여 동적 및 대화식 기능을 달성합니다.

HTML : 프로그래밍 언어입니까 아니면 다른 것입니까?Apr 15, 2025 am 12:13 AM

Htmlisnotaprogramminglanguage; itisamarkuplanguage.1) htmlstructuresandformatswebcontentusingtags.2) itworksporstylingandjavaScriptOfforIncincivity, WebDevelopment 향상.

HTML : 웹 페이지 구조 구축Apr 14, 2025 am 12:14 AM

HTML은 웹 페이지 구조를 구축하는 초석입니다. 1. HTML은 컨텐츠 구조와 의미론 및 사용 등을 정의합니다. 태그. 2. SEO 효과를 향상시키기 위해 시맨틱 마커 등을 제공합니다. 3. 태그를 통한 사용자 상호 작용을 실현하려면 형식 검증에주의를 기울이십시오. 4. 자바 스크립트와 결합하여 동적 효과를 달성하기 위해 고급 요소를 사용하십시오. 5. 일반적인 오류에는 탈수 된 레이블과 인용되지 않은 속성 값이 포함되며 검증 도구가 필요합니다. 6. 최적화 전략에는 HTTP 요청 감소, HTML 압축, 시맨틱 태그 사용 등이 포함됩니다.

텍스트에서 웹 사이트로 : HTML의 힘Apr 13, 2025 am 12:07 AM

HTML은 웹 페이지를 작성하는 데 사용되는 언어로, 태그 및 속성을 통해 웹 페이지 구조 및 컨텐츠를 정의합니다. 1) HTML과 같은 태그를 통해 문서 구조를 구성합니다. 2) 브라우저는 HTML을 구문 분석하여 DOM을 빌드하고 웹 페이지를 렌더링합니다. 3) 멀티미디어 기능을 향상시키는 HTML5의 새로운 기능. 4) 일반적인 오류에는 탈수 된 레이블과 인용되지 않은 속성 값이 포함됩니다. 5) 최적화 제안에는 시맨틱 태그 사용 및 파일 크기 감소가 포함됩니다.

HTML, CSS 및 JavaScript 이해 : 초보자 안내서Apr 12, 2025 am 12:02 AM

WebDevelopmentReliesonHtml, CSS 및 JavaScript : 1) HtmlStructuresContent, 2) CSSSTYLESIT, 및 3) JAVASCRIPTADDSINGINTERACTIVITY, BASISOFMODERNWEBEXPERIENCES를 형성합니다.

HTML의 역할 : 웹 컨텐츠 구조Apr 11, 2025 am 12:12 AM

HTML의 역할은 태그 및 속성을 통해 웹 페이지의 구조와 내용을 정의하는 것입니다. 1. HTML은 읽기 쉽고 이해하기 쉽게하는 태그를 통해 컨텐츠를 구성합니다. 2. 접근성 및 SEO와 같은 시맨틱 태그 등을 사용하십시오. 3. HTML 코드를 최적화하면 웹 페이지로드 속도 및 사용자 경험이 향상 될 수 있습니다.