찾다

 >  Q&A  >  본문

ruby - Nokogiri 抓取网页乱码如何解决?

最近在帮同学在一个网站上抓取一些东西,比如 http://www.sell001.com/110178 上面的服装图片,标题和价格等等。

这个网站有点奇怪,他 meta 里面没有声明 charset,然后我用 Nokogiri ,也没有指定特定的 encoding。

抓了一些图片和链接都是可以的,但是碰到有中文的情况时它就乱码了。

我看官方文档 http://www.nokogiri.org/tutorials/parsing_an_html_xml_document.html,
Nokogiri 可以指定 encoding,比如 doc = Nokogiri.XML('<foo><bar /><foo>', nil, 'EUC-JP')
我试了指定一些比如 gbk 等等,都无效。。

这种情况该如何解决?

巴扎黑巴扎黑2774일 전754

모든 응답(1)나는 대답할 것이다

  • 阿神

    阿神2017-04-22 09:02:21

    으아악

    => #(문서:0x3fc3974355f4 {
    이름 = "문서",
    아이들 = [
    #(DTD:0x3fc397424bf0 { 이름 = "html" }),
    #(요소:0x3fc39741fc18 {
    이름 = "html",
    속성 = [
    #(속성:0x3fc39740fa20 {
    이름 = "xmlns",
    값 = "http://www.w3.org/1999/xhtml"
    })],
    아이들 = [
    #(텍스트 "rn"),
    #(요소:0x3fc3973da190 {
    이름 = "머리",
    아이들 = [
    #(텍스트 "rn"),
    #(요소:0x3fc3973cf6dc {
    이름 = "제목",
    children = [ #(Text "九天國际A218-网商园")]
    }),

    utf-8수정常解析。。。

    회신하다
    0
  • 취소회신하다