Maison  >  Questions et réponses  >  le corps du texte

网页爬虫 - 关于Python的编码与解码问题

在python2中用urllib模块去请求淘宝的IP地址查询接口,返回的是一段json字符串,如下所示:

import urllib


def get_data(ip):
    url = "http://ip.taobao.com/service/getIpInfo.php?ip=" + ip
    data = urllib.urlopen(url).read()

    return data


if __name__ == "__main__":
    result = get_data("59.151.5.5")
    print(result)

返回结果如下:

{"code":0,"data":{"country":"\u4e2d\u56fd","country_id":"CN","area":"\u534e\u5317","area_id":"100000","region":"\u5317\u4eac\u5e02","region_id":"110000","city":"\u5317\u4eac\u5e02","city_id":"110100","county":"","county_id":"-1","isp":"\u4e16\u7eaa\u4e92\u8054","isp_id":"100021","ip":"59.151.5.5"}}

在返回结果中,中文是以 unicode字符串表示,这样不方便阅读,我想让结果中中文部分直接用中文表示,就像下面这样:

"city":"北京","ISP":"中国电信"

如果是python3的话返回又是这样的:


    b'{"code":0,"data":{"country":"\\u4e2d\\u56fd","country_id":"CN","area":"\\u534e\\u5317","area_id":"100000","region":"\\u5317\\u4eac\\u5e02","region_id":"110000","city":"\\u5317\\u4eac\\u5e02","city_id":"110100","county":"","county_id":"-1","isp":"\\u4e16\\u7eaa\\u4e92\\u8054","isp_id":"100021","ip":"59.151.5.5"}}'

请问在 python2和python3中分别该如何转码呢?

高洛峰高洛峰2764 Il y a quelques jours574

répondre à tous(4)je répondrai

  • 伊谢尔伦

    伊谢尔伦2017-04-18 10:33:42

    Il existe deux méthodes en Python3 qui peuvent résoudre votre problème :

    • fonction print()

    Python3 commence à encoder en UTF-8, donc vous savez, imprimez-le directement :

    >>> print("\u5317\u4eac\u5e02")
    北京市
    • Utilisation de la base de données Unicode

    Il existe une bibliothèque intégrée unicodedata, et vous pouvez appeler deux méthodes dans cette bibliothèque, comme suit :

    >>> import unicodedata as u
    
    # 这段字符串是来自你给提供的内容
    >>> s = "\u5317\u4eac\u5e02"
    >>> s1 = ''
    >>> for i in s:
            s1 += u.lookup(u.name(i))
    
    # 输出结果    
    >>> s1
    '北京市'

    Pour ajouter, si vous traitez les caractères individuellement, vous pouvez utiliser la méthode ci-dessus, mais après avoir répondu tout à l'heure, j'ai découvert que votre valeur de retour est un objet octet. Ce type de traitement d'objet est très simple en Python3. comme suit :

    import urllib.request as r
    
    
    def get_data(ip):
        url = "http://ip.taobao.com/service/getIpInfo.php?ip=" + ip
        data = r.urlopen(url).read()
    
        return data
    
    
    if __name__ == "__main__":
        result = get_data("59.151.5.5")
        print(eval(result))

    La valeur de retour après mon test est :

    {'data': {'area_id': '100000', 'isp': '世纪互联', 'country_id': 'CN', 'country': '中国', 'region_id': '110000', 'county_id': '-1', 'ip': '59.151.5.5', 'city': '北京市', 'area': '华北', 'county': '', 'city_id': '110100', 'isp_id': '100021', 'region': '北京市'}, 'code': 0}

    J'espère adopter

    répondre
    0
  • 天蓬老师

    天蓬老师2017-04-18 10:33:42

    Dans Python 3, vous pouvez utiliser la méthode decode pour convertir les octets en str :

        result = get_data("59.151.5.5").decode('raw_unicode_escape')

    répondre
    0
  • PHPz

    PHPz2017-04-18 10:33:42

    C'est bien===

    import json
    print json.dumps(json.loads(result), ensure_ascii=False)

    répondre
    0
  • 阿神

    阿神2017-04-18 10:33:42

    Veuillez utiliser py3

    répondre
    0
  • Annulerrépondre