网页爬虫 - 关于Python的编码与解码问题

Question

在python2中用urllib模块去请求淘宝的IP地址查询接口，返回的是一段json字符串，如下所示： {代码...} 返回结果如下： {代码...} 在返回结果中，中文是以 unicode字符串表示，这样不方便阅读，我想让结果中中文部...

伊谢尔伦 · Answer

Il existe deux méthodes en Python3 qui peuvent résoudre votre problème :

fonction print()

Python3 commence à encoder en UTF-8, donc vous savez, imprimez-le directement :

>>> print("\u5317\u4eac\u5e02")
北京市

Utilisation de la base de données Unicode

Il existe une bibliothèque intégrée unicodedata, et vous pouvez appeler deux méthodes dans cette bibliothèque, comme suit :

>>> import unicodedata as u

# 这段字符串是来自你给提供的内容
>>> s = "\u5317\u4eac\u5e02"
>>> s1 = ''
>>> for i in s:
        s1 += u.lookup(u.name(i))

# 输出结果    
>>> s1
'北京市'

Pour ajouter, si vous traitez les caractères individuellement, vous pouvez utiliser la méthode ci-dessus, mais après avoir répondu tout à l'heure, j'ai découvert que votre valeur de retour est un objet octet. Ce type de traitement d'objet est très simple en Python3. comme suit :

import urllib.request as r


def get_data(ip):
    url = "http://ip.taobao.com/service/getIpInfo.php?ip=" + ip
    data = r.urlopen(url).read()

    return data


if __name__ == "__main__":
    result = get_data("59.151.5.5")
    print(eval(result))

La valeur de retour après mon test est :

{'data': {'area_id': '100000', 'isp': '世纪互联', 'country_id': 'CN', 'country': '中国', 'region_id': '110000', 'county_id': '-1', 'ip': '59.151.5.5', 'city': '北京市', 'area': '华北', 'county': '', 'city_id': '110100', 'isp_id': '100021', 'region': '北京市'}, 'code': 0}

J'espère adopter

天蓬老师 · Answer

Dans Python 3, vous pouvez utiliser la méthode decode pour convertir les octets en str :

    result = get_data("59.151.5.5").decode('raw_unicode_escape')

PHPz · Answer

C'est bien===

import json
print json.dumps(json.loads(result), ensure_ascii=False)

阿神 · Answer

Veuillez utiliser py3

网页爬虫 - 关于Python的编码与解码问题

répondre à tous(4)je répondrai