Maison > Questions et réponses > le corps du texte
如题,比如爬取新闻类,该新闻中含图片,图片该怎么处理,如果有多张图片呢
类似
[文字]
[图片]
[文字]
或者
[文字]
[图片]
[文字]
[图片]
[文字]
需要下载图片到本地?还是直接用该网站的图片源,如果要下载到本地,文字内容上又该怎么处理。
多谢各位的回答,其实我想问得一点是怎么将图片保持在原位置,比如scrapy中可以使用
p.xpath('p/text()').extract()
得到文字内容
p.xpath('p/img/@src').extract()
定位图片,那么怎么保证图片的位置和原来的位置一样呢
ringa_lee2017-04-17 17:55:05
S'il n'est pas nécessaire de sauvegarder ou de collecter (par exemple, vous craignez que le site Web soit fermé ou que l'image originale ne devienne invalide), vous pouvez utiliser directement la source de l'image du site Web. Il n'y a aucun problème. termes d'espace, de gestion ou de droit d'auteur. Bien entendu, la difficulté de réaliser cela est également relativement faible.
黄舟2017-04-17 17:55:05
Si vous pouvez créer un lien externe, faites-le, mais veillez à éviter les hotlinking. Le moyen le plus sûr est de le télécharger localement
ringa_lee2017-04-17 17:55:05
Vous pouvez utiliser Bs4 pour sélectionner le nœud correspondant, XPath peut également être utilisé et vous pouvez extraire tout ce que vous voulez
迷茫2017-04-17 17:55:05
Téléchargez en local, puis remplacez src dans la page Web par le répertoire relatif local
ringa_lee2017-04-17 17:55:05
Des nouvelles ? Les sites portails ont essentiellement une protection anti-sangsue
Il est préférable de télécharger d'abord le faux référent localement, puis de remplacer l'adresse de l'image dans le texte original par l'adresse locale
巴扎黑2017-04-17 17:55:05
http://blog.csdn.net/qq_34844199/article/details/51468841Après avoir lu ceci, tout est clair