Maison  >  Article  >  développement back-end  >  Comment obtenir du contenu Web en python

Comment obtenir du contenu Web en python

(*-*)浩
(*-*)浩original
2019-06-28 11:36:2515092parcourir

Python est assez bon pour le traitement des données. Si vous souhaitez créer un robot d'exploration, Python est un bon choix. Il contient de nombreux packages de classes pré-écrits qui peuvent exécuter de nombreuses fonctions complexes tant qu'elles sont appelées.

Comment obtenir du contenu Web en python

1 Pyhton récupère le contenu de la page Web (c'est-à-dire le code source) (apprentissage recommandé : Tutoriel vidéo Python)

page = urllib2.urlopen(url)   
contents = page.read()   
#获得了整个网页的内容也就是源代码  
print(contents)

url représente l'URL, le contenu représente le code source correspondant à l'URL, urllib2 est le package qui doit être utilisé, les trois lignes de code ci-dessus peuvent obtenir l'intégralité du code source de la page Web

2 Obtenez le contenu souhaité dans la page Web (obtenez d'abord le code source de la page Web, puis analysez le code source de la page Web, recherchez la balise correspondante, puis extrayez le contenu de la balise)

Prenons comme exemple le classement des films Douban

Maintenant, je dois obtenir les noms, les notes, le nombre de critiques et les liens de tous les films sur la page actuelle

#coding:utf-8  
''''' 
@author: jsjxy 
'''  
import urllib2   
import re   
from bs4 import BeautifulSoup  
from distutils.filelist import findall  

page = urllib2.urlopen('http://movie.douban.com/top250?format=text')   
contents = page.read()   
 #print(contents)  
soup = BeautifulSoup(contents,"html.parser")  
print("豆瓣电影TOP250" + "\n" +" 影片名              评分       评价人数     链接 ")    
for tag in soup.find_all('div', class_='info'):    
   # print tag  
    m_name = tag.find('span', class_='title').get_text()        
    m_rating_score = float(tag.find('span',class_='rating_num').get_text())          
    m_people = tag.find('div',class_="star")  
    m_span = m_people.findAll('span')  
    m_peoplecount = m_span[3].contents[0]  
    m_url=tag.find('a').get('href')  
    print( m_name+"        "  +  str(m_rating_score)   + "           " + m_peoplecount + "    " + m_url )

Sortie de la console , vous pouvez également l'écrire dans un fichier

Article supplémentaire sur les technologies liées à Python, veuillez visiter la colonne Tutoriel Python pour apprendre !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn