recherche

Maison  >  Questions et réponses  >  le corps du texte

网页爬虫 - python采集百度新闻的原理是什么?

火车头有一个正文提取器,而且不少的采集软件都有这个东西,但是就是一直不知道这些东西到底是怎么实现的?

或是有高人说下实现的原理是多少?

比如步骤?

或是如何用python来实现,可以举个简单的例子

天蓬老师天蓬老师2848 Il y a quelques jours1055

répondre à tous(3)je répondrai

  • 高洛峰

    高洛峰2017-04-18 09:05:01


    Adresse source : http://www.cnblogs.com/jasondan/p/3497757.html

    répondre
    0
  • PHP中文网

    PHP中文网2017-04-18 09:05:01

    À des fins plus ciblées, vous pouvez utiliser des balises telles que p et article pour porter des jugements simples. Si vous avez besoin de quelque chose de plus général, vous pouvez analyser les données collectées sur la page Web, par exemple en écrivant un algorithme pour calculer la densité du chinois (texte non balisé) afin de déterminer s'il s'agit du texte principal. Je ne l'ai pas fait spécifiquement, mais l'idée est essentiellement la suivante.

    répondre
    0
  • PHP中文网

    PHP中文网2017-04-18 09:05:01

    1. Simulation du protocole HTTP, (généralement en utilisant request, module urllib2)

    2. Extraction d'informations (en raison de la nature particulière des documents HTML, XPath et beautifulsoup sont généralement utilisés)

    répondre
    0
  • Annulerrépondre