Maison  >  Article  >  développement back-end  >  [Tutoriel Python] Algorithme d'extraction de texte et d'image de contenu de page Web

[Tutoriel Python] Algorithme d'extraction de texte et d'image de contenu de page Web

黄舟
黄舟original
2017-02-07 16:16:562586parcourir

La correspondance régulière est généralement utilisée lors de l'exploration du contenu Web d'un seul site Web. Cependant, les structures de différents sites Web sont si étranges qu'il est difficile de les faire correspondre avec une expression régulière unifiée. L'auteur de « Algorithme général d'extraction de texte de page Web basé sur la fonction de distribution de blocs de lignes » a résumé les méthodes générales d'extraction de texte d'article à partir de pages Web, a proposé un algorithme d'extraction de texte basé sur la distribution de blocs de lignes et a fourni des implémentations en PHP, Java, etc. Les grands principes de cet algorithme reposent sur deux points : 1. Densité de la zone de texte : après avoir supprimé toutes les balises en HTML, la densité des caractères dans la zone de texte est plus élevée et il y a moins de lignes multiples de blancs. 2. Longueur des blocs de lignes : la longueur des blocs de lignes ; le contenu dans les zones non textuelles est moyen. Plus court dans les étiquettes individuelles (blocs de lignes). Les étapes de l'algorithme sont les suivantes :

1. Supprimez toutes les balises, y compris les styles, le contenu du script Js, etc., mais conservez les sauts de ligne d'origine n

[Tutoriel Python] Algorithme dextraction de texte et dimage de contenu de page Web

2. Le contenu de la page Web est divisé par lignes. Définissez le bloc de ligne $block_i$ comme la somme des lignes de texte $[i, i blockSize]$ et donnez la fonction de distribution de la longueur du bloc de ligne en fonction du numéro de ligne. :

[Tutoriel Python] Algorithme dextraction de texte et dimage de contenu de page Web


3 Le texte apparaît dans le bloc de ligne le plus long et la plage des deux côtés jusqu'à la longueur du bloc de ligne est de 0. intercepté :

[Tutoriel Python] Algorithme dextraction de texte et dimage de contenu de page Web


4 Si vous devez extraire les images qui apparaissent dans la zone de texte, il vous suffit de conserver le contenu de la balise [Tutoriel Python] Algorithme d'extraction de texte et d'image de contenu de page Web lors de la suppression de la balise dans la première étape :


[Tutoriel Python] Algorithme dextraction de texte et dimage de contenu de page Web

Ce qui précède est le contenu du [tutoriel python] web Algorithme d'extraction du texte de la page et de l'image du contenu. Pour plus de contenu connexe, veuillez faire attention au site Web PHP chinois (www.php.cn) !


Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn