Maison >développement back-end >Tutoriel Python >[Tutoriel Python] Algorithme d'extraction de texte et d'image de contenu de page Web
La correspondance régulière est généralement utilisée lors de l'exploration du contenu Web d'un seul site Web. Cependant, les structures de différents sites Web sont si étranges qu'il est difficile de les faire correspondre avec une expression régulière unifiée. L'auteur de « Algorithme général d'extraction de texte de page Web basé sur la fonction de distribution de blocs de lignes » a résumé les méthodes générales d'extraction de texte d'article à partir de pages Web, a proposé un algorithme d'extraction de texte basé sur la distribution de blocs de lignes et a fourni des implémentations en PHP, Java, etc. Les grands principes de cet algorithme reposent sur deux points : 1. Densité de la zone de texte : après avoir supprimé toutes les balises en HTML, la densité des caractères dans la zone de texte est plus élevée et il y a moins de lignes multiples de blancs. 2. Longueur des blocs de lignes : la longueur des blocs de lignes ; le contenu dans les zones non textuelles est moyen. Plus court dans les étiquettes individuelles (blocs de lignes). Les étapes de l'algorithme sont les suivantes :
1. Supprimez toutes les balises, y compris les styles, le contenu du script Js, etc., mais conservez les sauts de ligne d'origine n
2. Le contenu de la page Web est divisé par lignes. Définissez le bloc de ligne $block_i$ comme la somme des lignes de texte $[i, i blockSize]$ et donnez la fonction de distribution de la longueur du bloc de ligne en fonction du numéro de ligne. :