


Préserver les sauts de ligne à l'aide de Jsoup : un guide complet
Lors de la conversion de HTML en texte brut, la préservation des sauts de ligne est cruciale pour maintenir la lisibilité. Jsoup, une bibliothèque d'analyseurs HTML Java populaire, fournit un moyen efficace d'extraire du texte du HTML tout en conservant sa structure.
Dans ce guide, nous aborderons le problème spécifique de la préservation des sauts de ligne lors de l'utilisation de Jsoup.parse de Jsoup. Méthode (str).text(). Cette méthode extrait le contenu du texte du HTML, mais elle ne préserve pas nativement les sauts de ligne.
Utilisation de TextNode.getWholeText()
Initialement, la question explorait la possibilité de en utilisant la méthode TextNode.getWholeText() de Jsoup. Cependant, cette approche s'est avérée inefficace car elle ne gère pas les sauts de ligne dans le contexte des balises HTML.
La solution efficace
La solution pour préserver les sauts de ligne réside dans un approche plus complète qui implique à la fois le pré- et le post-traitement du contenu HTML avant d'extraire le texte.
L'extrait de code présenté suit les étapes suivantes :
- Analyse la chaîne HTML à l'aide de Jsoup.
- Désactive l'impression HTML pour garantir la préservation des sauts de ligne.
- Ajoute des sauts de ligne (n) à la fin de
balises et avantbalises.
- Remplace la séquence n par des nouvelles lignes réelles.
- Nettoie le code HTML modifié pour supprimer toute mise en forme ou balises restantes.
Implémentation
<code class="java">public static String br2nl(String html) { if(html==null) return html; Document document = Jsoup.parse(html); document.outputSettings(new Document.OutputSettings().prettyPrint(false));//makes html() preserve linebreaks and spacing document.select("br").append("\n"); document.select("p").prepend("\n\n"); String s = document.html().replaceAll("\\n", "\n"); return Jsoup.clean(s, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false)); }</code>
Exigences satisfaites
La solution fournie répond aux exigences suivantes :
- Préserve les nouvelles lignes existantes (n) dans le HTML.
- Convertit
etbalises en nouvelles lignes.
- Supprime tout formatage ou balise indésirable dans le texte résultant.
En implémentant cette solution, vous pouvez conserver efficacement les sauts de ligne lors de la conversion de HTML en texte brut à l'aide de Jsoup, garantissant des résultats précis et lisibles.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

L'article discute de l'utilisation de Maven et Gradle pour la gestion de projet Java, la construction de l'automatisation et la résolution de dépendance, en comparant leurs approches et leurs stratégies d'optimisation.

L'article discute de la création et de l'utilisation de bibliothèques Java personnalisées (fichiers JAR) avec un versioning approprié et une gestion des dépendances, à l'aide d'outils comme Maven et Gradle.

L'article examine la mise en œuvre de la mise en cache à plusieurs niveaux en Java à l'aide de la caféine et du cache de goyave pour améliorer les performances de l'application. Il couvre les avantages de configuration, d'intégration et de performance, ainsi que la gestion de la politique de configuration et d'expulsion le meilleur PRA

L'article discute de l'utilisation de JPA pour la cartographie relationnelle des objets avec des fonctionnalités avancées comme la mise en cache et le chargement paresseux. Il couvre la configuration, la cartographie des entités et les meilleures pratiques pour optimiser les performances tout en mettant en évidence les pièges potentiels. [159 caractères]

Le chargement de classe de Java implique le chargement, la liaison et l'initialisation des classes à l'aide d'un système hiérarchique avec Bootstrap, Extension et Application Classloaders. Le modèle de délégation parent garantit que les classes de base sont chargées en premier, affectant la classe de classe personnalisée LOA


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

MantisBT
Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

MinGW - GNU minimaliste pour Windows
Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

PhpStorm version Mac
Le dernier (2018.2.1) outil de développement intégré PHP professionnel

SublimeText3 version chinoise
Version chinoise, très simple à utiliser