HTML est la représentation de base des pages Web. Si vous souhaitez obtenir et manipuler le contenu d'un document HTML en Java, vous devez utiliser un outil d'analyse open source, tel que la fonction JSoup. JSoup est une bibliothèque Java de traitement de documents HTML. Elle fournit un moyen très simple d'extraire des données et des éléments spécifiques de documents HTML. Cet article présentera l'utilisation de JSoup en Java.
Tout d'abord, vous devez importer la bibliothèque JSoup dans votre projet Java. Vous pouvez trouver et télécharger JSoup dans le référentiel central Maven. Une fois le téléchargement terminé, décompressez le fichier JSoup.jar et importez-le dans votre projet Java.
Dans votre code Java, créez un objet Document pour lire et analyser des documents HTML. Vous pouvez utiliser la méthode connect() dans la bibliothèque JSoup pour spécifier le chemin de l'URL à analyser, et JSoup téléchargera, analysera automatiquement le document HTML et renverra un objet Document, par exemple :
String url = "https://www.example.com"; Document doc = Jsoup.connect(url).get();
Avec l'objet Document, vous pouvez extraire des éléments HTML spécifiques du document HTML. Vous pouvez utiliser la méthode select() de l'objet Document et transmettre la syntaxe du sélecteur CSS pour filtrer les éléments souhaités, par exemple :
Element elementById = doc.select("#example-id").first(); Elements elementsByClass = doc.select(".example-class");
Le code ci-dessus obtient les éléments correspondants via l'ID et le nom de classe respectivement. Vous pouvez également utiliser d'autres sélecteurs tels que le nom de balise, la valeur d'attribut ou le nom d'attribut.
Une fois que vous avez obtenu les éléments correspondants du document HTML, vous pouvez manipuler davantage ces éléments. Vous pouvez utiliser la méthode text() de l'objet Element pour obtenir le contenu textuel de l'élément, par exemple :
String textById = elementById.text(); String textByClass = elementsByClass.text();
Vous pouvez également utiliser la méthode attributs() de l'objet Element pour obtenir les valeurs d'attribut de l'élément .
Element element = doc.select("a").first(); String href = element.attributes().get("href");
En plus d'obtenir des éléments HTML, JSoup fournit également des outils pratiques pour traiter les formulaires HTML. Vous pouvez utiliser des méthodes dans l'objet Document, telles que les méthodes select(), attr() et text() pour modifier les valeurs des éléments du formulaire.
Document doc = Jsoup.parse("<form action='/my-url' method='post'>" + "<input type='text' name='username'/>" + "<input type='password' name='password'/>" + "<input type='submit' value='Login'/>" + "</form>"); Element formElement = doc.select("form").first(); formElement.attr("action", "login.jsp"); formElement.select("[name=username]").attr("value", "myUsername"); formElement.select("[name=password]").attr("value", "myPassword");
Lorsque vous utilisez JSoup pour analyser des documents HTML, des exceptions se produisent parfois. Par conséquent, dans votre code Java, vous devez gérer les exceptions IOException et ParseException levées par JSoup. Ces exceptions peuvent être interceptées à l'aide de blocs Try-catch.
try { Document doc = Jsoup.connect("http://example.com").get(); } catch (IOException e) { e.printStackTrace(); } catch (ParseException e) { e.printStackTrace(); }
Résumé
Ce qui précède explique comment utiliser la fonction JSoup pour l'analyse HTML. Grâce à JSoup, vous pouvez facilement obtenir et exploiter des documents HTML en Java. En incluant la bibliothèque JSoup dans votre projet Java et en utilisant les objets Document, les sélecteurs et les API de JSoup pour manipuler correctement les éléments, vous pouvez facilement effectuer des tâches telles que la récupération de données et la modification de formulaires HTML.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!