HTML は Web ページの基本的な表現です。 Java で HTML ドキュメントのコンテンツを取得して操作する場合は、JSoup 関数などのオープンソース解析ツールを使用する必要があります。 JSoup は HTML ドキュメントを処理するための Java ライブラリで、HTML ドキュメントから特定のデータと要素を抽出する非常に簡単な方法を提供します。この記事では、Java での JSoup の使用方法を紹介します。
まず、JSoup ライブラリを Java プロジェクトにインポートする必要があります。 JSoup は Maven 中央リポジトリで見つけてダウンロードできます。ダウンロードが完了したら、JSoup.jar ファイルを解凍し、Java プロジェクトにインポートします。
Java コードで、HTML ドキュメントを読み取り、解析するための Document オブジェクトを作成します。 JSoup ライブラリの connect() メソッドを使用して、解析する URL パスを指定すると、JSoup は自動的に HTML ドキュメントをダウンロードして解析し、Document オブジェクトを返します。例:
String url = "https://www.example.com"; Document doc = Jsoup.connect(url).get();
Document オブジェクトを使用すると、HTML ドキュメントから特定の HTML 要素を抽出できます。 Document オブジェクトの select() メソッドを使用し、CSS セレクター構文を渡すと、必要な要素をフィルターで除外できます。たとえば、次のようになります。
Element elementById = doc.select("#example-id").first(); Elements elementsByClass = doc.select(".example-class");
上記のコードは、それぞれ ID とクラス名を通じて対応する要素を取得します。 . .タグ名、属性値、属性名などの他のセレクターを使用することもできます。
HTML ドキュメントから対応する要素を取得したら、これらの要素をさらに操作できます。 Element オブジェクトの text() メソッドを使用して、要素のテキスト コンテンツを取得できます。例:
String textById = elementById.text(); String textByClass = elementsByClass.text();
また、Element オブジェクトのattributes() メソッドを使用して属性値を取得することもできます。要素の。
Element element = doc.select("a").first(); String href = element.attributes().get("href");
HTML 要素の取得に加えて、JSoup は HTML フォームを処理するための便利なツールも提供します。 select()、attr()、text() メソッドなどの Document オブジェクトのメソッドを使用して、フォーム要素の値を変更できます。
Document doc = Jsoup.parse("<form action='/my-url' method='post'>" + "<input type='text' name='username'/>" + "<input type='password' name='password'/>" + "<input type='submit' value='Login'/>" + "</form>"); Element formElement = doc.select("form").first(); formElement.attr("action", "login.jsp"); formElement.select("[name=username]").attr("value", "myUsername"); formElement.select("[name=password]").attr("value", "myPassword");
JSoup を使用して HTML ドキュメントを解析すると、例外が発生することがあります。したがって、Java コードでは、JSoup によってスローされた IOException 例外と ParseException 例外を処理する必要があります。これらの例外は Try-catch ブロックを使用してキャッチできます。
try { Document doc = Jsoup.connect("http://example.com").get(); } catch (IOException e) { e.printStackTrace(); } catch (ParseException e) { e.printStackTrace(); }
概要
以上はJSoup関数を使ってHTMLを解析する方法です。 JSoup を使用すると、Java で HTML ドキュメントを簡単に取得して操作できます。 Java プロジェクトに JSoup ライブラリを組み込み、JSoup の Document オブジェクト、セレクター、および要素を操作する API を正しく使用することで、データのフェッチや HTML フォームの変更などのタスクを簡単に完了できます。
以上がJavaでHTML解析にJSoup関数を使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。