ホームページ >バックエンド開発 >XML/RSS チュートリアル >XML ファイルを解析するいくつかの方法の比較に関する詳細な紹介

XML ファイルを解析するいくつかの方法の比較に関する詳細な紹介

黄舟
黄舟オリジナル
2017-03-31 14:45:501445ブラウズ

私たちは仕事で XML ファイルを解析する必要があることがよくありますが、数日前の面接でさらに詳しい知識について尋ねられたのですが、それは驚きでした。満足のいく答えが得られない場合は、記録して勉強します。

特徴: DOM は XML ファイルを一度にメモリにロードする必要があります。
SAX は 1 回限りのロードを必要とせず、すべてのデータが処理されるのを待たずにすぐに分析を開始できます。
JDOM は Java のコレクション オブジェクト を広範囲に利用しており、Java プログラマーの作業効率を大幅に向上させます。
DOM4J は現在最もよく使用されており、私たちのプロジェクトでも解析に DOM4j を使用しています。

1) DOM (JAXP Crimson Parser)
DOM は、プラットフォームや言語に依存しない方法で XML ドキュメントを表現するための公式 W3C 標準です。 DOM は、階層構造で編成されたノードまたは情報の集合です。この階層により、開発者はツリーで特定の情報を検索できます。この構造を分析するには、通常、作業を行う前にドキュメント全体をロードし、階層を構築する必要があります。 DOM は情報階層に基づいているため、ツリーベースまたはオブジェクトベースとみなされます。 DOM、および一般にツリーベースの処理には、いくつかの利点があります。まず、ツリーはメモリ内に永続的であるため、アプリケーションがデータと構造を変更できるように変更できます。また、SAX のような 1 回限りのプロセスではなく、いつでもツリーを上下に移動できます。 DOM の使用も非常に簡単です。 2) SAX

SAX 処理の利点は、ストリーミング メディアの利点と非常に似ています。すべてのデータが処理されるのを待つことなく、すぐに分析を開始できます。また、アプリケーションはデータの読み取り時にデータをチェックするだけなので、データをメモリに保存する必要はありません。これは、大きなドキュメントにとって大きな利点です。実際、アプリケーションはドキュメント全体を解析する必要さえなく、特定の条件が満たされた場合に解析を停止できます。一般に、SAX は、それに代わる DOM よりもはるかに高速です。

DOM または SAX を選択しますか? XML ドキュメントを処理するために独自のコードを記述する必要がある開発者にとって、DOM または SAX 解析
モデル
の選択は非常に重要な設計上の決定です。 DOM はツリー構造を使用して XML ドキュメントにアクセスしますが、SAX は event モデルを使用します。 DOM パーサーは、XML ドキュメントをそのコンテンツを含むツリーに変換し、ツリーをトラバースできます。 DOM を使用してモデルを解析する利点は、開発者がツリー構築命令を呼び出して、ナビゲーション
API
を使用して必要なツリー ノードにアクセスするだけで、タスクを完了できるプログラミングが簡単であることです。ツリー内の要素は簡単に追加および変更できます。ただし、DOM パーサーを使用する場合は XML ドキュメント全体を処理する必要があるため、特に大きな XML ファイルを処理する場合には、パフォーマンスとメモリの要件が比較的高くなります。 DOM パーサーは、そのトラバーサル機能により、XML ドキュメントを頻繁に変更する必要があるサービスでよく使用されます。 SAX パーサーはイベントベースのモデルを採用しており、XML ドキュメントを解析するときに一連のイベントをトリガーして、メソッドで指定されたタグが見つかったことをメソッドに通知できます。見つかった。 。 SAX では、開発者が処理するタグを決定できるため、通常、メモリ要件が低くなります。特に、開発者がドキュメントに含まれるデータの一部のみを処理する必要がある場合、SAX のスケーラビリティがよりよく反映されます。ただし、SAX パーサーを使用する場合はコーディングがさらに難しくなり、同じドキュメント内の複数の異なるデータに同時にアクセスすることが困難になります。

3) JDOM www.jdom.org

JDOM の目的は、XML との対話を簡素化し、DOM を使用するより高速な Java 固有のドキュメント モデルであることです。 JDOM は、最初の Java 固有のモデルになって以来、盛んに推進されてきました。最終的には、「Java 仕様要求 JSR-102」を通じて「Java 標準拡張」として使用することが検討されています。 JDOM の開発は 2000 年代初頭から始まりました。

JDOM と DOM の間には 2 つの主な違いがあります。まず、JDOM は具象クラスのみを使用し、
インターフェース
は使用しません。これにより、API がいくつかの点で簡素化されますが、柔軟性も制限されます。第 2 に、API は Collections クラスを広範囲に利用しており、これらのクラスにすでに精通している Java 開発者にとっての使用が簡素化されています。 JDOM のドキュメントには、その目的は「20% (またはそれ以下) の労力を使って 80% (またはそれ以上) の Java/XML 問題を解決する」ことであると記載されています (学習曲線に基づいて 20% を想定)。 JDOM は確かにほとんどの Java/XML アプリケーションにとって便利であり、ほとんどの開発者は API の方が DOM よりもはるかに理解しやすいと感じています。 JDOM には、ユーザーが XML で意味をなさないことを行うことを防ぐために、プログラムの動作に関するかなり広範なチェックも含まれています。ただし、基本以上のことを行うには、XML を十分に理解している必要があります (場合によってはエラーも理解する必要があります)。これは、DOM や JDOM インターフェイスを学習するよりも有意義な作業かもしれません。 JDOM 自体にはパーサーが含まれていません。通常、SAX2 パーサーを使用して入力 XML ドキュメントを解析および検証します (ただし、以前に構築された DOM 表現を入力として受け取ることもできます)。これには、JDOM 表現を SAX2 イベント ストリーム、DOM モデル、または XML テキスト ドキュメントに出力するコンバータが含まれています。 JDOM は、Apache ライセンスのバリアントに基づいてリリースされたオープン ソースです。

4) DOM4J dom4j.source
for
ge.net DOM4J は完全に独立した開発結果を表しますが、当初は JDOM のインテリジェント フォークでした。これには、統合された
XPath
サポート、XML スキーマ サポート、大規模ドキュメントまたはストリーミング ドキュメントのイベントベースの処理など、基本的な XML ドキュメント表現を超える多くの機能が組み込まれています。また、DOM4J API および標準 DOM インターフェイスを介した並列アクセス機能を備えたドキュメント表現を構築するためのオプションも提供します。 2000 年後半から開発が進められてきました。 これらすべての機能をサポートするために、DOM4J はインターフェイスと抽象基本クラス メソッドを使用します。 DOM4J は API で Collections クラスを多用しますが、多くの場合、パフォーマンスの向上やより直接的なコーディング アプローチを可能にする代替手段も提供します。直接的な利点は、DOM4J はより複雑な API の代償を払っていますが、JDOM よりもはるかに優れた柔軟性を提供することです。

DOM4J の目標は、柔軟性、XPath の統合、および大規模なドキュメントの処理を追加する一方で、Java 開発者にとっての使いやすさと直感的な操作という JDOM と同じです。また、JDOM よりも完全なソリューションとなることも目指しており、本質的にすべての Java/XML 問題を処理するという目標を達成します。その目標を達成する一方で、アプリケーションの不正な動作の防止には JDOM ほど重点を置いていません。

DOM4J は、優れたパフォーマンス、強力な機能、そして非常に使いやすい、非常に優れた Java XML API であり、オープンソース ソフトウェアでもあります。最近では、XML の読み取りと書き込みに DOM4J を使用する Java ソフトウェアが増えています。特に注目すべき点は、Sun の JAXM も DOM4J を使用していることです

2... 比較

1) DOM4J が最高のパフォーマンスを発揮します。 Sun の JAXM も DOM4J を使用しています。現在、DOM4J は多くのオープンソース プロジェクトで広く使用されています。たとえば、有名な Hibernate も XML
設定ファイル
を読み取るために DOM4J を使用しています。移植性を考慮しない場合は、DOM4J を使用してください 2) パフォーマンス テスト中に JDOM と DOM のパフォーマンスが低下し、10M ドキュメントをテストするとメモリ オーバーフローが発生しました。小さなドキュメントの場合は、DOM と JDOM の使用を検討する価値があります。JDOM の開発者は、正式リリース前にパフォーマンスの問題に重点を置く予定であると述べていますが、パフォーマンスの観点からは、実際には推奨できるものは何もありません。さらに、DOM は依然として非常に優れた選択肢です。 DOM 実装は、多くの
プログラミング言語
で広く使用されています。これは、多くの 他の XML 関連標準の基礎でもあり、(非標準ベースの Java モデルとは対照的に) W3C によって公式に推奨されているため、特定の種類のプロジェクトで必要になる場合もあります (例: JavaScript DOM を使用)。 3) SAX のパフォーマンスが向上しますが、これはその特定の解析方法、つまりイベント
ドライバー
に依存します。 SAX は受信 XML ストリームを検出しますが、それをメモリにロードしません (もちろん、XML ストリームが読み取られるとき、一部のドキュメントはメモリ内に一時的に隠蔽されます)。 3. 4 つの XML 操作メソッドの基本的な使用法
xml ファイル:

<?xml version="1.0" encoding="GB2312"?> 
<RESULT> 
<VALUE> 
   <NO>A1234</NO> 
   <ADDR>XX号</ADDR> 
</VALUE> 
<VALUE> 
   <NO>B1234</NO> 
   <ADDR>XX组</ADDR> 
</VALUE> 
</RESULT>

1) DOM

import java.io.*; 
import java.util.*; 
import org.w3c.dom.*; 
import javax.xml.parsers.*; 

public class MyXMLReader{ 
 public static void main(String arge[]){ 

  long lasting =System.currentTimeMillis(); 
  try{ 
   File f=new File("data_10k.xml"); 
   DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance(); 
   DocumentBuilder builder=factory.newDocumentBuilder(); 
   Document doc = builder.parse(f); 
   NodeList nl = doc.getElementsByTagName("VALUE"); 
   for (int i=0;i<nl.getLength();i++){ 
    System.out.print("车牌号码:" + doc.getElementsByTagName("NO").item(i).getFirstChild().getNodeValue()); 
    System.out.println("车主地址:" + doc.getElementsByTagName("ADDR").item(i).getFirstChild().getNodeValue()); 
   } 
  }catch(Exception e){ 
   e.printStackTrace(); 
}

2) SAX

import org.xml.sax.*; 
import org.xml.sax.helpers.*; 
import javax.xml.parsers.*; 

public class MyXMLReader extends DefaultHandler { 

 java.util.Stack tags = new java.util.Stack(); 
 public MyXMLReader() { 
  super(); 
} 

 public static void main(String args[]) { 
  long lasting = System.currentTimeMillis(); 
  try { 
   SAXParserFactory sf = SAXParserFactory.newInstance(); 
   SAXParser sp = sf.newSAXParser(); 
   MyXMLReader reader = new MyXMLReader(); 
   sp.parse(new InputSource("data_10k.xml"), reader); 
  } catch (Exception e) { 
   e.printStackTrace(); 
  } 

  System.out.println("运行时间:" + (System.currentTimeMillis() - lasting) + "毫秒");} 
  public void characters(char ch[], int start, int length) throws SAXException { 
  String tag = (String) tags.peek(); 
  if (tag.equals("NO")) { 
   System.out.print("车牌号码:" + new String(ch, start, length)); 
} 
if (tag.equals("ADDR")) { 
  System.out.println("地址:" + new String(ch, start, length)); 
} 
} 

  public void startElement(String uri,String localName,String qName,Attributes attrs) { 
  tags.push(qName);} 
}

3) JDOM

import java.io.*; 
import java.util.*; 
import org.jdom.*; 
import org.jdom.input.*; 

public class MyXMLReader { 

 public static void main(String arge[]) { 
  long lasting = System.currentTimeMillis(); 
  try { 
   SAXBuilder builder = new SAXBuilder(); 
   Document doc = builder.build(new File("data_10k.xml")); 
   Element foo = doc.getRootElement(); 
   List allChildren = foo.getChildren(); 
   for(int i=0;i<allChildren.size();i++) { 
    System.out.print("车牌号码:" + ((Element)allChildren.get(i)).getChild("NO").getText()); 
    System.out.println("车主地址:" + ((Element)allChildren.get(i)).getChild("ADDR").getText()); 
   } 
  } catch (Exception e) { 
   e.printStackTrace(); 
} 

}

4) DOM4J

import java.io.*; 
import java.util.*; 
import org.dom4j.*; 
import org.dom4j.io.*; 

public class MyXMLReader { 

 public static void main(String arge[]) { 
  long lasting = System.currentTimeMillis(); 
  try { 
   File f = new File("data_10k.xml"); 
   SAXReader reader = new SAXReader(); 
   Document doc = reader.read(f); 
   Element root = doc.getRootElement(); 
   Element foo; 
   for (Iterator i = root.elementIterator("VALUE"); i.hasNext() { 
    foo = (Element) i.next(); 
    System.out.print("车牌号码:" + foo.elementText("NO")); 
    System.out.println("车主地址:" + foo.elementText("ADDR")); 
   } 
  } catch (Exception e) { 
   e.printStackTrace(); 
} 
)

以上がXML ファイルを解析するいくつかの方法の比較に関する詳細な紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。