집 >백엔드 개발 >XML/RSS 튜토리얼 >네 가지 XML 구문 분석 방법에 대한 자세한 설명
우리 모두 알고 있듯이 XML을 구문 분석하는 방법은 점점 더 많아지고 있지만 주류 방법은 DOM, SAX, JDOM 및 DOM4J
다음은 먼저 이 네 가지 메서드의 jar 패키지 다운로드 주소를 제공합니다.
DOM: 현재 Java JDK에 포함되어 있습니다. apis.jar 패키지
SAX: http://www.php.cn/
JDOM: http://www.php.cn/
DOM4J: http: //www.php.cn/
DOM은 플랫폼과 함께 사용됩니다. 언어 독립적인 방식으로 XML 문서를 표현하기 위한 공식 W3C 표준입니다. DOM은 계층 구조로 구성된 노드 또는 정보 조각의 모음입니다. 이 계층 구조를 통해 개발자는 트리에서 특정 정보를 검색할 수 있습니다. 이 구조를 분석하려면 일반적으로 작업을 완료하기 전에 전체 문서를 로드하고 계층 구조를 구성해야 합니다. DOM은 정보 계층 구조를 기반으로 하기 때문에 트리 기반 또는 객체 기반으로 간주됩니다.
【장점】
①애플리케이션에서 데이터 및 구조를 변경할 수 있습니다.
②액세스는 양방향입니다. 언제든지 트리에서 위아래로 탐색할 수 있으며 데이터의 일부를 획득하고 운영할 수 있습니다.
【단점】
① 계층적 구조를 구성하려면 XML 문서 전체를 로드해야 하는 경우가 많아 리소스를 많이 소모하는 경우가 많다.
SAX 처리의 장점은 스트리밍 미디어의 장점과 매우 유사합니다. 모든 데이터가 처리될 때까지 기다리지 않고 즉시 분석을 시작할 수 있습니다. 또한 애플리케이션은 데이터를 읽으면서 확인만 하기 때문에 데이터를 메모리에 저장할 필요가 없습니다. 이는 대용량 문서의 경우 큰 장점입니다. 실제로 애플리케이션은 전체 문서를 구문 분석할 필요조차 없으며 특정 조건이 충족되면 구문 분석을 중지할 수 있습니다. 일반적으로 SAX는 대체품인 DOM보다 훨씬 빠릅니다.
DOM 또는 SAX를 선택하시겠습니까? XML 문서를 처리하기 위해 자신의 코드를 작성해야 하는 개발자의 경우 DOM 또는 SAX 구문 분석 모델을 선택하는 것은 매우 중요한 디자인 결정입니다. DOM은 트리 구조를 사용하여 XML 문서에 액세스하는 반면 SAX는 이벤트 모델을 사용합니다.
DOM 파서는 XML 문서를 해당 콘텐츠가 포함된 트리로 변환하고 트리를 순회할 수 있습니다. DOM을 사용하여 모델을 구문 분석하면 프로그래밍이 쉽다는 장점이 있습니다. 개발자는 트리 작성 지침을 호출한 다음 탐색 API를 사용하여 작업을 완료하는 데 필요한 트리 노드에 액세스하면 됩니다. 트리의 요소는 쉽게 추가하고 수정할 수 있습니다. 그러나 DOM 파서를 사용할 때는 전체 XML 문서를 처리해야 하므로 성능 및 메모리 요구 사항이 상대적으로 높으며, 특히 대용량 XML 파일을 접할 때 더욱 그렇습니다. 순회 기능으로 인해 DOM 파서는 XML 문서를 자주 변경해야 하는 서비스에서 자주 사용됩니다.
SAX 파서는 XML 문서를 구문 분석할 때 일련의 이벤트를 트리거할 수 있으며 콜백 메소드를 활성화하고 태그가 발견되었습니다. SAX는 개발자가 처리할 태그를 결정할 수 있도록 하기 때문에 일반적으로 메모리 요구 사항이 낮습니다. 특히 개발자가 문서에 포함된 데이터의 일부만 처리하면 되는 경우 SAX의 확장성이 더 잘 반영됩니다. 그러나 SAX 파서를 사용할 때 코딩이 더 어렵고, 동일한 문서에 있는 여러 다른 데이터에 동시에 액세스하기가 어렵습니다.
【장점】
① 모든 데이터가 처리될 때까지 기다릴 필요 없이 바로 분석을 시작할 수 있습니다.
②데이터를 읽을 때만 확인하며, 메모리에 저장할 필요는 없습니다.
③문서 전체를 파싱하지 않고 특정 조건이 만족되면 파싱을 중지할 수 있습니다.
④효율성과 성능이 뛰어나 시스템 메모리보다 큰 문서를 구문 분석할 수 있습니다.
【단점】
① 애플리케이션이 TAG 처리 로직(상위/하위 관계 유지 등)을 담당해야 합니다. 문서가 복잡할수록 내용도 복잡해집니다. 프로그램.
②단방향 탐색, 문서 계층 구조를 찾을 수 없고 동일한 문서에 있는 데이터의 다른 부분에 동시에 액세스하기 어렵기 때문에 XPath를 지원하지 않습니다.
JDOM의 목적은 XML과의 상호 작용을 단순화하고 DOM을 사용하는 것보다 빠른 Java 전용 문서 모델입니다. JDOM은 최초의 Java 관련 모델인 이래로 많이 홍보되고 홍보되었습니다. "Java 사양 요청 JSR-102"를 통해 "Java 표준 확장"으로 최종 사용이 고려되고 있습니다. JDOM 개발은 2000년대 초반부터 시작되었습니다.
JDOM과 DOM에는 두 가지 주요 차이점이 있습니다. 첫째, JDOM은 인터페이스가 아닌 구체적인 클래스만 사용합니다. 이는 어떤 면에서는 API를 단순화하지만 유연성도 제한합니다. 둘째, API는 Collections 클래스를 광범위하게 사용하므로 이러한 클래스에 이미 익숙한 Java 개발자의 사용을 단순화합니다.
JDOM 문서에는 그 목적이 "20%(또는 그 이하)의 노력을 사용하여 80%(또는 그 이상) Java/XML 문제를 해결"하는 것이라고 나와 있습니다(학습 곡선을 기준으로 20% 가정). JDOM은 확실히 대부분의 Java/XML 애플리케이션에 유용하며 대부분의 개발자는 API가 DOM보다 훨씬 이해하기 쉽다고 생각합니다. JDOM에는 또한 사용자가 XML에서 의미가 없는 작업을 수행하지 못하도록 프로그램 동작에 대한 상당히 광범위한 검사가 포함되어 있습니다. 그러나 기본 이상의 작업을 수행하려면 XML을 충분히 이해해야 합니다(또는 경우에 따라 오류도 이해해야 함). 이는 DOM이나 JDOM 인터페이스를 배우는 것보다 더 의미 있는 작업일 수 있습니다.
JDOM 자체에는 파서가 포함되어 있지 않습니다. 일반적으로 SAX2 파서를 사용하여 입력 XML 문서를 구문 분석하고 검증합니다(이전에 구성된 DOM 표현을 입력으로 사용할 수도 있음). 여기에는 JDOM 표현을 SAX2 이벤트 스트림, DOM 모델 또는 XML 텍스트 문서로 출력하는 변환기가 포함되어 있습니다. JDOM은 Apache 라이센스의 변형에 따라 릴리스된 오픈 소스입니다.
【장점】
① 인터페이스 대신 구체적인 클래스를 사용하면 DOM API가 단순화됩니다.
②Java 개발자에게 편리한 Java 컬렉션 클래스를 광범위하게 사용합니다.
【단점】
①더 나은 유연성이 없습니다.
② 실적이 부진하다.
DOM4J는 완전히 독립적인 개발 결과를 나타내지만 처음에는 JDOM의 지능형 분기였습니다. 이는 통합 XPath 지원, XML 스키마 지원, 대규모 문서 또는 스트리밍 문서에 대한 이벤트 기반 처리를 포함하여 기본 XML 문서 표현 이상의 많은 기능을 통합합니다. 또한 DOM4J API 및 표준 DOM 인터페이스를 통해 병렬 액세스 기능을 갖춘 문서 표현을 구축하는 옵션도 제공합니다. 2000년 하반기부터 개발이 진행 중이다.
이러한 모든 기능을 지원하기 위해 DOM4J는 인터페이스와 추상 기본 클래스 메소드를 사용합니다. DOM4J는 API에서 Collections 클래스를 많이 사용하지만 많은 경우 더 나은 성능이나 보다 직접적인 코딩 접근 방식을 허용하는 대안도 제공합니다. 직접적인 이점은 DOM4J가 더 복잡한 API의 비용을 지불하지만 JDOM보다 훨씬 더 큰 유연성을 제공한다는 것입니다.
유연성, XPath 통합 및 대용량 문서 처리 목표를 추가하는 동시에 DOM4J의 목표는 JDOM과 동일합니다. 즉, Java 개발자를 위한 사용 용이성과 직관적인 작업입니다. 또한 기본적으로 모든 Java/XML 문제를 처리한다는 목표를 달성하여 JDOM보다 더 완벽한 솔루션을 목표로 합니다. 해당 목표를 달성하는 동안 잘못된 애플리케이션 동작을 방지하는 데 JDOM보다 덜 중점을 둡니다.
DOM4J는 뛰어난 성능, 강력한 기능 및 사용 편의성을 갖춘 매우 우수한 Java XML API이기도 합니다. 요즘에는 점점 더 많은 Java 소프트웨어가 DOM4J를 사용하여 XML을 읽고 쓰는 것을 볼 수 있습니다. 특히 Sun의 JAXM도 DOM4J를 사용하고 있다는 점은 언급할 가치가 있습니다.
[장점]
①광범위한 사용 Java 개발자를 지원하고 성능 향상을 위한 몇 가지 대체 방법을 제공하기 위한 Java 컬렉션 클래스입니다.
②XPath를 지원합니다.
③성능이 매우 좋습니다.
[단점]
① 인터페이스의 폭이 넓으며, API가 상대적으로 복잡하다.
1. DOM4J는 성능이 가장 좋고, Sun의 JAXM도 DOM4J를 사용하고 있습니다. 현재 DOM4J는 많은 오픈 소스 프로젝트에서 널리 사용되고 있습니다. 예를 들어 유명한 Hibernate도 DOM4J를 사용하여 XML 구성 파일을 읽습니다. 이식성을 고려하지 않는다면 DOM4J를 사용하세요.
2. JDOM과 DOM은 성능 테스트 중 성능이 좋지 않았고, 10M 문서 테스트 시 메모리 오버플로가 발생했지만 이식 가능합니다. 작은 문서의 경우 DOM과 JDOM을 사용하는 것도 고려해 볼 만하다. JDOM 개발자들은 공식 출시 전에 성능 문제에 집중할 것이라고 밝혔지만, 성능 측면에서는 별로 추천할 만한 것이 없다. 게다가 DOM은 여전히 매우 좋은 선택입니다. DOM 구현은 많은 프로그래밍 언어에서 널리 사용됩니다. 이는 또한 다른 많은 XML 관련 표준의 기초이기도 하며, W3C에서 공식적으로 권장하기 때문에(비표준 기반 Java 모델과 반대) 특정 유형의 프로젝트(예: 자바스크립트의 DOM).
3. SAX의 성능은 특정 구문 분석 방법(이벤트 중심)에 따라 달라집니다. SAX는 들어오는 XML 스트림을 감지하지만 이를 메모리에 로드하지 않습니다. 물론 XML 스트림을 읽을 때 일부 문서는 일시적으로 메모리에 숨겨집니다.
내 의견: XML 문서가 크고 이식성을 고려하지 않으면 DOM4J를 사용하는 것이 좋습니다. XML 문서가 작으면 JDOM을 사용하는 것이 좋습니다. 데이터를 저장하지 않고 적시에 SAX를 고려하십시오. 하지만 어쨌든 똑같은 문장이 남습니다. 자신에게 맞는 것이 가장 좋습니다. 시간이 허락한다면 네 가지 방법을 모두 시도한 다음 자신에게 맞는 방법을 선택하는 것이 좋습니다.
여기에서는 공간을 절약하기 위해 XML 문서를 생성하는 네 가지 방법과 차이점은 당분간 제공하지 않습니다. 필요합니다(XML 문서 생성 + XML 구문 분석 + 비교 테스트).
여기에서는 구문 분석을 위한 예로 다음 XML 콘텐츠를 사용합니다.
930406f08da8ee4a2ff134b688d29d1d e8dd9eb44edeacdd023001179a1ca983 8a89670bc7dd6f95788c9d405d9c48e3 8a11bc632ea32a57b3e3693c7987c420Alexiadf406f776eecbaf16b62325323196f14 ff4fd28be6111b38109cb452b13c2daa233c0b87764dcdf259cfde0951b2fe8a3a 5eb1976fb331069a3f8db095dc061fe9Female1a8de34dd1983c867de2a59ae06cc634 82e572c0592488450700b47a70c7de63 e08ab7d284d413e4f9b26621b4f6b430 8a11bc632ea32a57b3e3693c7987c420Edwarddf406f776eecbaf16b62325323196f14 ff4fd28be6111b38109cb452b13c2daa243c0b87764dcdf259cfde0951b2fe8a3a 5eb1976fb331069a3f8db095dc061fe9Male1a8de34dd1983c867de2a59ae06cc634 82e572c0592488450700b47a70c7de63 f2f27178e514f060b6881b0072586228 8a11bc632ea32a57b3e3693c7987c420wjmdf406f776eecbaf16b62325323196f14 ff4fd28be6111b38109cb452b13c2daa233c0b87764dcdf259cfde0951b2fe8a3a 5eb1976fb331069a3f8db095dc061fe9Female1a8de34dd1983c867de2a59ae06cc634 82e572c0592488450700b47a70c7de63 526dde90d953d1c9e5d247d3074861b9 8a11bc632ea32a57b3e3693c7987c420whdf406f776eecbaf16b62325323196f14 ff4fd28be6111b38109cb452b13c2daa243c0b87764dcdf259cfde0951b2fe8a3a 5eb1976fb331069a3f8db095dc061fe9Male1a8de34dd1983c867de2a59ae06cc634 82e572c0592488450700b47a70c7de63 7d41ab24a95fb449b86dda91cee9afef
먼저 XML 문서 구문 분석을 위한 인터페이스를 정의합니다.
/** * @author Alexia * * 定义XML文档解析的接口 */ public interface XmlDocument { /** * 解析XML文档 * * @param fileName * 文件全路径名称 */ public void parserXml(String fileName); }
package com.xml; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.PrintWriter; import javax.xml.parsers.DocumentBuilder; import javax.xml.parsers.DocumentBuilderFactory; import javax.xml.parsers.ParserConfigurationException; import javax.xml.transform.OutputKeys; import javax.xml.transform.Transformer; import javax.xml.transform.TransformerConfigurationException; import javax.xml.transform.TransformerException; import javax.xml.transform.TransformerFactory; import javax.xml.transform.dom.DOMSource; import javax.xml.transform.stream.StreamResult; import org.w3c.dom.Document; import org.w3c.dom.Element; import org.w3c.dom.Node; import org.w3c.dom.NodeList; import org.xml.sax.SAXException; /** * * DOM 解析XML文档 */ public class DomDemo implements XmlDocument { private Document document; public void parserXml(String fileName) { try { DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); DocumentBuilder db = dbf.newDocumentBuilder(); Document document = db.parse(fileName); NodeList users = document.getChildNodes(); for (int i = 0; i 39a4cbb683e42db76369a49f278553e3 0) { this.attributes = attributes; this.hasAttribute = true; } } public void endElement(String uri, String localName, String qName) throws SAXException { if (hasAttribute && (attributes != null)) { for (int i = 0; i < attributes.getLength(); i++) { System.out.print(attributes.getQName(0) + ":" + attributes.getValue(0)); } } } public void characters(char[] ch, int start, int length) throws SAXException { System.out.print(new String(ch, start, length)); } }
package com.xml; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.util.List; import org.jdom2.Document; import org.jdom2.Element; import org.jdom2.JDOMException; import org.jdom2.input.SAXBuilder; import org.jdom2.output.XMLOutputter; /** * * JDOM 解析XML文档 * */ public class JDomDemo implements XmlDocument { public void parserXml(String fileName) { SAXBuilder builder = new SAXBuilder(); try { Document document = builder.build(fileName); Element users = document.getRootElement(); List userList = users.getChildren("user"); for (int i = 0; i < userList.size(); i++) { Element user = (Element) userList.get(i); List userInfo = user.getChildren(); for (int j = 0; j < userInfo.size(); j++) { System.out.println(((Element) userInfo.get(j)).getName() + ":" + ((Element) userInfo.get(j)).getValue()); } System.out.println(); } } catch (JDOMException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } } }
package com.xml; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Iterator; import org.dom4j.Document; import org.dom4j.DocumentException; import org.dom4j.DocumentHelper; import org.dom4j.Element; import org.dom4j.io.SAXReader; import org.dom4j.io.XMLWriter; /** * * Dom4j 解析XML文档 */ public class Dom4jDemo implements XmlDocument { public void parserXml(String fileName) { File inputXml = new File(fileName); SAXReader saxReader = new SAXReader(); try { Document document = saxReader.read(inputXml); Element users = document.getRootElement(); for (Iterator i = users.elementIterator(); i.hasNext();) { Element user = (Element) i.next(); for (Iterator j = user.elementIterator(); j.hasNext();) { Element node = (Element) j.next(); System.out.println(node.getName() + ":" + node.getText()); } System.out.println(); } } catch (DocumentException e) { System.out.println(e.getMessage()); } } }
위는 4가지 XML 파싱 방법에 대한 자세한 설명입니다. 더 많은 관련 내용을 주목하세요. PHP 중국어 웹사이트(www.php.cn)!