ホームページ >バックエンド開発 >PHPチュートリアル >PHPでXMLを解析する4つの方法を詳しく解説

PHPでXMLを解析する4つの方法を詳しく解説

墨辰丷オリジナル: 2018-05-31 10:21:052038ブラウズ

この記事では、主にphpでxmlを解析する4つの方法について詳しく紹介しますので、必要な方は参考にしてください

phpでxmlを解析する4つの方法

XML処理は、開発中によく遭遇します。プロセスはい、PHP も豊富にサポートしています。この記事では、Xml パーサー、SimpleXML、XMLReader、DOMDocument などの解析テクノロジの一部について簡単に説明します。

1. XML Expat パーサー:

XML パーサーは Expat XML パーサーを使用します。 Expat は、XML ドキュメントを一連のイベントとして扱うイベントベースのパーサーです。イベントが発生すると、指定された関数を呼び出してそれを処理します。 Expat は、ドキュメントにリンクされている DTD を無視する検証不要のパーサーです。ただし、ドキュメントの形式が適切でない場合は、エラーメッセージが表示されます。 Expat はイベントベースで検証がないため、高速であり、Web アプリケーションに適しています。

XML パーサーの利点は、XML ドキュメント全体をメモリにロードして処理するのではなく、解析しながら処理するため、パフォーマンスが優れていることです。しかし、まさにこのため、XML 構造を動的に調整したり、XML コンテキスト構造に基づいて複雑な操作を実行する必要があるユーザーには適していません。適切に構造化された XML ドキュメントを解析して処理したいだけであれば、このタスクを適切に完了できます。 XML パーサーは、US-ASCII、ISO-8859-1、UTF-8 の 3 つのエンコード形式のみをサポートしていることに注意してください。XML データが他のエンコード形式である場合は、まず、上記の 3 つのいずれかに変換する必要があります。
XML パーサーには一般的に 2 つのよく使用される解析メソッド (実際には 2 つの関数)、xml_parse_into_struct と xml_set_element_handler があります。

xml_parse_into_struct

このメソッドは、XML データを 2 つの配列に解析します:

index 配列 - Value 配列内の値の位置へのポインターが含まれます
value 配列 - 解析された XML からのデータが含まれます

これら 2 つの配列をテキストで説明するのは少し面倒なので、例を見てみましょう (PHP 公式ドキュメントから)

$simple = "<para><note>simple note</note></para>";
$p = xml_parser_create();
xml_parse_into_struct($p, $simple, $vals, $index);
xml_parser_free($p);
echo "Index array\n";
print_r($index);
echo "\nVals array\n";
print_r($vals);

出力:

Index array
Array
(
  [PARA] => Array
    (
      [0] => 0
      [1] => 2
    )

  [NOTE] => Array
    (
      [0] => 1
    )
)

Vals array
Array
(
  [0] => Array
    (
      [tag] => PARA
      [type] => open
      [level] => 1
    )

  [1] => Array
    (
      [tag] => NOTE
      [type] => complete
      [level] => 2
      [value] => simple note
    )

  [2] => Array
    (
      [tag] => PARA
      [type] => close
      [level] => 1
    )
)

ここで、インデックス配列にはラベル名キーと対応する値値配列内のこのすべてのタグの位置を含む配列です。次に、この位置から、このラベルに対応する値を見つけます。

XML 内の各データの形式が異なっており、完全に統一できない場合、コードを記述するときに注意する必要があり、間違った結果が得られる可能性があります。たとえば、次の例:

$xml = &#39;
<infos>
<para><note>note1</note><extra>extra1</extra></para>
<para><note>note2</note></para>
<para><note>note3</note><extra>extra3</extra></para>
</infos>
&#39;;

$p = xml_parser_create();
xml_parse_into_struct($p, $xml, $values, $tags);
xml_parser_free($p);
$result = array();

//下面的遍历方式有bug隐患
for ($i=0; $i<3; $i++) {
 $result[$i] = array();
 $result[$i]["note"] = $values[$tags["NOTE"][$i]]["value"];
 $result[$i]["extra"] = $values[$tags["EXTRA"][$i]]["value"];
}
print_r($result);

上記の方法でトラバースすると、コードは単純に見えますが、隠れた危険性があります。最も致命的なのは、間違った結果が得られることです (extra3)。内側の 2 番目のパラまで実行されます)。したがって、より厳密な方法でトラバースする必要があります:

$result = array();
$paraTagIndexes = $tags[&#39;PARA&#39;];
$paraCount = count($paraTagIndexes);
for($i = 0; $i < $paraCount; $i += 2) {
 $para = array();
 //遍历para标签对之间的所有值
 for($j = $paraTagIndexes[$i]; $j < $paraTagIndexes[$i+1]; $j++) {
  $value = $values[$j][&#39;value&#39;];
  if(empty($value)) continue;

  $tagname = strtolower($values[$j][&#39;tag&#39;]);
  if(in_array($tagname, array(&#39;note&#39;,&#39;extra&#39;))) {
   $para[$tagname] = $value;
  }
 }
 $result[] = $para;
}

実際、私は xml_parse_into_struct 関数をほとんど使用しないため、上記のいわゆる「厳密な」コードが保存されていない場合、他の状況でバグが発生することになります。。 - -|

xml_set_element_handler

このメソッドは、要素の開始と終了を処理するパーサーのコールバック関数を設定します。パーサーのデータを設定するために使用されるコールバック関数 xml_set_character_data_handler も含まれています。この方法で記述されたコードはより明確で、保守が容易になります。

例:

$xml = <<<XML
<infos>
<para><note>note1</note><extra>extra1</extra></para>
<para><note>note2</note></para>
<para><note>note3</note><extra>extra3</extra></para>
</infos>
XML;

$result = array();
$index = -1;
$currData;

function charactor($parser, $data) {
 global $currData;
 $currData = $data;
}

function startElement($parser, $name, $attribs) {
 global $result, $index;
 $name = strtolower($name);
 if($name == &#39;para&#39;) {
  $index++;
  $result[$index] = array();
 }
}

function endElement($parser, $name) {
 global $result, $index, $currData;
 $name = strtolower($name);
 if($name == &#39;note&#39; || $name == &#39;extra&#39;) {
  $result[$index][$name] = $currData;
 }
}

$xml_parser = xml_parser_create();
xml_set_character_data_handler($xml_parser, "charactor");
xml_set_element_handler($xml_parser, "startElement", "endElement");
if (!xml_parse($xml_parser, $xml)) {
 echo "Error when parse xml: ";
 echo xml_error_string(xml_get_error_code($xml_parser));
}
xml_parser_free($xml_parser);

print_r($result);

set ハンドラーメソッドには多くのコード行があり、明確なアイデアと優れた可読性を備えていますが、最初のメソッドよりもパフォーマンスがわずかに遅く、柔軟性が劣っていることがわかります。強い。 XML パーサーは PHP4 をサポートしており、古いバージョンを使用するシステムに適しています。 PHP5環境の場合は以下の方法を優先してください。

2. SimpleXML

SimpleXML は、PHP5 以降に提供された、XML を処理に便利なオブジェクトに変換したり、XML データを整理して生成したりできる、シンプルで使いやすい XML ツールのセットです。ただし、名前空間を含む XML には適用されず、XML は整形式である必要があります。これは、simplexml_import_dom、simplexml_load_file、simplexml_load_string の 3 つのメソッドを提供します。関数名は関数を直感的に説明します。 3 つの関数はすべて SimpleXMLElement オブジェクトを返し、データは SimpleXMLElement 操作を通じて読み取り/追加されます。

$string = <<<XML
<?xml version=&#39;1.0&#39;?>
<document>
 <cmd>login</cmd>
 <login>imdonkey</login>
</document>
XML;

$xml = simplexml_load_string($string);
print_r($xml);
$login = $xml->login;//这里返回的依然是个SimpleXMLElement对象
print_r($login);
$login = (string) $xml->login;//在做数据比较时，注意要先强制转换
print_r($login);

SimpleXML の利点は、開発が簡単であることです。欠点は、処理前に XML 全体をメモリにロードするため、大量のコンテンツを含む XML ドキュメントを解析できない可能性があることです。。小さなファイルを読み取っていて、XML に名前空間が含まれていない場合は、SimpleXML が適切な選択です。

3. XMLReader

XMLReader も PHP5 以降の拡張機能です (5.1 以降はデフォルトでインストールされます) ドキュメントフロー内をカーソルのように移動し、各ノードで停止するため、非常に柔軟な操作が可能です。入力への高速かつ非キャッシュのストリーミングアクセスを提供し、ストリームまたはドキュメントを読み取ることができるため、ユーザーはそこからデータを抽出し、アプリケーションにとって意味のないレコードをスキップできます。

Google Weather API を使用して情報を取得する例では、少数の関数のみが使用されています。詳細については、公式ドキュメントを参照してください。

りー

XMLReader和XML Parser类似，都是边读边操作，较大的差异在于SAX模型是一个“推送”模型，其中分析器将事件推到应用程序，在每次读取新节点时通知应用程序，而使用XmlReader的应用程序可以随意从读取器提取节点，可控性更好。
由于XMLReader基于libxml，所以有些函数要参考文档看看是否适用于你的libxml版本。

4。 DOMDocument

DOMDocument还是PHP5后推出的DOM扩展的一部分，可用来建立或解析html/xml，目前只支持utf-8编码。

$xmlstring = <<<XML
<?xml version=&#39;1.0&#39;?>
<document>
 <cmd attr=&#39;default&#39;>login</cmd>
 <login>imdonkey</login>
</document>
XML;

$dom = new DOMDocument();
$dom->loadXML($xmlstring);
print_r(getArray($dom->documentElement));

function getArray($node) {
 $array = false;

 if ($node->hasAttributes()) {
  foreach ($node->attributes as $attr) {
   $array[$attr->nodeName] = $attr->nodeValue;
  }
 }

 if ($node->hasChildNodes()) {
  if ($node->childNodes->length == 1) {
   $array[$node->firstChild->nodeName] = getArray($node->firstChild);
  } else {
   foreach ($node->childNodes as $childNode) {
   if ($childNode->nodeType != XML_TEXT_NODE) {
    $array[$childNode->nodeName][] = getArray($childNode);
   }
  }
 }
 } else {
  return $node->nodeValue;
 }
 return $array;
}

从函数名上看感觉跟JavaScript很像，应该是借鉴了一些吧。DOMDocument也是一次性将xml载入内存，所以内存问题同样需要注意。PHP提供了这么多的xml处理方式，开发人员在选择上就要花些时间了解，选择适合项目需求及系统环境、又便于维护的方法。

以上就是本文的全部内容，希望对大家的学习有所帮助。

PHPでXMLを解析する4つの方法を詳しく解説

関連記事