Heim  >  Artikel  >  Backend-Entwicklung  >  Wie gehe ich mit optionalen Leerzeichen in regulären Ausdrücken um, um eine genaue Datenextraktion zu ermöglichen?

Wie gehe ich mit optionalen Leerzeichen in regulären Ausdrücken um, um eine genaue Datenextraktion zu ermöglichen?

Susan Sarandon
Susan SarandonOriginal
2024-10-24 08:20:30387Durchsuche

How to Handle Optional Whitespace in Regular Expressions for Accurate Data Extraction?

Optionale Leerzeichen-Regex: Leerzeichen in Attributwerten ignorieren

In der Programmierung gibt es Szenarien, in denen Sie mit Instanzen umgehen müssen, in denen Zeichenfolgen optionale Leerzeichen enthalten . Dies kann eine Herausforderung sein, wenn Sie reguläre Ausdrücke schreiben, um Daten genau zu extrahieren.

Bedenken Sie den folgenden Code:

# Get Image data
preg_match('#<a href=&quot;(.*?)&quot; title=&quot;(.*?)&quot;><img alt=&quot;(.*?)&quot; src=&quot;(.*?)&quot;[\s*]width=&quot;150&quot;[\s*]height=&quot;(.*?)&quot;></a>#', $data, $imagematch);
$image = $imagematch[4];

Dieser Code extrahiert das src-Attribut eines Bildes aus dem HTML-Markup. Allerdings werden Fälle nicht behandelt, in denen zwischen bestimmten Attributen kein Leerzeichen vorhanden ist, z. B.:

<code class="html"><a href=&quot;/wiki/File:Sky1.png&quot; title=&quot;File:Sky1.png&quot;><img alt=&quot;Sky1.png&quot; src=&quot;http://media-mcw.cursecdn.com/thumb/5/56/Sky1.png/150px-Sky1.png&quot;width=&quot;150&quot; height=&quot;84&quot;></a></code>

oder

<code class="html"><a href=&quot;/wiki/File:TallGrass.gif&quot; title=&quot;File:TallGrass.gif&quot;><img alt=&quot;TallGrass.gif&quot; src=&quot;http://media-mcw.cursecdn.com/3/34/TallGrass.gif&quot; width=&quot;150&quot;height=&quot;150&quot;></a></code>

Um dieses Problem zu beheben, können wir optionale Leerzeichen-Regex verwenden. Dadurch können wir Leerzeichen zwischen Zeichen ignorieren. So geht's:

#<a href\s?=&quot;(.*?)&quot; title\s?=&quot;(.*?)"><img alt\s?=&quot;(.*?)&quot; src\s?=&quot;(.*?)&quot;[\s*]width\s?=&quot;150&quot;[\s*]height\s?=&quot;(.*?)"></a>#

In diesem aktualisierten regulären Ausdruck:

  • s? before = bedeutet, dass ein Leerzeichen zulässig, aber optional ist.
  • s* nach dem Attributwert ermöglicht ein optionales Leerzeichen nach dem Attributnamen und -wert.

Das obige ist der detaillierte Inhalt vonWie gehe ich mit optionalen Leerzeichen in regulären Ausdrücken um, um eine genaue Datenextraktion zu ermöglichen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn