


Wie kann ich die Unicode-Unterstützung in regulären Java-Ausdrücken für \w und \b verbessern?
Unicode-Äquivalente für w und b in regulären Java-Ausdrücken
Javas Regex-Implementierung bietet nur begrenzte Unterstützung für Unicode, was es schwierig macht, Wörter oder zuzuordnen Wortgrenzen genau. Die standardmäßigen W- und B-Escapezeichen entsprechen nur ASCII-Zeichen.
Um dieses Problem zu beheben, sollten Sie die Verwendung einer Funktion in Betracht ziehen, die diese Escapezeichen neu schreibt und sie durch Unicode-fähige Definitionen ersetzt. Diese Funktion kann die folgenden 14 Zeichenklassen-Escapezeichen umschreiben:
\w \W \s \S \v \V \h \H \d \D \b \B \X \R
Umgeschriebene Escape-Definitionen:
- w: Erfasst Buchstaben, Ziffern und bestimmte Satzzeichen (p{L}pMp{Nd}p{Nl}p{Pc}[p{InEnclosedAlphanumerics}&&p{So}]])
- W: Schließt alle mit w übereinstimmenden Zeichen aus
- s: Entspricht Unicode-Leerzeichen ([u0009-u000Du0020u0085u00A0u1680u180Eu2000-u200Au2028u2029u202Fu205Fu3000])
- S: Schließt alle mit s übereinstimmenden Zeichen aus
- v: Entspricht Unicode-Vertikal Leerzeichen ([u000A-u000Du0085u2028u2029])
- V: Schließt alle mit v übereinstimmenden Zeichen aus
- h: Entspricht dem horizontalen Unicode-Leerzeichen ([u0009u0020u00A0u1680u180Eu2000-u200Au202Fu205Fu3000])
- H: Schließt alle mit h übereinstimmenden Zeichen aus
- d: Entspricht Unicode-Ziffern (p{Nd})
- D: Schließt alle mit d übereinstimmenden Zeichen aus.
- b: Entspricht Wortgrenzen unter Berücksichtigung nur von Unicode-Wortzeichen.
- B: Entspricht Nicht-Wortgrenzen unter Berücksichtigung von Unicode-Wortzeichen.
- X: Entspricht erweiterten Graphemen Cluster
- R: Entspricht Zeilenumbrüchen, einschließlich Unicode-Zeile Pausen
Grenzdefinitionen:
Grenzfluchten (b und B) können mit der folgenden Logik umgeschrieben werden:
- b : (?:(?
- B: (?:(?
Java reparieren mit Java:
Diese Funktion kann in Java mithilfe des im ursprünglichen Diskussionsthread bereitgestellten Codes implementiert werden. Mithilfe dieses Codes können Sie Regex-Muster neu schreiben, um Unicode-Zeichen besser zu verarbeiten.
Hinweis:
In Java 7 führt die Pattern-Klasse das Flag UNICODE_CHARACTER_CLASS ein, das die Unicode-Unterstützung für ermöglicht diese Escapes standardmäßig.
Das obige ist der detaillierte Inhalt vonWie kann ich die Unicode-Unterstützung in regulären Java-Ausdrücken für \w und \b verbessern?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

In dem Artikel werden Maven und Gradle für Java -Projektmanagement, Aufbau von Automatisierung und Abhängigkeitslösung erörtert, die ihre Ansätze und Optimierungsstrategien vergleichen.

In dem Artikel werden benutzerdefinierte Java -Bibliotheken (JAR -Dateien) mit ordnungsgemäßem Versioning- und Abhängigkeitsmanagement erstellt und verwendet, wobei Tools wie Maven und Gradle verwendet werden.

In dem Artikel wird in der Implementierung von mehrstufigem Caching in Java mithilfe von Koffein- und Guava-Cache zur Verbesserung der Anwendungsleistung erläutert. Es deckt die Einrichtungs-, Integrations- und Leistungsvorteile sowie die Bestrafung des Konfigurations- und Räumungsrichtlinienmanagements ab

In dem Artikel werden mit JPA für Objektrelationszuordnungen mit erweiterten Funktionen wie Caching und faulen Laden erläutert. Es deckt Setup, Entity -Mapping und Best Practices zur Optimierung der Leistung ab und hebt potenzielle Fallstricke hervor. [159 Charaktere]

Mit der Klassenbelastung von Java wird das Laden, Verknüpfen und Initialisieren von Klassen mithilfe eines hierarchischen Systems mit Bootstrap-, Erweiterungs- und Anwendungsklassenloadern umfasst. Das übergeordnete Delegationsmodell stellt sicher

In diesem Artikel werden Javas Remote -Methodenaufruf (RMI) zum Erstellen verteilter Anwendungen erläutert. IT-Details der Schnittstellendefinition, Implementierung, Registrierungssetup und Client-Seitenaufruf, die sich mit Herausforderungen wie Netzwerkproblemen und Sicherheit befassen.

In diesem Artikel wird die Socket-API von Java für die Netzwerkkommunikation beschrieben, die das Setup des Client-Servers, die Datenbearbeitung und entscheidende Überlegungen wie Ressourcenverwaltung, Fehlerbehandlung und Sicherheit abdeckt. Es untersucht auch die Leistungsoptimierungstechniken, ich

In diesem Artikel werden benutzerdefinierte Java -Netzwerkprotokolle erstellt. Es deckt die Protokolldefinition (Datenstruktur, Framing, Fehlerbehandlung, Versioning), Implementierung (Verwendung von Sockets), Datenserialisierung und Best Practices (Effizienz, Sicherheit, Wartea ab


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

VSCode Windows 64-Bit-Download
Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

SublimeText3 Englische Version
Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

Dreamweaver CS6
Visuelle Webentwicklungstools