suchen
HeimBackend-EntwicklungPHP-TutorialPHP Master | Arbeiten mit Multibyte -Saiten

PHP Master | Working with Multibyte Strings

Zahlensprache, ob in Englisch, Japanisch oder einer anderen Sprache, besteht aus vielen Charakteren. Wenn Sie sich mit einer numerischen Sprache befassen, ist eine grundlegende Frage, wie jeder Zeichen numerisch dargestellt wird. In der Vergangenheit mussten wir nur englische Charaktere darstellen, aber jetzt sind die Dinge sehr unterschiedlich, und das Ergebnis ist ein schillerndes Charakter -Codierungsschema, um Charaktere in mehreren verschiedenen Sprachen darzustellen. Wie verbindet und verarbeitet PHP diese verschiedenen Schemata?

Schlüsselpunkte

  • Multi-Byte-Zeichen verwenden ein bis vier Bytes, um Zeichen zu definieren, was für numerische Darstellungen von Sprachen mit mehr als 256 einzigartigen Zeichen von entscheidender Bedeutung ist. Unicode, insbesondere UTF-8, ist das am häufigsten verwendete Codierungsschema für diese Zeichen.
  • PHP selbst ist nicht für Multibyte -Zeichen ausgelegt. Um diese Zeichen zu verarbeiten, sollte ein spezieller Satz von Funktionen, die Mbstring -Funktion, verwendet werden. Der HTTP -Header von PHP enthält jedoch auch Zeichensatzkennungen, mit denen die Meta -Tags der Seite überschreiben können.
  • Multi-Byte-Unterstützung ist nicht die Standardfunktion von PHP und erfordert eine Neukonfiguration. Um die MB-Funktion zu aktivieren, verwenden Sie die Option-Enable-Mbstring Compile-Time-Option und setzen Sie die Option für die Laufzeitkonfiguration mbstring-coding_translation fest.
  • mehrere Multibyte -String -Befehle sind in PHP verfügbar, wie z. Multibyte -Version.

Grundlagen

Wir alle wissen, dass "Bits" 0 oder 1 sein können, während "Bytes" eine Kombination aus acht aufeinanderfolgenden Bits sind. Da es in einem Byte acht solcher doppelt bewerteten Bits gibt, kann ein Byte in insgesamt 256 verschiedenen Modi konfiguriert werden (bis zur 8. Leistung von 2). Mit jedem möglichen 8-Bit-Modus können verschiedene Zeichen zugeordnet werden. Stellen Sie diese Bytes in unterschiedlichen Bestellungen zusammen und Sie haben Ihre eigene Art der Kommunikation. Es ist nicht unbedingt klug, es hängt davon ab, wer an beiden Enden ist, aber es ist Kommunikation. Solange wir Charaktere in einer Sprache mit 256 einzigartigen Charakteren oder weniger ausdrücken können, sind wir erfolgreich. Aber was ist, wenn wir eine Sprache mit nur 256 Zeichen nicht ausdrücken können? Oder was ist, wenn wir mehrere Sprachen im selben Dokument ausdrücken müssen? Heute, da wir alles digitalisieren, was wir finden können, sind 256 Zeichen weit entfernt. Glücklicherweise wurden Charakterprogramme, die diese Herausforderung besser begegnen, entworfen. Diese neuen Supercharacter -Sets verwenden ein bis vier Bytes, um Zeichen zu definieren. Heute ist der große Typ im Bereich Charakter -Codierung Unicode, eine Lösung, die mehrere Bytes verwendet, um Zeichen darzustellen. Es wurde vom Unicode-Konsortium entwickelt und erhält in mehreren Versionen: UTF-32 (für Dreadnaught Class Starship), UTF-16 (für Enterprise in Star Trek: Dark Ungebunden) und UTF-8 (die meisten von uns sollten es im Realen verwenden Welt für unsere Webanwendungen). Wie ich bereits sagte, verwendet Unicode (einschließlich UTF-8) mehrere Byte-Konfigurationen, um Zeichen darzustellen. UTF-8 verwendet ein bis vier Bytes, um 1.112.064 Muster zu generieren, um verschiedene Zeichen darzustellen. Diese "breiten Charaktere" nehmen mehr Platz in Anspruch, aber UTF-8 verarbeitet tendenziell schneller als einige andere Codierungsschemata. Warum loben alle UTF-8? Ein Teil davon sind die beliebten Modelle, die in UTF-8-fähigen Anzeigen hervorgehoben werden, die auf ESPN und TCM zu sehen sind, aber vor allem, weil UTF-8 ASCII nachahmt, was ASCII genau verfolgt, wenn Sie keine Sonderzeichen betreffen.

Wie wirkt sich dies auf PHP aus?

Ich weiß, was Sie denken. Ich muss nur das Zeichen auf "UTF-8" in meinem Meta-Tag einstellen und alles wird in Ordnung. Aber das ist nicht wahr. Erstens ist die einfache Tatsache, dass PHP nicht wirklich für Multibyte -Zeichen konzipiert ist. Die Verwendung von Standard -String -Funktionen zum Betrieb dieser Zeichen kann daher ungewöhnliche Ergebnisse erzielen. Wenn wir diese Multibyte -Zeichen verarbeiten müssen, müssen wir einen speziellen Satz von Funktionen verwenden: die Mbstring -Funktion. Zweitens, selbst wenn Sie PHP kontrollieren, gibt es möglicherweise immer noch Probleme. Der HTTP -Header, der Ihre Kommunikation überschreibt, enthält auch eine Zeichensatzidentität, die den Inhalt im Seite Meta -Tag überschreibt. Wie geht PHP mit Multibyte -Zeichen um? Es gibt zwei Funktionen von Funktionen, die sich auf Multibyte -Saiten auswirken. Der erste ist iConv. Beginnend mit Version 5.0 ist dies zum Standardteil der Sprache geworden, eine Möglichkeit, einen Zeichen in eine andere Zeichensatzdarstellung zu konvertieren. Dies ist nicht das, was wir in diesem Artikel diskutieren werden. Der zweite ist Multibyte Support, eine Reihe von Befehlen, die mit "MB_" vorangestellt sind. Es gibt viele dieser Befehle, und eine kurze Überprüfung zeigt, dass einige von ihnen mit der Bestimmung in Verbindung stehen, ob Zeichen basierend auf einem bestimmten Codierungsschema angemessen sind, während andere suchorientierte Funktionen sind, die einem Teil der regulären PHP-Ausdrücke ähnlich sind, jedoch Multibyte-Funktionen sind.

Aktivieren Sie die Multibyte -Unterstützung für PHP

Multi-byte-Unterstützung ist nicht die Standardfunktion von PHP, aber wir müssen auch keine zusätzlichen Bibliotheken oder Erweiterungen herunterladen. Wenn Sie eine verwaltete Version von PHP verwenden, können Sie leider nicht etwas tun, was Sie tun können. Verwenden Sie die Funktion phpinfo (), um Ihre Konfiguration anzuzeigen. Scrollen Sie ungefähr auf halber Strecke nach unten, und es wird einen Abschnitt namens "Mbstring" geben. Dies zeigt Ihnen, ob die grundlegenden Funktionen aktiviert sind. Informationen zum Aktivieren dieser Funktion finden Sie im Handbuch. Kurz gesagt, Sie können die MB-Funktion mit der Option-Enable-Mbstring Compile-Time verwenden und die Option zur Laufzeitkonfiguration MBString-Coding_Translation einstellen. Natürlich ist die endgültige Lösung PHP 6, da die IBM -Bibliothek (bitte Ihre Hut abnehmen), um die native Unterstützung für Multibyte -Zeichensets zu gewährleisten. Wir müssen uns nur hinsetzen und warten, oder? Schauen Sie sich jedoch bis dahin den Multibyte -Support ab, der ab sofort verfügbar ist.

Befehl multi-byte String

Es kann 53 verschiedene Multibyte -String -Befehle geben. Es kann 54 geben. Ich war irgendwann ein wenig aus dem Weg, aber du bekommst was ich meine. Unnötig zu erwähnen, dass wir es nacheinander nicht erklären werden, aber zum Spaß schauen wir uns einen kurzen Blick auf einige.

  • mb_check_encoding
Die Funktion

mb_check_encoding () prüft, ob eine bestimmte Codierungssequenz für das Codierungsschema gültig ist. Die Funktion wird Ihnen nicht sagen, wie die Zeichenfolge codiert ist (oder für welche Schemata sie funktionieren wird), aber sie wird Ihnen sagen, ob sie für das angegebene Schema funktioniert.

<?php
$string = 'u4F60u597Du4E16u754C';
$string = json_decode('"' . $string . '"');
$valid = mb_check_encoding($string, 'UTF-8');
echo ($valid) ? 'valid' : 'invalid';
?>

Sie finden im PHP -Handbuch eine Liste unterstützter Codierungen.

  • mb_strlen
Die Funktion

strlen () gibt die Anzahl der Bytes in der Zeichenfolge zurück. Für ASCII, das ein einzelnes Byte ist, ist es schön, die Anzahl der Zeichen zu finden. Für Multibyte -Zeichenfolgen müssen Sie die Funktion mb_strlen () verwenden.

<?php
$string = 'u4F60u597Du4E16u754C';
$string = json_decode('"' . $string . '"');
$valid = mb_check_encoding($string, 'UTF-8');
echo ($valid) ? 'valid' : 'invalid';
?>
  • mb_ereg_search
Die Funktion

mb_ereg_search () führt eine Multibyte -Version der traditionellen Zeichensuche aus. Es gibt jedoch einige Vorbehalte - Sie müssen das Codierungsschema unter Verwendung der Funktion mb_regex_encoding () angeben, der reguläre Ausdruck hat keinen Separator (es ist nur ein Musterteil), und sowohl der reguläre Ausdruck als auch die Zeichenfolge werden unter Verwendung von mb_ereg_search_init () angegeben.

<?php
$string = 'u4F60u597Du4E16u754C';
$string = json_decode('"' . $string . '"');

echo strlen($string); // 输出 12 – 错误!
echo mb_strlen($string, 'UTF-8'); // 输出 4
?>

Ist es genug?

Ich weiß nicht, wie es dir geht, aber ich denke, die Welt braucht wirklich einfachere Dinge. Leider entspricht die Multibyte -Verarbeitung diese Anforderung nicht. Aber vorerst ist das etwas, das Sie nicht ignorieren können. Manchmal können Sie keine normale PHP -String -Verarbeitung durchführen (da Sie versuchen, Zeichen zu verarbeiten, die den normalen ASCII -Bereich (U 0000 - U 00ff) überschreiten. Dies bedeutet, dass Sie MB_ -orientierte Funktionen verwenden müssen. Willst du mehr wissen? Im Ernst, willst du? Ich dachte wirklich, das würde dich abschrecken. Ich war dafür unvorbereitet. Meine Zeit ist gekommen. Was ist Ihre beste Wahl? Schauen Sie sich das PHP -Handbuch an. Oh, und probiere etwas aus. Es gibt nichts, was die Erfahrung ersetzt, etwas tatsächlich zu verwenden.

(Der ursprüngliche FAQ -Teil sollte hier beibehalten werden, da sein Inhalt in hohem Maße mit dem Thema des Artikels zusammenhängt und die Lesbarkeit nach dem Umschreiben verringert.)

Das obige ist der detaillierte Inhalt vonPHP Master | Arbeiten mit Multibyte -Saiten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Was sind die Vorteile der Verwendung einer Datenbank zum Speichern von Sitzungen?Was sind die Vorteile der Verwendung einer Datenbank zum Speichern von Sitzungen?Apr 24, 2025 am 12:16 AM

Die Hauptvorteile der Verwendung von Datenbankspeichersitzungen sind Persistenz, Skalierbarkeit und Sicherheit. 1. Persistenz: Auch wenn der Server neu gestartet wird, können die Sitzungsdaten unverändert bleiben. 2. Skalierbarkeit: Anwendbar für verteilte Systeme, um sicherzustellen, dass Sitzungsdaten zwischen mehreren Servern synchronisiert werden. 3. Sicherheit: Die Datenbank bietet verschlüsselten Speicher zum Schutz vertraulicher Informationen.

Wie implementieren Sie eine benutzerdefinierte Sitzung in PHP?Wie implementieren Sie eine benutzerdefinierte Sitzung in PHP?Apr 24, 2025 am 12:16 AM

Das Implementieren der benutzerdefinierten Sitzung in PHP kann durch die Implementierung der SessionHandlerInterface -Schnittstelle durchgeführt werden. Die spezifischen Schritte umfassen: 1) Erstellen einer Klasse, die SessionHandlerInterface wie CustomSessionHandler implementiert; 2) Umschreiben von Methoden in der Schnittstelle (z. B. offen, schließen, lesen, schreiben, zerstören, GC), um die Lebenszyklus- und Speichermethode von Sitzungsdaten zu definieren; 3) Registrieren Sie einen benutzerdefinierten Sitzungsprozessor in einem PHP -Skript und starten Sie die Sitzung. Auf diese Weise können Daten in Medien wie MySQL und Redis gespeichert werden, um Leistung, Sicherheit und Skalierbarkeit zu verbessern.

Was ist eine Sitzungs -ID?Was ist eine Sitzungs -ID?Apr 24, 2025 am 12:13 AM

SessionID ist ein Mechanismus, der in Webanwendungen verwendet wird, um den Benutzersitzstatus zu verfolgen. 1. Es handelt sich um eine zufällig generierte Zeichenfolge, mit der die Identitätsinformationen des Benutzers während mehrerer Interaktionen zwischen dem Benutzer und dem Server aufrechterhalten werden. 2. Der Server generiert und sendet ihn über Cookies- oder URL -Parameter an den Client, um diese Anforderungen in mehreren Anforderungen des Benutzers zu identifizieren und zu verknüpfen. 3. Die Erzeugung verwendet normalerweise zufällige Algorithmen, um Einzigartigkeit und Unvorhersehbarkeit zu gewährleisten. 4. In der tatsächlichen Entwicklung können In-Memory-Datenbanken wie Redis verwendet werden, um Sitzungsdaten zu speichern, um die Leistung und Sicherheit zu verbessern.

Wie gehen Sie mit Sitzungen in einer staatenlosen Umgebung (z. B. API) um?Wie gehen Sie mit Sitzungen in einer staatenlosen Umgebung (z. B. API) um?Apr 24, 2025 am 12:12 AM

Das Verwalten von Sitzungen in staatenlosen Umgebungen wie APIs kann durch Verwendung von JWT oder Cookies erreicht werden. 1. JWT ist für Staatenlosigkeit und Skalierbarkeit geeignet, aber es ist groß, wenn es um Big Data geht. 2. Kookies sind traditioneller und einfacher zu implementieren, müssen jedoch mit Vorsicht konfiguriert werden, um die Sicherheit zu gewährleisten.

Wie können Sie vor SPRECTS-Angriffen (XSS) schützen?Wie können Sie vor SPRECTS-Angriffen (XSS) schützen?Apr 23, 2025 am 12:16 AM

Um die Anwendung vor Sitzungsangriffen im Zusammenhang mit den Sitzungen zu schützen, sind folgende Maßnahmen erforderlich: 1. Stellen Sie die HTTPonly- und sicheren Flags ein, um die Sitzungs Cookies zu schützen. 2. Exportcodes für alle Benutzereingaben. 3. Implementieren Sie die Inhaltssicherheitsrichtlinie (CSP), um die Skriptquellen einzuschränken. Durch diese Richtlinien können Sitzungsangriffe im Zusammenhang mit Sitzungen effektiv geschützt und Benutzerdaten sichergestellt werden.

Wie können Sie die PHP -Sitzungsleistung optimieren?Wie können Sie die PHP -Sitzungsleistung optimieren?Apr 23, 2025 am 12:13 AM

Methoden zur Optimierung der PHP -Sitzungsleistung gehören: 1. Start der Verzögerung der Sitzung, 2. Verwenden Sie Datenbank zum Speichern von Sitzungen, 3. Kompress -Sitzungsdaten, 14. Sitzungslebenszyklus verwalten und 5. Sitzungsfreigabe implementieren. Diese Strategien können die Effizienz von Anwendungen in hohen Parallelitätsumgebungen erheblich verbessern.

Wie lautet die Konfigurationseinstellung von Session.gc_maxlifetime?Wie lautet die Konfigurationseinstellung von Session.gc_maxlifetime?Apr 23, 2025 am 12:10 AM

Thesession.gc_maxlifetimesettingInphpdeterminesthelifspanofSessionData, setInseconds.1) ItsconfiguredInphp.iniorviaini_Set (). 2) AbalanceIsneedToAvoidPerformanceSandunexexwortedyg -Probablogouts

Wie konfigurieren Sie den Sitzungsnamen in PHP?Wie konfigurieren Sie den Sitzungsnamen in PHP?Apr 23, 2025 am 12:08 AM

In PHP können Sie die Funktion Session_name () verwenden, um den Sitzungsnamen zu konfigurieren. Die spezifischen Schritte sind wie folgt: 1. Verwenden Sie die Funktion Session_name (), um den Sitzungsnamen wie Session_name ("my_Session") festzulegen. 2. Nachdem Sie den Sitzungsnamen festgelegt haben, call Session_start (), um die Sitzung zu starten. Das Konfigurieren von Sitzungsnamen kann Sitzungsdatenkonflikte zwischen mehreren Anwendungen vermeiden und die Sicherheit verbessern, aber auf die Einzigartigkeit, Sicherheit, Länge und Festlegen des Zeitpunkts der Sitzungsnamen achten.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

SecLists

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

PHPStorm Mac-Version

PHPStorm Mac-Version

Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

WebStorm-Mac-Version

WebStorm-Mac-Version

Nützliche JavaScript-Entwicklungstools

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software