mb_substr と mb_strlen は非効率すぎるため、このコードが使用されます。
オリジナルではなく、主な原則は UTF-8 のエンコード特性に基づいています 0xxxxxxx 110xxxxx 10xxxxxx 1110xxxx 10xxxxxx 10xxxxxx 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx を使用して文字境界を取得し、それによって単語が占めるバイト数を決定し、それを配列に処理します。 この関数は、mb_substr よりも 10 倍効率的です。このタイプの開発過程で、この関数の効率を比較しました。 2 つ詳細に説明すると、この関数が明らかに優れています。
|