検索
ホームページバックエンド開発PHPチュートリアルPHP でよくあるコーディングの問題

php での一般的なコーディングの問題

PHP プログラミングにおける中国語のエンコーディングの問題は、実際には非常に単純です。この問題の原因は、各国 (または地域) で、拡張 ASCII コードなどのコンピューター情報交換用の文字エンコーディング セットが規定されています。米国、中国GB2312-80、日本JISなどこの国・地域における情報処理の基盤として、文字コードセットはエンコードを統一する上で重要な役割を果たしています。文字エンコード セットは、長さに応じて、SBCS (シングルバイト文字セット) と DBCS (ダブルバイト文字セット) の 2 つのカテゴリに分類されます。初期のソフトウェア (特にオペレーティング システム) では、ローカル文字情報のコンピューター処理を解決するために、差別化を図るために、LANG やコードページなどの概念が導入されました。ただし、さまざまなローカル文字セットのコード範囲が重複しているため、相互に情報を交換するのは困難であり、ソフトウェアの各ローカライズ バージョンを個別に保守するコストは高くなります。そのため、ローカライズ作業の共通点を抽出して一貫して処理し、特殊なローカライズ処理内容を最小限に抑える必要があります。これは国際化 (118N) とも呼ばれます。各種言語情報はさらにロケール情報として標準化されます。処理される基礎となる文字セットは Unicode になり、これにはほぼすべてのグリフが含まれます。

現在、国際化機能を備えたソフトウェアのコア文字処理のほとんどは Unicode に基づいており、ソフトウェアの実行時に、対応するローカル文字エンコーディング設定は、その時点のロケール/言語/コードページ設定に従って決定されます。文字はそれに応じて処理されます。処理中に、Unicode とローカル文字セット間、または Unicode を中間として使用する 2 つの異なるローカル文字セット間で変換する必要があります。この方法はネットワーク環境でもさらに拡張され、ネットワークの両端にある文字情報も文字セット設定に従って許容可能なコンテンツに変換する必要があります。

データベースの文字セットエンコーディングの問題

一般的なリレーショナル データベース システムはすべてデータベース キャラクタ セット エンコーディングをサポートしています。つまり、データベースの作成時に独自のキャラクタ セット設定を指定でき、データベース内のデータは指定されたエンコーディングで保存されます。アプリケーションがデータにアクセスするとき、開始時と終了時に文字セット エンコード変換が行われます。中国語データの場合、データベースの文字エンコード設定によりデータの整合性が保証される必要があります。 GB2312、GBK、UTF-8 などはすべてオプションのデータベース文字セット エンコーディングです。もちろん ISO8859-1 (8 ビット) を選択することもできますが、

を使用する必要があります。

プログラムでデータを書き込む前に、まず 16 ビットの中国語文字または Unicode を 2 つの 8 ビット文字に分割し、データを読み取った後、2 つのバイトを結合して SBCS 文字を識別する必要があります。データベース文字セットのエンコーディングとして ISO8859-1 を使用することをお勧めします。これでは、データベース自体の文字セット エンコーディング サポートが最大限に活用されないだけでなく、プログラミングの複雑さも増大します。プログラミングを行う場合、まずデータベース管理システムが提供する管理機能を使用して、中国語データが正しいかどうかを確認できます。

データベースにクエリを実行する前に、PHP プログラムはまず mysql_query("SET NAMES xxxx") を実行します。ここで、xxxx は Web ページのエンコードです (charset=xxxx)。Web ページで charset=utf8 の場合、xxxx=utf8 になります。 、Web ページの charset =gb2312 の場合、xxxx=gb2312 です。ほとんどすべての WEB プログラムには、データベースに接続するための共通のコードがあり、このファイルに mysql_query("SET NAMES xxxx") を追加するだけです。 。

SET NAMES クライアントから送信された SQL ステートメントで使用されている文字セットを示します。したがって、SET NAMES 'utf-8' ステートメントは、サーバーに「このクライアントからの将来のメッセージでは文字セット utf-8 が使用される」ことを伝えます。また、サーバーがクライアントに送り返す結果の文字セットも指定します (たとえば、SELECT ステートメントを使用する場合、列の値にどの文字セットが使用されるかを示します)。

問題を特定するときによく使用される手法

中国語のエンコーディングの問題を特定するには、通常、最も愚かで最も効果的な方法が使用されます。それは、疑わしいと思われるプログラムによる処理後の文字列の内部コードを出力することです。文字列の内部コードを出力すると、いつ中国語の文字が Unicode に変換されるか、いつ Unicode が中国語の内部コードに再変換されるか、いつ 1 つの中国語の文字が 2 つの Unicode 文字になるか、いつ中国語の文字列が次の文字列に変換されるかを知ることができます。疑問符、いつ中国語の文字列の上位ビットが切り取られたのですか...

適切なサンプル文字列を使用すると、問題の種類を区別するのにも役立ちます。例: 「aaah aa?@aa」、および GB と GBK の両方の特徴文字を含むその他の中国語と英語の文字列。一般に、英語の文字は、どのように変換または処理しても歪みません (歪みが発生した場合は、連続する英語文字の長さを長くしてみてください)。

さまざまなアプリケーションでのコード化けの問題を解決する

1) タグを使用してページエンコーディングを設定します

このタグの目的は、クライアントのブラウザがページを表示するために使用する文字セット エンコーディングを宣言することです。xxx には、GB2312、GBK、UTF-8 (MySQL の UTF8 とは異なります) などを指定できます。したがって、ほとんどのページはこのメソッドを使用して、このページを表示するときに使用するエンコーディングをブラウザーに指示し、エンコーディング エラーや文字化けを回避できます。しかし、場合によっては、この文がどの xxx であっても機能しないことがわかります。これについては後で説明します。

これは HTML 情報に属し、サーバーが HTML 情報をブラウザーに渡したことを示すだけの単なるステートメントであることに注意してください。

2) header("content-type:text/html; charset=xxx");

関数 header() は、括弧内の情報を http ヘッダーに送信します。括弧内の内容が記事に記載されているとおりであれば、最初のラベルと比較してみると、文字が似ていることがわかります。ただし、違いは、この機能がある場合、ブラウザは常に要求された xxx エンコーディングを使用し、決して従わないことです。そのため、この機能は非常に便利です。これはなぜでしょうか? 次に、http ヘッダーと HTML 情報の違いについて話さなければなりません:

http ヘッダーは、http プロトコルを使用して HTML 情報をブラウザーに送信する前にサーバーによって送信される文字列です。タグはHTML情報に属しているため、header()で送信された内容が最初にブラウザに届きます。人気のポイントは、header()の優先度が高いことです(これを言えるかわかりませんが)。 PHP ページに header("content-type:text/html;charset=xxx") と header("content-type:text/html;charset=xxx") の両方がある場合、ブラウザは前者の http ヘッダーとヘッダーのみを認識します。メタではありません。もちろん、この関数はphpページ内でのみ使用できます。

前者は確実に動作するのに、後者は動作しない場合があるのはなぜでしょうか、という疑問も残ります。これが、次に Apache について話したい理由です。

3) デフォルト文字セットの追加

Apache ルート ディレクトリの conf フォルダーには、Apache 設定ドキュメント全体である httpd.conf があります。

テキスト エディタで httpd.conf を開きます (バージョンが異なる場合があります) には、AddDefaultCharset xxx が含まれています。xxx はエンコーディング名です。このコード行の意味: サーバー全体の Web ページ ファイルの http ヘッダーの文字セットをデフォルトの xxx 文字セットに設定します。この行があることは、各ファイルに header("content-type:text/html; charset=xxx") の行を追加することと同じです。これで、ブラウザが utf-8 に設定されているにもかかわらず常に gb2312 を使用する理由が理解できました。

Web ページに header("content-type:text/html; charset=xxx") がある場合、デフォルトの文字セットが設定した文字セットに変更されるため、この機能は常に役立ちます。 AddDefaultCharset xxx の前に「#」を追加し、この文をコメントアウトし、ページにヘッダー (「content-type...」) が含まれていない場合は、メタ タグが有効になります。

上記を優先順位に従って以下にリストします:

.. header("content-type:text/html; charset=xxx")

..AddDefaultCharset xxx

..

Web プログラマーの場合は、どのページでも正しく表示できるように、各ページにヘッダー ("content-type: text/html; charset=xxx") を追加することをお勧めします。移植性も比較的高いサーバーです。

4) php.ini のdefault_charset 設定:

php.ini の

default_charset = "gb2312" は、php のデフォルトの言語文字セットを定義します。通常、この行をコメント アウトし、必須要件とするのではなく、Web ページ ヘッダーの文字セットに基づいてブラウザが言語を自動的に選択するようにすることをお勧めします。これにより、複数の言語の Web サービスを同じサーバー上で提供できます。 。

結論

実際、PHP 開発における中国語のコーディングは想像されているほど複雑ではありません。問題を特定して解決するための固定ルールはなく、さまざまな動作環境も異なりますが、基本的な原則は同じです。文字セットの知識を理解することは、文字の問題を解決するための基礎です。しかし、中国語の文字セットの変更により、PHP プログラミングだけでなく、中国語の情報処理の問題もしばらくは残るでしょう。


声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
11个常见的分类特征的编码技术11个常见的分类特征的编码技术Apr 12, 2023 pm 12:16 PM

机器学习算法只接受数值输入,所以如果我们遇到分类特征的时候都会对分类特征进行编码,本文总结了常见的11个分类变量编码方法。1、ONE HOT ENCODING最流行且常用的编码方法是One Hot Enoding。一个具有n个观测值和d个不同值的单一变量被转换成具有n个观测值的d个二元变量,每个二元变量使用一位(0,1)进行标识。例如:编码后最简单的实现是使用pandas的' get_dummiesnew_df=pd.get_dummies(columns=[‘Sex’], data=df)2、

utf8编码汉字占多少字节utf8编码汉字占多少字节Feb 21, 2023 am 11:40 AM

utf8编码汉字占3个字节。在UTF-8编码中,一个中文等于三个字节,一个中文标点占三个字节;而在Unicode编码中,一个中文(含繁体)等于两个字节。UTF-8使用1~4字节为每个字符编码,一个US-ASCIl字符只需1字节编码,带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等字母则需要2字节编码。

知识图谱:大模型的理想搭档知识图谱:大模型的理想搭档Jan 29, 2024 am 09:21 AM

大型语言模型(LLM)具有生成流畅和连贯文本的能力,为人工智能的对话、创造性写作等领域带来了新的前景。然而,LLM也存在一些关键局限。首先,它们的知识仅限于从训练数据中识别出的模式,缺乏对世界的真正理解。其次,推理能力有限,不能进行逻辑推理或从多个数据源融合事实。面对更复杂、更开放的问题时,LLM的回答可能变得荒谬或矛盾,被称为“幻觉”。因此,尽管LLM在某些方面非常有用,但在处理复杂问题和真实世界情境时,仍存在一定的局限性。为了弥补这些差距,近年来出现了检索增强生成(RAG)系统,其核心思想是

常见的几种编码方式常见的几种编码方式Oct 24, 2023 am 10:09 AM

常见的编码方式有ASCII编码、Unicode编码、UTF-8编码、UTF-16编码、GBK编码等。详细介绍:1、ASCII编码是最早的字符编码标准,使用7位二进制数表示128个字符,包括英文字母、数字、标点符号以及控制字符等;2、Unicode编码是一种用于表示世界上所有字符的标准编码方式,它为每个字符分配了一个唯一的数字码点;3、UTF-8编码等等。

如何解决php数据库查询结果编码的问题如何解决php数据库查询结果编码的问题Mar 21, 2023 am 11:49 AM

PHP是一种流行的Web编程语言,可以用于编写动态网页和应用程序。在实际应用中,PHP经常需要与数据库进行交互,进行数据的查询和处理。然而,在使用PHP从数据库中获取结果时,可能会遇到编码的问题,这通常会导致出现乱码。那么,如何解决php数据库查询结果编码的问题呢?

一文搞懂如何基于 GenAI 提升编码效能一文搞懂如何基于 GenAI 提升编码效能Apr 01, 2024 pm 06:49 PM

Hellofolks,我是Luga,今天我们来聊一下人工智能(AI)生态领域相关的技术-GenAI。面对日新月异的技术创新以及差异化的业务场景挑战,传统的编码方式已经开始出现水土不服,难以完全应对日益增长的诉求。与此同时,新兴的通用GenAI(人工智能技术)具有极具潜力的能力来满足这一需求。GenAI作为人工智能技术的代表,以其强大的潜力和能力已经开始在各行各业得到广泛应用。它可以自动学习和适应不同场景下的编码需求,极大地提高了编码效率和质量。通过深度学习和模型优化,GenAI能够准确地理解不同

PHP编码小技巧:如何生成带有防伪验证功能的二维码?PHP编码小技巧:如何生成带有防伪验证功能的二维码?Aug 17, 2023 pm 02:42 PM

PHP编码小技巧:如何生成带有防伪验证功能的二维码?随着电子商务和互联网的发展,二维码越来越被广泛应用于各行各业。而在使用二维码的过程中,为了确保产品的安全性和防止伪造,为二维码添加防伪验证功能是十分重要的一环。本文将介绍如何使用PHP生成带有防伪验证功能的二维码,并附上相应代码示例。在开始之前,我们需要准备以下几个必要的工具和库:PHPQRCode:PHP

hdb3编码规则是啥hdb3编码规则是啥Aug 29, 2023 pm 01:38 PM

编码规则是:1、如果前一个编码是0,当前数据位为0,则编码为0;2、如果前一个编码是0,当前数据位为1,则编码为双极脉冲(+A或-A),并将计数器加1;3、如果前一个编码是1,当前数据位为1,则编码为0,并将计数器加1;4、如果前一个编码是1,当前数据位为0,则根据计数器的奇偶性来确定编码方式,如果是偶数,则编码为(+B或-B),如果是奇数,则编码为零电平,并将计数器清零等等。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、