PHP는 매우 인기 있는 오픈 소스 서버측 스크립팅 언어입니다. World Wide Web에서 볼 수 있는 대부분의 웹사이트는 PHP를 사용하여 개발되었습니다. 이 기사는 PHP 개발에서 가장 일반적인 10가지 문제를 소개합니다. 이것이 여러분의 친구들에게 도움이 되기를 바랍니다.
오류 1: foreach 루프 뒤에 매달린 포인터를 두는 것
foreach 루프에서 반복되는 요소를 변경하거나 효율성을 향상해야 하는 경우 참조를 사용하는 것이 좋은 방법입니다.
$arr = array(1, 2, 3, 4); foreach ($arr as &$value) { $value = $value * 2; } // $arr is now array(2, 4, 6, 8)
여기서 많은 분들이 헷갈려 하시는 질문이 있습니다. 루프가 끝난 후에도 $value는 삭제되지 않습니다. $value는 실제로 배열의 마지막 요소에 대한 참조입니다. $value의 후속 사용에서 이를 모르면 설명할 수 없는 오류가 발생합니다. 아래 코드를 보세요.
$array = [1, 2, 3]; echo implode(',', $array), "\n"; foreach ($array as &$value) {} // by reference echo implode(',', $array), "\n"; foreach ($array as $value) {} // by value (i.e., copy) echo implode(',', $array), "\n";
위 코드를 실행한 결과는 다음과 같습니다.
1,2,3 1,2,3 1,2,2
맞추셨나요? 왜 이런 결과가 나온 걸까요?
분석해 보겠습니다. 첫 번째 루프 이후 $value는 배열의 마지막 요소에 대한 참조입니다. 두 번째 루프는 다음과 같이 시작됩니다.
1단계: $arr[0]을 $value에 복사합니다(현재 $value는 $arr[2]에 대한 참조입니다). 그러면 배열은 [1,2]가 됩니다. ,1]
2단계: $arr[1]을 $value에 복사하면 배열은 [1,2,2]가 됩니다.
3단계: $arr[2 ]를 $에 복사합니다. 이 오류를 피하는 가장 좋은 방법은 unset 함수를 사용하는 것입니다. 루프 직후 변수를 삭제하려면:
실수 2: isset() 함수의 동작에 대한 오해 isset() 함수의 경우 변수가 다음과 같은 경우 false가 반환됩니다. 존재하지 않습니다. 변수 값이 null인 경우에도 False가 반환됩니다. 이런 행동은 사람들을 쉽게 혼란스럽게 할 수 있습니다. . . 다음 코드를 보세요:$arr = array(1, 2, 3, 4); foreach ($arr as &$value) { $value = $value * 2; } unset($value); // $value no longer references $arr[3]이 코드를 작성한 사람은 $data['keyShouldBeSet']가 설정되지 않은 경우 해당 논리를 실행하려고 했을 수도 있습니다. 그런데 문제는 $data['keyShouldBeSet']가 설정되었으나 설정된 값이 null이더라도 해당 로직이 계속 실행되어 코드의 원래 의도와 일치하지 않는다는 점입니다. 또 다른 예는 다음과 같습니다.
$data = fetchRecordFromStorage($storage, $identifier); if (!isset($data['keyShouldBeSet']) { // do something here if 'keyShouldBeSet' is not set }위 코드에서는 $_POST['active']가 true라고 가정하고 $postData를 설정해야 하므로 isset($postData)가 반환됩니다. 진실. 반대로 위 코드에서는 isset($postData)가 false를 반환하는 유일한 방법은 $_POST['active']도 false를 반환하는 경우라고 가정합니다. 정말 그런가요? 물론 그렇지 않습니다!
if ($_POST['active']) { $postData = extractSomething($_POST); } // ... if (!isset($postData)) { echo 'post not active'; }
$_POST['active']가 true를 반환하더라도 $postData가 null로 설정될 수 있으며, 이 경우 isset($postData)는 false를 반환합니다. 이는 코드의 의도에 어긋납니다.
위 코드의 목적이 $_POST['active']가 true인지 여부만 감지하는 것이라면 다음 구현이 더 좋습니다.
변수가 실제로 true인지 확인합니다. 설정(미분이 설정되지 않고 설정 값이 null인 경우) array_key_exists() 함수가 더 나을 수 있습니다. 위의 첫 번째 예를 다음과 같이 리팩터링합니다.if ($_POST['active']) { $postData = extractSomething($_POST); } // ... if ($_POST['active']) { echo 'post not active'; }또한 get_define_vars() 함수와 결합하면 변수가 현재 범위에 설정되어 있는지 더 확실하게 감지할 수 있습니다.
$data = fetchRecordFromStorage($storage, $identifier); if (! array_key_exists('keyShouldBeSet', $data)) { // do this if 'keyShouldBeSet' isn't set }오류 3: 반환 값과 반환 참조가 혼동됨 다음 코드를 고려하세요.
if (array_key_exists('varShouldBeSet', get_defined_vars())) { // variable $varShouldBeSet exists in current scope }위 코드를 실행하면 다음 내용이 출력됩니다.
class Config { private $values = []; public function getValues() { return $this->values; } } $config = new Config(); $config->getValues()['test'] = 'test'; echo $config->getValues()['test'];무엇이 문제인가요? 문제는 위의 코드가 반환 값과 반환 참조를 혼동한다는 것입니다. PHP에서는 반환 참조를 명시적으로 지정하지 않는 한 PHP는 배열의 복사본인 배열 값을 반환합니다. 따라서 위 코드에서 반환된 배열에 값을 할당하면 실제로는 원래 배열이 아닌 복사된 배열에 값이 할당됩니다.
PHP Notice: Undefined index: test in /path/to/my/script.php on line 21다음은 원래 배열 대신 복사된 배열을 출력하는 가능한 해결 방법입니다.
// getValues() returns a COPY of the $values array, so this adds a 'test' element // to a COPY of the $values array, but not to the $values array itself. $config->getValues()['test'] = 'test'; // getValues() again returns ANOTHER COPY of the $values array, and THIS copy doesn't // contain a 'test' element (which is why we get the "undefined index" message). echo $config->getValues()['test'];원래 배열만 변경하려는 경우, 즉 역반환 배열 참조, 어떻게 처리해야 하나요? 방법은 지정된 반환 참조를 표시하는 것입니다:
$vals = $config->getValues(); $vals['test'] = 'test'; echo $vals['test'];수정 후 위 코드는 예상대로 test를 출력합니다. 여러분을 더욱 혼란스럽게 만드는 또 다른 예를 살펴보겠습니다.
class Config { private $values = []; // return a REFERENCE to the actual $values array public function &getValues() { return $this->values; } } $config = new Config(); $config->getValues()['test'] = 'test'; echo $config->getValues()['test'];위와 같이 “정의되지 않은 인덱스” 오류가 출력될 것이라고 생각했다면 착각입니다. 코드는 정상적으로 "test"를 출력합니다. 그 이유는 PHP는 기본적으로 값이 아닌 참조로 객체를 반환하기 때문입니다.
综上所述,我们在使用函数返回值时,要弄清楚是值返回还是引用返回。PHP中对于对象,默认是引用返回,数组和内置基本类型默认均按值返回。这个要与其它语言区别开来(很多语言对于数组是引用传递)。
像其它语言,比如java或C#,利用getter或setter来访问或设置类属性是一种更好的方案,当然PHP默认不支持,需要自己实现:
class Config { private $values = []; public function setValue($key, $value) { $this->values[$key] = $value; } public function getValue($key) { return $this->values[$key]; } } $config = new Config(); $config->setValue('testKey', 'testValue'); echo $config->getValue('testKey'); // echos 'testValue'
上面的代码给调用者可以访问或设置数组中的任意值而不用给与数组public访问权限。感觉怎么样:)
错误4:在循环中执行sql查询
在PHP编程中发现类似下面的代码并不少见:
$models = []; foreach ($inputValues as $inputValue) { $models[] = $valueRepository->findByValue($inputValue); }
当然上面的代码是没有什么错误的。问题在于我们在迭代过程中$valueRepository->findByValue()可能每次都执行了sql查询:
$result = $connection->query("SELECT `x`,`y` FROM `values` WHERE `value`=" . $inputValue);
如果迭代了10000次,那么你就分别执行了10000次sql查询。如果这样的脚本在多线程程序中被调用,那很可能你的系统就挂了。。。
在编写代码过程中,你应该要清楚什么时候应该执行sql查询,尽可能一次sql查询取出所有数据。
有一种业务场景,你很可能会犯上述错误。假设一个表单提交了一系列值(假设为IDs),然后为了取出所有ID对应的数据,代码将遍历IDs,分别对每个ID执行sql查询,代码如下所示:
$data = []; foreach ($ids as $id) { $result = $connection->query("SELECT `x`, `y` FROM `values` WHERE `id` = " . $id); $data[] = $result->fetch_row(); }
但同样的目的可以在一个sql中更加高效的完成,代码如下:
$data = []; if (count($ids)) { $result = $connection->query("SELECT `x`, `y` FROM `values` WHERE `id` IN (" . implode(',', $ids)); while ($row = $result->fetch_row()) { $data[] = $row; } }
错误5:内存使用低效和错觉
一次sql查询获取多条记录比每次查询获取一条记录效率肯定要高,但如果你使用的是php中的mysql扩展,那么一次获取多条记录就很可能会导致内存溢出。
我们可以写代码来实验下(测试环境: 512MB RAM、MySQL、php-cli):
// connect to mysql $connection = new mysqli('localhost', 'username', 'password', 'database'); // create table of 400 columns $query = 'CREATE TABLE `test`(`id` INT NOT NULL PRIMARY KEY AUTO_INCREMENT'; for ($col = 0; $col < 400; $col++) { $query .= ", `col$col` CHAR(10) NOT NULL"; } $query .= ');'; $connection->query($query); // write 2 million rows for ($row = 0; $row < 2000000; $row++) { $query = "INSERT INTO `test` VALUES ($row"; for ($col = 0; $col < 400; $col++) { $query .= ', ' . mt_rand(1000000000, 9999999999); } $query .= ')'; $connection->query($query); }
现在来看看资源消耗:
// connect to mysql $connection = new mysqli('localhost', 'username', 'password', 'database'); echo "Before: " . memory_get_peak_usage() . "\n"; $res = $connection->query('SELECT `x`,`y` FROM `test` LIMIT 1'); echo "Limit 1: " . memory_get_peak_usage() . "\n"; $res = $connection->query('SELECT `x`,`y` FROM `test` LIMIT 10000'); echo "Limit 10000: " . memory_get_peak_usage() . "\n";
输出结果如下:
Before: 224704 Limit 1: 224704 Limit 10000: 224704
根据内存使用量来看,貌似一切正常。为了更加确定,试着一次获取100000条记录,结果程序得到如下输出:
PHP Warning: mysqli::query(): (HY000/2013): Lost connection to MySQL server during query in /root/test.php on line 11
这是怎么回事呢?
问题出在php的mysql模块的工作方式,mysql模块实际上就是libmysqlclient的一个代理。在查询获取多条记录的同时,这些记录会直接 保存在内存中。由于这块内存不属于php的内存模块所管理,所以我们调用memory_get_peak_usage()函数所获得的值并非真实使用内存 值,于是便出现了上面的问题。
我们可以使用mysqlnd来代替mysql,mysqlnd编译为php自身扩展,其内存使用由php内存管理模块所控制。如果我们用mysqlnd来实现上面的代码,则会更加真实的反应内存使用情况:
Before: 232048 Limit 1: 324952 Limit 10000: 32572912
更加糟糕的是,根据php的官方文档,mysql扩展存储查询数据使用的内存是mysqlnd的两倍,因此原来的代码使用的内存是上面显示的两倍左右。
为了避免此类问题,可以考虑分几次完成查询,减小单次查询数据量:
$totalNumberToFetch = 10000; $portionSize = 100; for ($i = 0; $i <= ceil($totalNumberToFetch / $portionSize); $i++) { $limitFrom = $portionSize * $i; $res = $connection->query( "SELECT `x`,`y` FROM `test` LIMIT $limitFrom, $portionSize"); }
联系上面提到的错误4可以看出,在实际的编码过程中,要做到一种平衡,才能既满足功能要求,又能保证性能。
错误6:忽略Unicode/UTF-8问题
php编程中,在处理非ascii字符时,会遇到一些问题,要很小心的去对待,要不然就会错误遍地。举个简单的例子,strlen($name),如果$name包含非ascii字符,那结果就有些出乎意料。在此给出一些建议,尽量避免此类问题:
如果你对unicode和utf-8不是很了解,那么你至少应该了解一些基础。推荐阅读这篇文章。
最好使用mb_*函数来处理字符串,避免使用老的字符串处理函数。这里要确保PHP的“multibyte”扩展已开启。
数据库和表最好使用unicode编码。
知道jason_code()函数会转换非ascii字符,但serialize()函数不会。
php代码源文件最好使用不含bom的utf-8格式。
在此推荐一篇文章,更详细的介绍了此类问题: UTF-8 Primer for PHP and MySQL
错误7:假定$_POST总是包含POST数据
PHP中的$_POST并非总是包含表单POST提交过来的数据。假设我们通过 jQuery.ajax() 方法向服务器发送了POST请求:
// js $.ajax({ url: 'http://my.site/some/path', method: 'post', data: JSON.stringify({a: 'a', b: 'b'}), contentType: 'application/json' });
注意代码中的 contentType: ‘application/json’ ,我们是以json数据格式来发送的数据。在服务端,我们仅输出$_POST数组:
// php var_dump($_POST);
你会很惊奇的发现,结果是下面所示:
array(0) { }
为什么是这样的结果呢?我们的json数据 {a: ‘a’, b: ‘b’} 哪去了呢?
答案就是PHP仅仅解析Content-Type为 application/x-www-form-urlencoded 或 multipart/form-data的Http请求。之所以这样是因为历史原因,PHP最初实现$_POST时,最流行的就是上面两种类型。因此虽说现在有些类型(比如application/json)很流行,但PHP中还是没有去实现自动处理。
因为$_POST是全局变量,所以更改$_POST会全局有效。因此对于Content-Type为 application/json 的请求,我们需要手工去解析json数据,然后修改$_POST变量。
// php $_POST = json_decode(file_get_contents('php://input'), true);
此时,我们再去输出$_POST变量,则会得到我们期望的输出:
array(2) { ["a"]=> string(1) "a" ["b"]=> string(1) "b" }
错误8:认为PHP支持字符数据类型
看看下面的代码,猜测下会输出什么:
for ($c = 'a'; $c <= 'z'; $c++) { echo $c . "\n"; }
如果你的回答是输出’a'到’z',那么你会惊奇的发现你的回答是错误的。
不错,上面的代码的确会输出’a'到’z',但除此之外,还会输出’aa’到’yz’。我们来分析下为什么会是这样的结果。
在PHP中不存在char数据类型,只有string类型。明白这点,那么对’z'进行递增操作,结果则为’aa’。对于字符串比较大小,学过C的应该都知道,’aa’是小于’z'的。这也就解释了为何会有上面的输出结果。
如果我们想输出’a'到’z',下面的实现是一种不错的办法:
for ($i = ord('a'); $i <= ord('z'); $i++) { echo chr($i) . "\n"; }
或者这样也是OK的:
$letters = range('a', 'z'); for ($i = 0; $i < count($letters); $i++) { echo $letters[$i] . "\n"; }
错误9:忽略编码标准
虽说忽略编码标准不会导致错误或是bug,但遵循一定的编码标准还是很重要的。
没有统一的编码标准会使你的项目出现很多问题。最明显的就是你的项目代码不具有一致性。更坏的地方在于,你的代码将更加难以调试、扩展和维护。这也就意味着你的团队效率会降低,包括做一些很多无意义的劳动。
对于PHP开发者来说,是比较幸运的。因为有PHP编码标准推荐(PSR),由下面5个部分组成:
PSR-0:自动加载标准
PSR-1:基本编码标准
PSR-2:编码风格指南
PSR-3:日志接口标准
PSR-4:自动加载
PSR最初由PHP社区的几个大的团体所创建并遵循。Zend, Drupal, Symfony, Joomla及其它的平台都为此标准做过贡献并遵循这个标准。即使是PEAR,早些年也想让自己成为一个标准,但现在也加入了PSR阵营。
在某些情况下,使用什么编码标准是无关紧要的,只要你使用一种编码风格并一直坚持使用即可。但是遵循PSR标准不失为一个好办法,除非你有什么特殊的原因要 自己弄一套。现在越来越多的项目都开始使用PSR,大部分的PHP开发者也在使用PSR,因此使用PSR会让新加入你团队的成员更快的熟悉项目,写代码时 也会更加舒适。
错误10:错误使用empty()函数
一些PHP开发人员喜欢用empty()函数去对变量或表达式做布尔判断,但在某些情况下会让人很困惑。
首先我们来看看PHP中的数组Array和数组对象ArrayObject。看上去好像没什么区别,都是一样的。真的这样吗?
// PHP 5.0 or later: $array = []; var_dump(empty($array)); // outputs bool(true) $array = new ArrayObject(); var_dump(empty($array)); // outputs bool(false) // why don't these both produce the same output?
让事情变得更复杂些,看看下面的代码:
// Prior to PHP 5.0: $array = []; var_dump(empty($array)); // outputs bool(false) $array = new ArrayObject(); var_dump(empty($array)); // outputs bool(false)
很不幸的是,上面这种方法很受欢迎。例如,在Zend Framework 2中,Zend\Db\TableGateway 在 TableGateway::select() 结果集上调用 current() 方法返回数据集时就是这么干的。开发人员很容易就会踩到这个坑。
为了避免这些问题,检查一个数组是否为空最后的办法是用 count() 函数:
// Note that this work in ALL versions of PHP (both pre and post 5.0): $array = []; var_dump(count($array)); // outputs int(0) $array = new ArrayObject(); var_dump(count($array)); // outputs int(0)
在这顺便提一下,因为PHP中会将数值0认为是布尔值false,因此 count() 函数可以直接用在 if 条件语句的条件判断中来判断数组是否为空。另外,count() 函数对于数组来说复杂度为O(1),因此用 count() 函数是一个明智的选择。
再来看一个用 empty() 函数很危险的例子。当在魔术方法 __get() 中结合使用 empty() 函数时,也是很危险的。我们来定义两个类,每个类都有一个 test 属性。
首先我们定义 Regular 类,有一个 test 属性:
class Regular { public $test = 'value'; }
然后我们定义 Magic 类,并用 __get() 魔术方法来访问它的 test 属性:
class Magic { private $values = ['test' => 'value']; public function __get($key) { if (isset($this->values[$key])) { return $this->values[$key]; } } }
好了。我们现在来看看访问各个类的 test 属性会发生什么:
$regular = new Regular(); var_dump($regular->test); // outputs string(4) "value" $magic = new Magic(); var_dump($magic->test); // outputs string(4) "value"
到目前为止,都还是正常的,没有让我们感到迷糊。
但在 test 属性上使用 empty() 函数会怎么样呢?
var_dump(empty($regular->test)); // outputs bool(false) var_dump(empty($magic->test)); // outputs bool(true)
结果是不是很意外?
很不幸的是,如果一个类使用魔法 __get() 函数来访问类属性的值,没有简单的方法来检查属性值是否为空或是不存在。在类作用域外,你只能检查是否返回 null 值,但这并不一定意味着没有设置相应的键,因为键值可以被设置为 null 。
相比之下,如果我们访问 Regular 类的一个不存在的属性,则会得到一个类似下面的Notice消息:
Notice: Undefined property: Regular::$nonExistantTest in /path/to/test.php on line 10 Call Stack: 0.0012 234704 1. {main}() /path/to/test.php:0
因此,对于 empty() 函数,我们要小心的使用,要不然的话就会结果出乎意料,甚至潜在的误导你。