Maison >développement back-end >tutoriel php >Analyser l'évolution du mécanisme de garbage collection en PHP5

Analyser l'évolution du mécanisme de garbage collection en PHP5

巴扎黑
巴扎黑original
2017-08-21 13:52:171483parcourir

Avant-propos

PHP est un langage géré. Dans la programmation PHP, les programmeurs n'ont pas besoin de gérer manuellement l'allocation et la libération des ressources mémoire (sauf lors de l'écriture d'extensions PHP ou Zend en C), ce qui signifie que PHP Il implémente lui-même le mécanisme de récupération de place (Garbage Collection). Maintenant, si vous allez sur le site officiel de PHP (php.net), vous pouvez voir que les deux versions actuelles de PHP5, PHP5.2 et PHP5.3, sont mises à jour séparément, car de nombreux projets utilisent encore la version 5.2 de PHP. , et la version 5.3 est la 5.2 qui n'est pas entièrement compatible. PHP5.3 a apporté de nombreuses améliorations basées sur PHP5.2, parmi lesquelles l'algorithme de récupération de place constitue un changement relativement important. Cet article discutera des mécanismes de garbage collection de PHP5.2 et PHP5.3 respectivement, et discutera de l'impact de cette évolution et amélioration sur les programmeurs écrivant PHP et des problèmes auxquels ils doivent prêter attention.

Représentation interne des variables PHP et des objets mémoire associés

Le garbage collection est en fin de compte une opération sur les variables et leurs objets mémoire associés, donc avant de discuter du mécanisme de garbage collection de PHP, présentons-le brièvement. La représentation interne des variables et de leurs objets mémoire en PHP (leur représentation dans le code source C).

La documentation officielle PHP divise les variables en PHP en deux catégories : les types scalaires et les types complexes. Les types scalaires incluent les booléens, les entiers, les types à virgule flottante et les chaînes ; les types complexes incluent les tableaux, les objets et les ressources ; il existe également un NULL spécial, qui n'est divisé en aucun type, mais devient une catégorie distincte.

Tous ces types sont uniformément représentés au sein de PHP par une structure appelée zval Dans le code source PHP, le nom de cette structure est "_zval_struct". La définition spécifique de zval se trouve dans le fichier "Zend/zend.h" du code source PHP. Ce qui suit est un extrait du code correspondant.

typedef union _zvalue_value {
    long lval;                  /* long value */
    double dval;                /* double value */
    struct {
        char *val;
        int len;
    } str;
    HashTable *ht;              /* hash table value */
    zend_object_value obj;
} zvalue_value;
 
struct _zval_struct {
    /* Variable information */
    zvalue_value value;     /* value */
    zend_uint refcount__gc;
    zend_uchar type;    /* active type */
    zend_uchar is_ref__gc;
};

L'union "_zvalue_value" est utilisée pour représenter les valeurs de toutes les variables en PHP La raison pour laquelle l'union est utilisée ici est qu'un zval ne peut représenter qu'un seul type de variable à la fois. Vous pouvez voir qu'il n'y a que 5 champs dans _zvalue_value, mais il existe 8 types de données en PHP, dont NULL. Alors, comment PHP utilise-t-il 5 champs pour représenter 8 types en interne ? C'est l'un des aspects les plus intelligents de la conception PHP. Il permet de réduire les champs en les réutilisant. Par exemple, dans PHP, les types booléens, les entiers et les ressources (tant que l'identifiant de la ressource est stocké) sont stockés via le champ lval ; dval est utilisé pour stocker les types à virgule flottante ; str stocke les chaînes ; en PHP Le tableau est en fait une table de hachage) ; et obj stocke le type d'objet ; si tous les champs sont définis sur 0 ou NULL, cela signifie NULL en PHP, de sorte que 5 champs sont utilisés pour stocker 8 types de valeurs.

Le type que représente la valeur dans le zval actuel (le type de valeur est _zvalue_value) est déterminé par le type dans "_zval_struct". _zval_struct est l'implémentation spécifique de zval en langage C. Chaque zval représente un objet mémoire d'une variable. En plus de la valeur et du type, vous pouvez voir qu'il y a deux champs refcount__gc et is_ref__gc dans _zval_struct. À partir de leurs suffixes, vous pouvez conclure que ces deux types sont liés au garbage collection. C'est vrai, le garbage collection de PHP repose entièrement sur ces deux champs. Parmi eux, refcount__gc indique qu'il existe actuellement plusieurs variables faisant référence à ce zval, et is_ref__gc indique si le zval actuel est référencé par référence. Cela semble très déroutant. Cela est lié au mécanisme "Write-On-Copy" de zval en PHP. Puisque ce sujet n'est pas le sujet de cet article, je n'entrerai donc pas dans les détails ici, les lecteurs doivent seulement se souvenir du rôle du champ refcount__gc.

Algorithme de récupération de place en PHP5.2 - Comptage de références

L'algorithme de recyclage de mémoire utilisé dans PHP5.2 est le célèbre comptage de références. La traduction chinoise de cet algorithme est appelée "comptage de références". L'idée est très intuitive et concise : attribuer un compteur à chaque objet mémoire lorsqu'un objet mémoire est créé, le compteur est initialisé à 1 (il y a donc toujours une variable référençant cet objet à ce moment-là). à cet objet mémoire, le compteur est incrémenté de 1, et chaque fois qu'une variable faisant référence à cet objet mémoire est réduite, le compteur est décrémenté de 1. Lorsque le mécanisme de garbage collection fonctionne, tous les objets mémoire avec un compteur à 0 sont détruits et la mémoire qu'ils occupent est recyclée. L'objet mémoire en PHP est zval et le compteur est refcount__gc.

Par exemple, le code PHP suivant démontre le principe de fonctionnement du compteur PHP5.2 (la valeur du compteur est obtenue via xdebug) :

<?php
 
$val1 = 100; //zval(val1).refcount_gc = 1;
$val2 = $val1; //zval(val1).refcount_gc = 2,zval(val2).refcount_gc = 2(因为是Write on copy,当前val2与val1共同引用一个zval)
$val2 = 200; //zval(val1).refcount_gc = 1,zval(val2).refcount_gc = 1(此处val2新建了一个zval)
unset($val1); //zval(val1).refcount_gc = 0($val1引用的zval再也不可用,会被GC回收)
 
?>
Reference Counting简单直观,实现方便,但却存在一个致命的缺陷,就是容易造成内存泄露。很多朋友可能已经意识到了,如果存在循环引用,那么Reference Counting就可能导致内存泄露。例如下面的代码:
<?php
$a = array();
$a[] = & $a;
unset($a);
 
?>

Ce code crée d'abord le tableau a, puis laisse a Le premier élément pointe vers a par référence. A ce moment, le refcount du zval de a devient 2. Ensuite, nous détruisons la variable a. A ce moment, le refcount du zval pointé initialement par a est 1. , mais nous n'avons plus aucun moyen de le faire fonctionner car il forme une auto-référence circulaire, comme le montre la figure suivante :

Analyser lévolution du mécanisme de garbage collection en PHP5

La partie grise indique qu'il ne l'est plus. existe. Puisque le refcount du zval pointé par a est 1 (référencé par le premier élément de sa HashTable), ce zval ne sera pas détruit par GC, et cette partie de la mémoire sera divulguée.

这里特别要指出的是,PHP是通过符号表(Symbol Table)存储变量符号的,全局有一个符号表,而每个复杂类型如数组或对象有自己的符号表,因此上面代码中,a和a[0]是两个符号,但是a储存在全局符号表中,而a[0]储存在数组本身的符号表中,且这里a和a[0]引用同一个zval(当然符号a后来被销毁了)。希望读者朋友注意分清符号(Symbol)的zval的关系。

在PHP只用于做动态页面脚本时,这种泄露也许不是很要紧,因为动态页面脚本的生命周期很短,PHP会保证当脚本执行完毕后,释放其所有资源。但是PHP发展到目前已经不仅仅用作动态页面脚本这么简单,如果将PHP用在生命周期较长的场景中,例如自动化测试脚本或deamon进程,那么经过多次循环后积累下来的内存泄露可能就会很严重。这并不是我在耸人听闻,我曾经实习过的一个公司就通过PHP写的deamon进程来与数据存储服务器交互。

由于Reference Counting的这个缺陷,PHP5.3改进了垃圾回收算法。

PHP5.3中的垃圾回收算法——Concurrent Cycle Collection in Reference Counted Systems

PHP5.3的垃圾回收算法仍然以引用计数为基础,但是不再是使用简单计数作为回收准则,而是使用了一种同步回收算法,这个算法由IBM的工程师在论文Concurrent Cycle Collection in Reference Counted Systems中提出。

这个算法可谓相当复杂,从论文29页的数量我想大家也能看出来,所以我不打算(也没有能力)完整论述此算法,有兴趣的朋友可以阅读上面的提到的论文(强烈推荐,这篇论文非常精彩)。

我在这里,只能大体描述一下此算法的基本思想。

首先PHP会分配一个固定大小的“根缓冲区”,这个缓冲区用于存放固定数量的zval,这个数量默认是10,000,如果需要修改则需要修改源代码Zend/zend_gc.c中的常量GC_ROOT_BUFFER_MAX_ENTRIES然后重新编译。

由上文我们可以知道,一个zval如果有引用,要么被全局符号表中的符号引用,要么被其它表示复杂类型的zval中的符号引用。因此在zval中存在一些可能根(root)。这里我们暂且不讨论PHP是如何发现这些可能根的,这是个很复杂的问题,总之PHP有办法发现这些可能根zval并将它们投入根缓冲区。

当根缓冲区满额时,PHP就会执行垃圾回收,此回收算法如下:

1、对每个根缓冲区中的根zval按照深度优先遍历算法遍历所有能遍历到的zval,并将每个zval的refcount减1,同时为了避免对同一zval多次减1(因为可能不同的根能遍历到同一个zval),每次对某个zval减1后就对其标记为“已减”。

2、再次对每个缓冲区中的根zval深度优先遍历,如果某个zval的refcount不为0,则对其加1,否则保持其为0。

3、清空根缓冲区中的所有根(注意是把这些zval从缓冲区中清除而不是销毁它们),然后销毁所有refcount为0的zval,并收回其内存。

如果不能完全理解也没有关系,只需记住PHP5.3的垃圾回收算法有以下几点特性:

1、并不是每次refcount减少时都进入回收周期,只有根缓冲区满额后在开始垃圾回收。

2、可以解决循环引用问题。

3、可以总将内存泄露保持在一个阈值以下。

PHP5.2与PHP5.3垃圾回收算法的性能比较

由于我目前条件所限,我就不重新设计试验了,而是直接引用PHP Manual中的实验,关于两者的性能比较请参考PHP Manual中的相关章节:http://www.php.net/manual/en/features.gc.performance-considerations.php。

首先是内存泄露试验,下面直接引用PHP Manual中的实验代码和试验结果图:

<?php
class Foo
{
    public $var = &#39;3.1415962654&#39;;
}
 
$baseMemory = memory_get_usage();
 
for ( $i = 0; $i <= 100000; $i++ )
{
    $a = new Foo;
    $a->self = $a;
    if ( $i % 500 === 0 )
    {
        echo sprintf( &#39;%8d: &#39;, $i ), memory_get_usage() - $baseMemory, "\n";
    }
}
?>

Analyser lévolution du mécanisme de garbage collection en PHP5

Analyser lévolution du mécanisme de garbage collection en PHP5

可以看到在可能引发累积性内存泄露的场景下,PHP5.2发生持续累积性内存泄露,而PHP5.3则总能将内存泄露控制在一个阈值以下(与根缓冲区大小有关)。

另外是关于性能方面的对比:

<?php
class Foo
{
    public $var = &#39;3.1415962654&#39;;
}
 
for ( $i = 0; $i <= 1000000; $i++ )
{
    $a = new Foo;
    $a->self = $a;
}
 
echo memory_get_peak_usage(), "\n";
?>

这个脚本执行1000000次循环,使得延迟时间足够进行对比。

然后使用CLI方式分别在打开内存回收和关闭内存回收的的情况下运行此脚本:

time php -dzend.enable_gc=0 -dmemory_limit=-1 -n example2.php
# and
time php -dzend.enable_gc=1 -dmemory_limit=-1 -n example2.php

在我的机器环境下,运行时间分别为6.4s和7.2s,可以看到PHP5.3的垃圾回收机制会慢一些,但是影响并不大。

Configuration PHP liée à l'algorithme de récupération de place

Vous pouvez activer ou désactiver le mécanisme de récupération de place de PHP en modifiant zend.enable_gc dans php.ini, ou vous pouvez l'activer en appelant gc_enable() ou gc_disable( ) Ou désactivez le mécanisme de récupération de place de PHP. Même si le mécanisme de garbage collection est désactivé dans PHP5.3, PHP enregistrera toujours les racines possibles dans le tampon racine, mais lorsque le tampon racine est plein, PHP n'exécutera pas automatiquement le garbage collection. Bien sûr, vous pouvez appeler manuellement gc_collect_cycles à. à tout moment. () force le recyclage de la mémoire.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn