全面剖析PHP 數組底層實現邏輯-php教程-PHP中文網

首頁

後端開發

php教程

全面剖析PHP 數組底層實現邏輯

PHPz

Feb 29, 2024 pm 10:17 PM

php陣列後端開源php程式設計後端開發typedef實作邏輯解析數組

前言

php小編香蕉全面剖析PHP陣列底層實作邏輯。 PHP中的陣列是一種靈活且強大的資料結構，背後的實作邏輯卻是相當複雜的。在本文中，我們將深入探討PHP數組的底層原理，包括數組的內部結構、索引與雜湊表的關係，以及數組的增刪改查操作的實作方式。透過了解PHP數組的底層實現邏輯，可以幫助開發者更好地理解並利用數組這一重要的資料結構。

陣列的結構

一個陣列在 PHP 核心裡是長什麼樣子的呢？我們可以從PHP 的原始碼裡看到其結構如下：

<code>// 定义结构体别名为 HashTable
typedef struct _zend_array HashTable;

struct _zend_array {
	// <strong class="keylink">GC</strong> 保存引用计数，内存管理相关；本文不涉及
	zend_refcounted_h gc;
	// u 储存辅助信息；本文不涉及
	u<strong class="keylink">NIO</strong>n {
		struct {
			ZEND_ENDIAN_LOHI_4(
				zend_uchar    flags,
				zend_uchar    nApplyCount,
				zend_uchar    nIteratorsCount,
				zend_uchar    consistency)
		} v;
		uint32_t flags;
	} u;
	// 用于散列函数
	uint32_t          nTableMask;
	// arData 指向储存元素的数组第一个 Bucket，Bucket 为统一的数组元素类型
	Bucket           *arData;
	// 已使用 Bucket 数
	uint32_t          nNumUsed;
	// 数组内有效元素个数
	uint32_t          nNumOfElements;
	// 数组总容量
	uint32_t          nTableSize;
	// 内部指针，用于遍历
	uint32_t          nInternalPointer;
	// 下一个可用数字<strong class="keylink">索引</strong>
	zend_long         nNextFreeElement;
	// 析构函数
	dtor_func_t       pDestructor;
};</code>

nNumUsed 和nNumOfElements 的差異： nNumUsed 指的是arData 陣列中已使用的Bucket 數，因為陣列在刪除元素後只是將該元素Bucket 對應值的類型設定為IS_UNDEF（因為如果每次刪除元素都要將陣列移動並重新索引太浪費時間），而nNumOfElements 對應的是陣列中真正的元素個數。
nTableSize 陣列的容量，值為 2 的冪次方。 PHP 的陣列是不定長度但C 語言的陣列定長的，為了實現PHP 的不定長數組的功能，採用了「擴容」的機制，就是在每次插入元素的時候判斷nTableSize 是否足以儲存。如果不足則重新申請2 倍nTableSize 大小的新數組，並將原始數組複製過來（此時正是清除原始數組中類型為IS_UNDEF 元素的時機）並且重新索引。
nNextFreeElement 儲存下一個可用數字索引，例如在PHP 中$a[] = 1; 這種用法會插入一個索引為nNextFreeElement 的元素，然後nNextFreeElement 自增1。

_zend_array 這個結構先講到這裡，有些結構體成員的角色在下文會解釋，不用緊張O(∩_∩)O哈哈~。下面來看看作為數組成員的Bucket 結構：

<code>typedef struct _Bucket {
	// 数组元素的值
	zval              val;
	// key 通过 Time 33 <strong class="keylink">算法</strong>计算得到的哈希值或数字索引
	zend_ulong        h;
	// 字符键名，数字索引则为 NULL
	zend_string      *key;
} Bucket;</code>

數組存取

我們知道PHP 數組是基於哈希表實現的，而與一般哈希表不同的是PHP 的陣列也實現了元素的有序性，就是插入的元素從記憶體上來看是連續的而不是亂序的，為了實現這個有序性PHP 採用了「映射表」技術。以下就透過圖例說明我們是如何存取 PHP 陣列的元素 :-D。

全面剖析PHP 数组底层实现逻辑

注意：因為鍵名到映射表下標經過了兩次散列運算，為了區分本文用哈希特指第一次散列，散列即為第二次散列。

由圖可知，映射表和數組元素在同一片連續的內存中，映射表是一個長度與存儲元素相同的整數數組，它默認值為-1 ，有效值為Bucket 陣列的下標。而 HashTable->arData 指向的是這片記憶體中 Bucket 陣列的第一個元素。

舉例$a['key'] 存取陣列$a 中鍵名為key 的成員，流程介紹：先透過Time 33 演算法計算出key 的雜湊值，然後透過雜湊演算法計算出該雜湊值對應的映射表下標，因為映射表中保存的值就是Bucket陣列中的下標值，所以就能取得到Bucket 陣列中對應的元素。

現在我們來聊聊雜湊演算法，就是透過鍵名的雜湊值映射到「映射表」的下標的演算法。其實很簡單就一行程式碼：

<code>nIndex = h | ht->nTableMask;</code>

將雜湊值和nTableMask 進行或運算即可得出映射表的下標，其中nTableMask 數值為nTableSize 的負數。且由於 nTableSize 的值為2 的冪次方，所以h | ht->nTableMask 的值範圍在[-nTableSize, -1]之間，正好在映射表的下標範圍內。至於為何不用簡單的「取餘」運算而是費盡周折的採用「位元或」運算？因為「位元或」運算的速度比「取餘」運算快很多，我覺得對於這種頻繁使用的操作來說，複雜一點的實現帶來的時間上的優化是值得的。

雜湊衝突

不同鍵名的雜湊值透過雜湊計算得到的「映射表」下標有可能相同，此時便發生了雜湊衝突。對於這種情況 PHP 使用了「鏈結位址法」解決。下圖是存取發生雜湊衝突的元素的情況：

全面剖析PHP 数组底层实现逻辑

这看似与第一张图差不多，但我们同样访问 $a['key'] 的过程多了一些步骤。首先通过散列运算得出映射表下标为 -2 ，然后访问映射表发现其内容指向 arData 数组下标为 1 的元素。此时我们将该元素的 key 和要访问的键名相比较，发现两者并不相等，则该元素并非我们所想访问的元素，而元素的 val.u2.next 保存的值正是下一个具有相同散列值的元素对应 arData 数组的下标，所以我们可以不断通过 next 的值遍历直到找到键名相同的元素或查找失败。

插入元素

插入元素的函数 _zend_hash_add_or_update_i ，基于 PHP 7.2.9 的代码如下：

<code>static zend_always_inline zval *_zend_hash_add_or_update_i(HashTable *ht, zend_string *key, zval *pData, uint32_t flag ZEND_FILE_LINE_DC)
{
	zend_ulong h;
	uint32_t nIndex;
	uint32_t idx;
	Bucket *p;

	IS_CONSISTENT(ht);
	HT_ASSERT_RC1(ht);
	if (UNEXPECTED(!(ht->u.flags & HASH_FLAG_INITIALIZED))) { // 数组未初始化
		// 初始化数组
		CHECK_INIT(ht, 0);
		// 跳转至插入元素段
		goto add_to_hash;
	} else if (ht->u.flags & HASH_FLAG_PACKED) { // 数组为连续数字索引数组
		// 转换为关联数组
		zend_hash_packed_to_hash(ht);
	} else if ((flag & HASH_ADD_NEW) == 0) { // 添加新元素
		// 查找键名对应的元素
		p = zend_hash_find_bucket(ht, key);

		if (p) { // 若相同键名元素存在
			zval *data;
			
			if (flag & HASH_ADD) { // 指定 add 操作
				if (!(flag & HASH_UPDATE_INDIRECT)) { // 若不允许更新间接类型变量则直接返回
					return NULL;
				}
				// 确定当前值和新值不同
				ZEND_ASSERT(&p->val != pData);
				// data 指向原数组成员值
				data = &p->val;
				if (Z_TYPE_P(data) == IS_INDIRECT) { // 原数组元素变量类型为间接类型
 					// 取间接变量对应的变量
					data = Z_INDIRECT_P(data);
					if (Z_TYPE_P(data) != IS_UNDEF) { // 该对应变量存在则直接返回
						return NULL;
					}
				} else { // 非间接类型直接返回
					return NULL;
				}
			
			} else { // 没有指定 add 操作
				// 确定当前值和新值不同
				ZEND_ASSERT(&p->val != pData);
				// data 指向原数组元素值
				data = &p->val;
				// 允许更新间接类型变量则 data 指向对应的变量
				if ((flag & HASH_UPDATE_INDIRECT) && Z_TYPE_P(data) == IS_INDIRECT) {
					data = Z_INDIRECT_P(data);
				}
			}
			if (ht->pDestructor) { // 析构函数存在
				// 执行析构函数
				ht->pDestructor(data);
			}
			// 将 pData 的值复制给 data
			ZVAL_COPY_VALUE(data, pData);
			return data;
		}
	}
	// 如果哈希表已满，则进行扩容
	ZEND_HASH_IF_FULL_DO_RESIZE(ht);

add_to_hash:
	// 数组已使用 Bucket 数 +1
	idx = ht->nNumUsed++;
	// 数组有效元素数目 +1
	ht->nNumOfElements++;
	// 若内部指针无效则指向当前下标
	if (ht->nInternalPointer == HT_INVALID_IDX) {
		ht->nInternalPointer = idx;
	}
    
	zend_hash_iterators_update(ht, HT_INVALID_IDX, idx);
	// p 为新元素对应的 Bucket
	p = ht->arData + idx;
	// 设置键名
	p->key = key;
	if (!ZSTR_IS_INTERNED(key)) {
		zend_string_addref(key);
		ht->u.flags &= ~HASH_FLAG_STATIC_KEYS;
		zend_string_hash_val(key);
	}
	// 计算键名的哈希值并赋值给 p
	p->h = h = ZSTR_H(key);
	// 将 pData 赋值该 Bucket 的 val
	ZVAL_COPY_VALUE(&p->val, pData);
	// 计算映射表下标
	nIndex = h | ht->nTableMask;
	// 解决冲突，将原映射表中的内容赋值给新元素变量值的 u2.next 成员
	Z_NEXT(p->val) = HT_HASH(ht, nIndex);
	// 将映射表中的值设为 idx
	HT_HASH(ht, nIndex) = HT_IDX_TO_HASH(idx);

	return &p->val;
}</code>

扩容

前面将数组结构的时候我们有提到扩容，而在插入元素的代码里有这样一个宏 ZEND_HASH_IF_FULL_DO_RESIZE，这个宏其实就是调用了 zend_hash_do_resize 函数，对数组进行扩容并重新索引。注意：并非每次 Bucket 数组满了都需要扩容，如果 Bucket 数组中 IS_UNDEF 元素的数量占较大比例，就直接将 IS_UNDEF 元素删除并重新索引，以此节省内存。下面我们看看 zend_hash_do_resize 函数：

重新索引的逻辑在 zend_hash_rehash 函数中，代码如下：

总结

嗯哼，本文就到此结束了，因为自身水平原因不能解释的十分详尽清楚。这算是我写过最难写的内容了，写完之后似乎觉得这篇文章就我自己能看明白/(ㄒoㄒ)/~~因为文笔太辣鸡。想起一句话「如果你不能简单地解释一样东西，说明你没真正理解它。」PHP 的源码里有很多细节和实现我都不算熟悉，这篇文章只是一个我的 PHP 底层学习的开篇，希望以后能够写出真正深入浅出的好文章。

以上是全面剖析PHP 數組底層實現邏輯的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：编程网。如有侵權，請聯絡admin@php.cn刪除

YOLOv6又快又准的目标检测框架已经开源了May 09, 2023 pm 02:52 PM

作者：楚怡、凯衡等近日，美团视觉智能部研发了一款致力于工业应用的目标检测框架YOLOv6，能够同时专注于检测的精度和推理效率。在研发过程中，视觉智能部不断进行了探索和优化，同时吸取借鉴了学术界和工业界的一些前沿进展和科研成果。在目标检测权威数据集COCO上的实验结果显示，YOLOv6在检测精度和速度方面均超越其他同体量的算法，同时支持多种不同平台的部署，极大简化工程部署时的适配工作。特此开源，希望能帮助到更多的同学。1.概述YOLOv6是美团视觉智能部研发的一款目标检测框架，致力于工业应用。

MLC LLM：开源AI聊天机器人，支持离线运行，适用于集成显卡电脑和iPhone。May 06, 2023 pm 03:46 PM

5月2日消息，目前大多数AI聊天机器人都需要连接到云端进行处理，即使可以本地运行的也配置要求极高。那么是否有轻量化的、无需联网的聊天机器人呢？一个名为MLCLLM的全新开源项目已在GitHub上线，完全本地运行无需联网，甚至集显老电脑、苹果iPhone手机都能运行。MLCLLM项目介绍称：“MLCLLM是一种通用解决方案，它允许将任何语言模型本地部署在一组不同的硬件后端和本地应用程序上，此外还有一个高效的框架，供每个人进一步优化自己用例的模型性能。一切都在本地运行，无需服务器支持，并通过手机和笔

基于开源的 ChatGPT Web UI 项目，快速构建属于自己的 ChatGPT 站点Apr 15, 2023 pm 07:43 PM

作为一个技术博主，了不起比较喜欢各种折腾，之前给大家介绍过ChatGPT接入微信，钉钉和知识星球（如果没看过的可以翻翻前面的文章），最近再看开源项目的时候，发现了一个ChatGPTWebUI项目。想着刚好之前没有将ChatGPT接入过WebUI，有了这个开源项目可以拿来使用，真是不错，下面是实操的安装步骤，分享给大家。安装官方在Github的项目文档上提供了很多中的安装方式，包括手动安装，docker部署，以及远程部署等方法，了不起在选择部署方式的时候，一开始为了简单想着

仅需1% Embedding参数，硬件成本降低十倍，开源方案单GPU训练超大推荐模型Apr 12, 2023 pm 03:46 PM

深度推荐模型（DLRMs）已经成为深度学习在互联网公司应用的最重要技术场景，如视频推荐、购物搜索、广告推送等流量变现业务，极大改善了用户体验和业务商业价值。但海量的用户和业务数据，频繁地迭代更新需求，以及高昂的训练成本，都对 DLRM 训练提出了严峻挑战。在 DLRM 中，需要先在嵌入表（EmbeddingBags）中进行查表（lookup），再完成下游计算。嵌入表常常贡献 DLRM 中 99% 以上的内存需求，却只贡献 1% 的计算量。借助于 GPU 片上高速内存（High Bandwidth

Stable Diffusion-XL开启公测，让你摆脱繁琐的长prompt！Apr 23, 2023 am 10:16 AM

自从Midjourney发布v5之后，在生成图像的人物真实程度、手指细节等方面都有了显著改善，并且在prompt理解的准确性、审美多样性和语言理解方面也都取得了进步。相比之下，StableDiffusion虽然免费、开源，但每次都要写一大长串的prompt，想生成高质量的图像全靠多次抽卡。最近StabilityAI的官宣，正在研发的StableDiffusionXL开始面向公众测试，目前可以在Clipdrop平台免费试用。试用链接：https://clipdrop.co/stable-diff

用图像对齐所有模态，Meta开源多感官AI基础模型，实现大一统May 11, 2023 pm 07:25 PM

在人类的感官中，一张图片可以将很多体验融合到一起，比如一张海滩图片可以让我们想起海浪的声音、沙子的质地、拂面而来的微风，甚至可以激发创作一首诗的灵感。图像的这种「绑定」（binding）属性通过与自身相关的任何感官体验对齐，为学习视觉特征提供了大量监督来源。理想情况下，对于单个联合嵌入空间，视觉特征应该通过对齐所有感官来学习。然而这需要通过同一组图像来获取所有感官类型和组合的配对数据，显然不可行。最近，很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅

首个大众可用PyTorch版AlphaFold2复现，哥大开源，star量破千Apr 13, 2023 am 09:58 AM

刚刚，哥伦比亚大学系统生物学助理教授 Mohammed AlQuraishi 在推特上宣布，他们从头训练了一个名为 OpenFold 的模型，该模型是 AlphaFold2 的可训练 PyTorch 复现版本。Mohammed AlQuraishi 还表示，这是第一个大众可用的 AlphaFold2 复现。AlphaFold2 可以周期性地以原子精度预测蛋白质结构，在技术上利用多序列对齐和深度学习算法设计，并结合关于蛋白质结构的物理和生物学知识提升了预测效果。它实现了 2/3 蛋白质结构预测的卓

生成多语种文本与图片的全能工具AltDiffusion-m18May 07, 2023 pm 06:37 PM

当前，非英文文图生成模型选择有限，用户往往要将prompt翻译成英语再输入模型。这样不仅会造成额外的操作负担，并且翻译过程中的语言文化误差，会影响生成图片的准确性。智源研究院FlagAI团队首创高效训练方式，使用多语言预训练模型和StableDiffusion结合，训练多语言文图生成模型——AltDiffusion-m18，支持18种语言的文图生成。包括中文、英文、日语、泰语、韩语、印地语、乌克兰语、阿拉伯语、土耳其语、越南语、波兰语、荷兰语、葡萄牙语、意大利语、西班牙语、德语、法语、俄语。Hu

See all articles