PHP的数组是开发过程中最常用的数据结构之一,它既可以当作普通索引数组使用,也能作为关联数组、甚至模拟队列和栈的功能,很多PHP面试都会考察其底层实现原理,实际上PHP的数组底层是基于HashTable(哈希表)实现的有序映射结构。

PHP数组的底层核心结构
PHP中的数组在底层对应两个核心结构:zval和HashTable。zval是PHP中所有变量的通用容器,而HashTable是数组实际存储数据的结构,其简化定义如下:
// 简化的HashTable结构定义
typedef struct _HashTable {
uint32_t nTableSize; // 哈希表的大小,总是2的幂次方
uint32_t nTableMask; // 掩码,用于计算哈希索引,值为nTableSize-1
uint32_t nNumUsed; // 已使用的Bucket数量
uint32_t nNumOfElements; // 数组中实际存储的元素数量
uint32_t nNextFreeElement;// 下一个可用的数字索引
Bucket *arData; // 存储Bucket元素的数组指针
} HashTable;
每个Bucket是哈希表中的一个存储单元,用来存放数组的键值对,简化定义如下:
typedef struct _Bucket {
zval val; // 存储的元素值
zend_ulong h; // 键的哈希值,数字键直接存数字,字符串键存哈希值
zend_string *key; // 字符串键的指针,数字键时为NULL
} Bucket;
数组的索引映射逻辑
PHP数组的键分为两种类型,映射逻辑略有不同:
- 数字键:直接将数字作为哈希值,通过
nTableMask计算得到存储位置,比如数字键5,哈希表大小为8时,计算5 & 7 = 5,就存储到arData的第5个位置。 - 字符串键:先对字符串计算哈希值,再通过同样的掩码计算得到初始存储位置。
哈希冲突的处理方式
当两个不同的键计算得到的存储位置相同时,就会发生哈希冲突,PHP使用链地址法解决冲突:每个Bucket结构里有一个隐式的冲突链指针,冲突的元素会形成一个链表,存储在同一个哈希索引对应的位置。查找元素时,先计算哈希索引,再遍历该位置的冲突链找到对应键的元素。
数组的有序性实现
PHP数组是有序的,这个有序性不是靠排序实现的,而是靠arData数组的物理顺序:每次插入新元素,都会按顺序放到arData的下一个可用位置,遍历数组的时候直接按顺序遍历arData即可,不需要考虑哈希索引的乱序问题。
常见操作的内部流程示例
数组插入元素
以插入关联数组元素$arr['test'] = 123;为例,内部流程如下:
- 计算字符串'test'的哈希值,得到对应的哈希索引位置。
- 检查该位置是否有冲突,没有则直接存入
Bucket,有则追加到冲突链末尾。 - 将
Bucket按顺序放入arData数组,更新nNumUsed和nNumOfElements计数。
数组遍历元素
遍历数组的时候,PHP直接按顺序遍历arData数组,跳过已删除的Bucket(已删除的Bucket会标记类型,不会立即释放),所以遍历顺序和插入顺序一致。
简单代码示例验证
可以通过简单的PHP代码观察数组的特性,比如数字键和字符串键的共存:
<?php
$arr = [];
$arr[0] = 'a';
$arr['name'] = 'b';
$arr[2] = 'c';
// 遍历输出会按照插入顺序:a, b, c
foreach ($arr as $v) {
echo $v . PHP_EOL;
}
?>
上述代码的输出顺序是a、b、c,正好验证了PHP数组的有序性,底层就是靠arData的物理存储顺序实现的。
面试常考问题汇总
结合数组实现原理,面试中常见的相关问题有:
- PHP数组和C语言数组的区别是什么?
- PHP数组为什么能同时支持索引和关联两种形式?
- PHP数组的哈希冲突是怎么处理的?
- PHP数组遍历的顺序为什么和插入顺序一致?
理解了上述HashTable的实现逻辑,这些问题都可以轻松回答,也能更深入理解PHP数组的使用场景和性能特性。