PHP有数据的一个非常重要的一类,就是关联数组。又称为哈希表(hash table),是一种很好用的数据结构。



在程序中。我们可能会遇到须要消重的问题,举一个最简单的模型:



有一份username列表。存储了 10000 个username,没有反复项;

另一份黑名单列表,存储了 2000 个username,格式与username列表同样。

如今须要从username列表中删除处在黑名单里的username,要求用尽量快的时间处理。



这个问题是一个小规模的处理量,假设实际一点,2 个表都可能非常大,比方有 2 亿条记录。

我最開始想到的方法,就是做一个嵌套的循环。设username表有 M 条记录,黑名单列表有 N 条记录,那么,循环的次数是 M * N 次。

PHP 版代码:

01 <?php  

02 foreach($arrayM as $keyM => $nameM) {  

03 foreach($arrayN as $nameN) {  

04 if ($nameM == $nameN) {  

05 // 本行运行了 M * N 次!  

06 unset($arrayM[$keyM]);  

07 }  

08 }  

09 }  

10 return $arrayM;  

11 ?

>

还有一种方式,利用数组索引。



PHP 是一种弱类型的语言,不像 C 语言那样有严格的变量类型限制。C 语言的数组。每个元素的类型必须一致。并且索引都是从
0 開始。

PHP 的数组,能够用字符串作为索引,也称为关联数组。

数组索引,有一个天然的限制就是不会反复。并且訪问的时候不须要查找,能够直接定位。

还是刚才的那个问题,我们採用还有一种办法。



把黑名单列表的username组织到一个数组里,数组的索引就是username。



然后,遍历用户列表的时候,仅仅需直接用 isset 查询那个username是否存在就可以。



PHP 版代码:

01 <?php  

02 $arrayHash = array();  

03 foreach($arrayN as $nameN) {  

04 // 本行运行了 N 次。  

05 $arrayHash[$nameN] = 1;  

06 }  

07  

08 foreach($arrayM as $keyM => $nameM) {  

09 if (isset($arrayHash[$nameM])) {  

10 // 本行运行了 M 次!

11 unset($arrayM[$keyM]);  

12 }  

13 }  

14 return $arrayM;  

15 ?

>

能够看到,优化过的代码,循环次数是 M + N 次。



假如 M 和 N 都是 10000,优化前,循环了 1 亿次;优化后。仅仅循环了 20000 次。差了 5000 倍。

假设第二个程序耗时 1 秒。则第一个程序须要将近一个半小时!

=========================================================================

hash一个貌似比較复杂的东西,实际上理解起来并不那么夸张。这里做个笔记。



hash,中文翻译成杂乱的东西。有人也叫它杂凑,或者翻译成什么都不是的音译“哈希”。



简单说来。hash就是为了把一个复杂的字串,通过一定的转换,得到一个简单的数字(一般是数字)。

如"abcd" 用各个字符的值直接相加。再取对10的余数,既(a+b+c+d)。来得到一个数字。例如说结果为5,那么这个5就能在一定意义上代表这个字串 abcd了。或者说这个5也能够说是这个字串的一个标记性的东西,并且是简化了的标记,所以又有人叫这个5为字串的摘要,或指纹。

这个5,有一个好的用处就是能够作为一个数组的下标来用,如我自己构造一个指针数组void* hash_array[10]。那么我就能够把5那个位置上填上一个指针,如指向abcd字串。

这种话。我假设要去查询一个字串是否存在,就不须要对一个数组使用字符串循环对照这种慢操作,而直接先得到某个字串的hash值,再用这个hash值,在数组下标里直接找。这样速度要快上非常多,特别是数据比較多的时候。



能够看到上面计算hash值时,出来的结果,可能并非从0開始的,如我们算出的就是5。也就是说,这个5是在数组中的某个不确定的位置,或者能够叫做是一个杂凑出来的位置。其它位置可能一直就空着在。这就是这个数组或表格叫hash表的原因了。

但有个问题,上面的转换方法,直接相加,再取个余数,在字符串变为abdc时。结果得到的还是数字5。

这个就是上面这个算法的一个问题了。即它不能保证一个唯一性。所以就出现了非常多hash算法的研究,如MD4,MD5,SHA-1等,来保证唯一性。

但上面这个算法还是能够使用的,做法就是在abdc经过hash得到5后,去检查5是否被占用。假设占用了,那么就把数字加1。即为6,假设6没被占用,就填上值。假设后面某个字串算出一个值是6,但6已经被占用了,那么就再加1。再存。

取数据的时候,能够先算出hash值后,再看里面的内容是不是你想要的,假设不是,就加1去看,最后得到一个。



所以这里hash表的内容并非象一般的数组最開始就组织好了的,而是兴许慢慢往里添加的。

hash表里存的内容一般能够是一个指针,这个指针能够指向一个大的结构也是能够的。这个结构里能够有key, value信息。

hash表也能够不是数组,你能够把它组织成一个链表,链表里的node的结构中能够有一个參数就是那个数字的hash_value。用来高速查找用。

尽管在非常多时候hash被用在加密等场合,但在一般的应用程序代码中,也能够用它来存简单的数据存储,代码的这样的高效率将是非常。

版权声明:本文博主原创文章,博客,未经同意不得转载。

PHP关联数组和哈希表(hash table) 未指定的更多相关文章

  1. 算法与数据结构基础 - 哈希表(Hash Table)

    Hash Table基础 哈希表(Hash Table)是常用的数据结构,其运用哈希函数(hash function)实现映射,内部使用开放定址.拉链法等方式解决哈希冲突,使得读写时间复杂度平均为O( ...

  2. 词典(二) 哈希表(Hash table)

    散列表(hashtable)是一种高效的词典结构,可以在期望的常数时间内实现对词典的所有接口的操作.散列完全摒弃了关键码有序的条件,所以可以突破CBA式算法的复杂度界限. 散列表 逻辑上,有一系列可以 ...

  3. 什么叫哈希表(Hash Table)

    散列表(也叫哈希表),是根据关键码值直接进行访问的数据结构,也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度.这个映射函数叫做散列函数,存放记录的数组叫做散列表. - 数据结构 ...

  4. 数据结构 哈希表(Hash Table)_哈希概述

    哈希表支持一种最有效的检索方法:散列. 从根来上说,一个哈希表包含一个数组,通过特殊的索引值(键)来访问数组中的元素. 哈希表的主要思想是通过一个哈希函数,在所有可能的键与槽位之间建立一张映射表.哈希 ...

  5. 哈希表(Hash table)

  6. Perl 引用:引用就是指针,Perl 引用是一个标量类型可以指向变量、数组、哈希表(也叫关联数组)甚至子程序。

    Perl 引用引用就是指针,Perl 引用是一个标量类型可以指向变量.数组.哈希表(也叫关联数组)甚至子程序,可以应用在程序的任何地方. 1.创建引用1.使用斜线\定义变量的时候,在变量名前面加个\, ...

  7. Redis原理再学习04:数据结构-哈希表hash表(dict字典)

    哈希函数简介 哈希函数(hash function),又叫散列函数,哈希算法.散列函数把数据"压缩"成摘要,有的也叫"指纹",它使数据量变小且数据格式大小也固定 ...

  8. Swift4 基本数据类型(范围型, Stride型, 数组, 字符串, 哈希表)

    创建: 2018/02/28 完成: 2018/03/04 更新: 2018/05/03 给主要标题加上英语, 方便页内搜索 [任务表]TODO 范围型(Range)与Stride型  与范围运算符相 ...

  9. 哈希表(Hash)的应用

    $hs=@() #定义数组 $hs=@{} #定义Hash表,使用哈希表的键可以直接访问对应的值,如 $hs["王五"] 或者 $hs.王五 的值为 75 $hs=@''@ #定义 ...

随机推荐

  1. CC++刚開始学习的人编程教程(9) Windows8.1安装VS2013并捆绑QT与编程助手

    我们在Windows8.1安装VS2013并捆绑QT与编程助手须要下列文件. 2. 在虚拟机中开启Windows8.1 3.然后选择VS2013的安装镜像. 4.将镜像拷贝到虚拟机. 5.我们装载这个 ...

  2. 免费git服务器以及使用过程中遇到的问题

    1. git rm *,git pull会先git fetch后再git merge,更安全的做法是git fetch修改后再push:git remote rm origin 2. https:// ...

  3. Wix打包系列(二)用户界面和本地化操作

    原文:Wix打包系列(二)用户界面和本地化操作 上一章节,我们已经大概知道如何对文件进行打包安装,不过我们也注意到,通过对Sample.wxs的编译链接,生成的msi安装包没有任何用户界面,只有一个安 ...

  4. LeetCode :: Binary Tree Zigzag Level Order Traversal [tree, BFS]

    Given a binary tree, return the zigzag level order traversal of its nodes' values. (ie, from left to ...

  5. HTTP协议中的短轮询、长轮询、长连接和短连接

    HTTP协议中的短轮询.长轮询.长连接和短连接 引言 最近刚到公司不到一个月,正处于熟悉项目和源码的阶段,因此最近经常会看一些源码.在研究一个项目的时候,源码里面用到了HTTP的长轮询.由于之前没太接 ...

  6. python手记(52)

    python将信息加密进图片 从图片中解密信息 >>> runfile(r'K:\testpro\test1.py', wdir=r'K:\testpro') http://blog ...

  7. IOS开发应用

    IOS开发应用 我的第一个IOS开发应用 1. 需求描述 2. 开发环境介绍 3. 创建一个工程 4. 工程配置介绍 5. 目录结构介绍 6. 界面设置 7. 关联输入输出 8. 关联事件代码 9.  ...

  8. 《JavaScript设计模式与开发实践》读书笔记之代理模式

    1.代理模式 代理模式是为一个对象提供一个代用品或占位符,以便控制对它的访问 1.1 一般的图片加载 var myImage=(function () { var imgNode=document.c ...

  9. Thinkpad X200 屏幕备案

    妈妈蛋,屏幕废物前几天(闪屏->暗->变暗),因此,它只能监视房外 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMjk2NTg5MA= ...

  10. CSDN的SDCC大会(2013)中使用的PPT分享

    SDCC大会今天开完个.呵呵~ PPT下载链接在最后面,对内幕不感兴趣的可以直接无视下面的种种啰嗦直接“嗖”到最后. 这里说说这个大会中我的Topic. 此前CSDN向我约了一个主题,我回复说, 我可 ...