python经典面试算法题4.1：如何找出数组中唯一的重复元素

本题目摘自《Python程序员面试算法宝典》，我会每天做一道这本书上的题目，并分享出来，统一放在我博客内，收集在一个分类中。

【百度面试题】

难度系数：⭐⭐⭐

考察频率：⭐⭐⭐⭐

题目描述：数字1 ~ 1000放在含有1001个元素的数组中，其中只有唯一的一个元素重复，其他数字均只出现一次。设计一个算法，将重复元素找出来，要求每个数组元素只能访问一次。

进阶：在上面题目描述中，如果不使用辅助空间，能否设计一个算法实现？

方法一：空间换时间

首先分析题目所要达到的目标以及其中的限定条件。从题目中可以发现，本题的目标是在一个有且仅有一个元素重复的数组中找到这个唯一的重复元素，限定条件是每个数组元素只能访问一次。

在不考虑进阶条件的情况下，我们可以通过字典的key来进行去重，我们可以把数字当作key，出现的次数记作value：

from collections import defaultdict

def find_elem(array):

	dic = defaultdict(lambda : 0)  # 构造一个缺省字典，当出现KeyError的时候压制，并创建键值对为key - 0

    for elem in array:

        if dic[elem] == 1:   # 这一步如果dic中没有elem不会报错因为dic是defaultdict

            return elem

        dic[elem] += 1

    return "can't find it"

print(find_elem([1, 3, 4, 2, 5, 3]))   # 3

# 如果defaultdict看不懂可以看下面使用get方法的版本

def find_elem(array):

	dic = {}   # 使用普通字典

	for elem in array:

		dic[elem] = dic.get(elem, 0) + 1   # get不到elem会返回0， 然后再＋1，再创建 k - v 对

		if dic[elem] == 2:  # 重复的元素

			return elem

	return "can't find it"

这种方法很容易想到，时间复杂度为O(n)，空间复杂度也是O(n)，这种思想在工作中可以使用，比如一个项目急着上线，没有什么时间给你雕琢程序，那么我们可以考虑使用空间来换取程序运行的时间。

方法二：累加求和法

计算机技术与数学本身是一家，抛开计算机专业知识不提，这个问题可以回归成一个数学问题。数学问题的目标是在一个数字序列中寻找重复的那个数。题目描述是1 ~ 1000个数，有一个重复，那么我们把这1001个数加起来再减去（1 + 2 + … + 1000)得到的就是重复的那个数了。

def find_it(array):

	sum = 0

	one_to_thousand = -1001

	for i, v in enumerate(array, 1):

		sum += v

		one_to_thousand += i

	return sum - one_to_thousand 

print(find_it([i for i in range(1, 1001)] + [56]))

分析：时间复杂度O(n), 空间复杂度O(1)，但是计算也挺费时间的。其实这里可以使用python的第三方库，科学计算库numpy进行并行计算，numpy.array.sum() 。

方法三：异或法

根据异或运算的性质可以直到，当相同元素异或时，运算结果为0，当相异元素异或时，运算结果非0，任何数字与数字0进行异或运算，其运算结果为该数。因为1001个数字是1 ~ 1000再加上一个大于0小于等于1000的数字，所以我们把这1001个数字和1到1000异或，最后会转变成0和重复的那个数字进行异或，得到的就是重复的数字。

例如数组（1， 3， 4， 2， 5， 3），进行运算：（1， 3， 4， 2， 5， 3）^ (1, 2, 3, 4, 5) = 1 ^ 1 ^ 2 ^ 2 ^ 3 ^ 3 ^ 4 ^ 4 ^ 5 ^ 5 ^ 3 = 0 ^ 3 = 3。

def find_it(array):

   elem = 0

   for i, v in enumerate(array):

       elem ^= i ^ v

   return elem

print(find_it([1, 3, 4, 2, 5, 3]))

这种方法的时间复杂度是O(n)，没有申请额外的存储空间，进行位运算速度还算快。

方法四：数据映射法

数据的取值操作可以看作是一个特殊的函数f:D —> R，定义域D为下标值 0 ~ 1000，值域为1 ~ 1000, 如果对任意一个数 i，把f(i)叫做它的后继， i叫做f(i)的前驱。重复的那个数字有两个前驱，所以我们可以把每个数的前驱置为负数，当第二次遇到重复的数字时，它的前驱已经被置为负数了，这个就是重复的数值，返回即可。

# 数据影射法

def find_it(array):

    p = 0

    while array[p] >= 0:

        p = array[p]

        array[p] *= -1

    return abs(array[p])

print(find_it([1, 2, 4, 2, 5, 3]))  # 2

print(find_it([1, 3, 4, 2, 5, 3]))  # 3

这个算法的时间复杂度是O(n)，没有申请辅助的空间。但是这种方法修改了原本列表中的元素。

欢迎小伙伴们加入我创建的python交流群：625988679

python经典面试算法题4.1：如何找出数组中唯一的重复元素的更多相关文章

python经典面试算法题1.4：如何对链表进行重新排序
本题目摘自<Python程序员面试算法宝典>,我会每天做一道这本书上的题目,并分享出来,统一放在我博客内,收集在一个分类中. 1.4 对链表按照如下要求重新排序 [微软笔试题] 难度系数: ...
python经典面试算法题1.3：如何计算两个单链表所代表的数之和
本题目摘自<Python程序员面试算法宝典>,我会每天做一道这本书上的题目,并分享出来,统一放在我博客内,收集在一个分类中. 1.2 如何实现链表的逆序 [华为笔试题] 难度系数:⭐⭐⭐ ...
python经典面试算法题1.2：如何从无序链表中移除重复项
本题目摘自<Python程序员面试算法宝典>,我会每天做一道这本书上的题目,并分享出来,统一放在我博客内,收集在一个分类中. 1.2 如何实现链表的逆序 [蚂蚁金服面试题] 难度系数:⭐⭐ ...
python经典面试算法题1.1：如何实现链表的逆序
本题目摘自<Python程序员面试算法宝典>,我会每天做一道这本书上的题目,并分享出来,统一放在我博客内,收集在一个分类中. 1.1 如何实现链表的逆序 [腾讯笔试题] 难度系数:⭐⭐⭐ ...
一起来刷《剑指Offer》-- 题目一：找出数组中重复的数字（Python多种方法实现）
数组中重复的数字最近在复习算法和数据结构(基于Python实现),然后看了Python的各种"序列"--比如列表List.元组Tuple和字符串String,后期会写一篇博客介绍 ...
找出数组中出现次数超过一半的数，现在有一个数组，已知一个数出现的次数超过了一半，请用O(n)的复杂度的算法找出这个数
找出数组中出现次数超过一半的数,现在有一个数组,已知一个数出现的次数超过了一半,请用O(n)的复杂度的算法找出这个数 #include<iostream>using namespace s ...
python找出数组中第二大的数
#!usr/bin/env python #encoding:utf-8 ''''' __Author__:沂水寒城功能:找出数组中第2大的数字 ''' def find_Second_large_ ...
C++经典面试算法题
转自:http://blog.csdn.net/f_r_e_e_x/article/details/50770907 //1.实现strcpy. char* MyStrCpy( char *pDest ...
算法面试题(python)——如何找出数组中出现一次的数
题目描述: 一个数组里,除了三个数是唯一出现的,其余的数都出现了偶数次,找出这三个数中任意一个.比如数组序列为[1,2,4,5,6,4,2],只有1.5.6这三个数字是唯一出现的,数字2.4均出现了偶 ...

随机推荐

B-概率论-常见的概率分布模型
目录常见的概率分布模型一.离散概率分布函数二.连续概率分布函数三.联合分布函数四.多项分布(Multinomial Distribution) 4.1 多项分布简介 4.2 多项分布公式解析 ...
网络驱动之net_device结构体
在Linux系统中,网络设备都被抽象为struct net_device结构体.它是网络设备硬件与上层协议之间联系的接口,了解它对编写网络驱动程序非常有益,所以本文将着手简要介绍linux-2.6.3 ...
centos7升级openssl、openssh常见问题及解决方法
升级至openssl 1.1.1版本升级至openssh 8.0版本 openssl version -a 当前查看版本一.安装telnet (以防升级失败,连不上服务器,建议弄) #查看是否 ...
top命令之性能分析
top命令详解当前时间20:27:12 当前系统运行时间3:18秒 1个用户系统负载平均长度为0.00,0.00,0.00(分别为1分钟.5分钟.15分钟前到现在的平均值) 第二行为进程 ...
聊聊db和缓存一致性的5种实现方式
数据存储在数据库中,为了加快业务访问的速度,我们将数据库中的一些数据放在缓存中,那么问题来了,如何确保db和缓存中数据的一致性呢?我们列出了5种方法,大家都了解一下,然后根据业务自己选择. 方案1 获 ...
2,手动创建CAD二次开发项目--AutoCAD二次开发（2020版）
本项目使用手动创建,意为不使用SDK模板. 从Visual Studio的“文件”下拉菜单中,选择“新建”->“项目...”. 在出现的“新建项目”对话框的“项目类型:”树中,单击“ Visua ...
.NET Core System.Drawing.Common 中文乱码的坑
最近在写一个汉字取点阵的程序,最开始是在win环境下运行的,没发现什么异常,然后今天把程序放在centos 下后发现英文正常,中文完全变成两位的字了,最开始是字体的原因在把宋体等安装到centos ...
用Python将处理数据得到的csv文件分类（按顺序）保存
用Python中的os和numpy库对文件夹及处理数据后得到的文件进行分类保存: import numpy as np import os for m in range(699,0,-35): cur ...
mac本地安装单机hadoop--学习笔记
Mac配置hadoop1.修改 /etc/hosts127.0.0.1 localhost2.下载hadoop2.9.0和jdk并安装配置相应环境 vim /etc/profile export HA ...
再谈 APISIX 高性能实践
2019 年 8 月 31 日,OpenResty 社区联合又拍云,举办 OpenResty × Open Talk 全国巡回沙龙·成都站,APISIX 主要作者王院生在活动上做了<APISIX ...

python经典面试算法题4.1：如何找出数组中唯一的重复元素

python经典面试算法题4.1：如何找出数组中唯一的重复元素的更多相关文章

随机推荐

热门专题