Python爬虫基础面试题，为2020年初就业做准备

前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
作者：qiaoziheng

一、题目部分
1、python中常用的数据结构有哪些？请简要介绍一下。如果你还不是很清楚，建议可以先去小编的Python交流.裙：一久武其而而流一思（数字的谐音）转换下可以找到了，里面有最新Python教程项目可拿,多跟里面的人交流，进步更快哦！

python中常见的数据结构有：列表(list)，字典(dict)，元组(tuple)，字符串(string)，集合(set)，数字（int或long或float。。。）等。

其中，列表，元祖和字符串可以统一归为序列类，即这三种数据结构中的元素是有序的。比如，他们都有索引（下标）操作，还有切片、相加和长度(len)，最大值(max)，最小值(min)操作。这是他们的共同点。

补充：python中常见的数据结构可以统称为容器（container）。序列（如列表和元组）、映射（如字典）以及集合（set）是三类主要的容器。

另外，关于这个问题，面试官很容易引出另一个问题：python中的哪些数据类型是可变的，哪些是不可变的？

首先，可变/不可变是针对该对象所指向的内存中的值是否可变来判断的。如可变类型的数据类型有列表和字典，还有集合不可变类型的数据类型有字符串，元组，数字。

就举个最简单的数字的例子，python中有小整数池的概念，即[-5,256]范围内的整数，python解释器对他们做了特殊处理，都放在内存中的固定位置，不会因为你的操作二发生变化。

现在：a = 1 ，然后我们又重新对a赋值，a = 2，在重新赋值的过程中，整数1所对应的内存地址没有和数字的大小都没有发生变化，还在内存中的固定位置。整数2也是如此。变化的是a的指针（这里引用C中的概念）从指向数字1变成数字2。a对象指向的内存中的值没有发生变化，因此数字是不可变类型的数据类型。字符串，集合也是同理。

2、简要描述python中单引号、双引号、三引号的区别。

首先，单引号和双引号在使用时基本上没有什么区别；

唯一需要注意的是：

当字符串中有单引号时，最好在外面使用双引号；

当有双引号时，最好在外面使用单引号。

三引号一般不常用，除了用来做注释之外，还可以用来打印多行字符串。特殊用途，是可以打印多行字符串。

3、如何在一个function里设置一个全局的变量。

先说概念，全局变量是指定义在函数外部的变量。全局变量的作用域为全局。

局部变量是指定义在函数内部的变量。局部变量的作用域为函数内，除了函数就无效了。

这里举个例子，如果把函数比作国家，那么全局就是全球，全局变量好比是阿拉伯数字，每个国家都认识。

4、python里面如何拷贝一个对象？（赋值、浅拷贝、深拷贝的区别）

在python中如何拷贝一个对象是需要根据具体的需求来定的。

（1）赋值：其实就是对象的引用。相当于C的指针，修改了其中一个对象，另一个跟着改变。注意对于不可变对象而言，如果修改了其中一个对象，就相当于修改它的指针指向，另一个对象是不会跟着变化的。

（2）浅拷贝：拷贝父对象，但是不会拷贝父对象的子对象。（具体的方法有：b = copy.copy(a)，切片如b = a[1:4]）

（3）深拷贝：完全拷贝了父对象和子对象（具体的方法有：b = copy.deepcopy(a)）

下面是图解：

1、b = a: 赋值引用，a 和 b 都指向同一个对象。

2、b = a.copy():浅拷贝, a 和 b 是一个独立的对象，但他们的子对象还是指向统一对象（是引用）。

3、b = copy.deepcopy(a):深度拷贝, a 和 b 完全拷贝了父对象及其子对象，两者是完全独立的。

总结：

（1）当对象为不可变类型时，不论是赋值，浅拷贝还是深拷贝，那么改变其中一个值时，另一个都是不会跟着变化的。

（2）当对象为可变对象时，如果是赋值和浅拷贝，那么改变其中任意一个值，那么另一个会跟着发生变化的；如果是深拷贝，是不会跟着发生改变的。

5、如果custname字符串的编码格式为uft-8,如何将custname的内容转化为gb18030的字符串？

先将custname编码格式转换为unicode，在转换为gb18030。即custname.decode('utf-8').encode('gb18030')。

注意：unicode编码是一种二进制编码，是转换编码的中间桥梁。比如需要将utf-8转换为gbk，那么就需要先转换为unicode（decode），再转为gbk（encode）。

6、请写出一段python代码实现删除list中的重复元素。

两种方法：

（1）利用字典的fromkeys来自动过滤重复值

（2）利用集合set的特性，元素是非重复的

方法一：

方法二：

7、这两个参数是什么意思？args和 kwargs。

首先，我想说的是*args和**kwargs并不是必须这样写，只有前面的*和**才是必须的。你可以写成*var和**vars。而写成*args和**kwargs只是约定俗称的一个命名规定。

*args和**kwargs主要用于函数定义，你可以将不定量的参数传递给一个函数。其中，*args是用来发送一个非键值对的可变数量的参数列表给一个函数；**kwargs允许你将不定长度的键值对, 作为参数传递给一个函数。如果你想要在一个函数里处理带名字的参数, 你应该使用**kwargs。

这里传递了3个参数，按位置传参，'123'为test传参，'hello'和'2019'为*args传参，这里传了2个参数。

注意，看下面的*args的另一种用法：用来解压数据。

这段代码和上面的效果是一样的，但是这里第8行的*args和第1行的*args可是不一样的。第一行是表示函数可以接受不定数量的非键值对的参数，用来传参使用的。第八行是用来解压列表

['hello', '2019']的每一项数据的，用来解压参数的。这是*args的两种用法，也可说是*的两种用法，因为args是可变的。

接下来说说**kwargs。

**kwargs用来传递带键值对的参数，而**也是用来解压字典容器内的参数。

总结：

*args和**kwargs都是用于函数中传递参数的，*args传递的是非键值对的参数，**kwargs传递的是带键值对的参数，如果还有普通参数需要传递，那么应该先传递普通的参数。

8、

（1）统计如下list单词及其出现的次数。

方法一：

利用字典。

方法二：

利用python的collections包。

（2）给列表中的字典排序：例如有如下list对象：

利用list的内建函数，list.sort()来进行排序。

（3）写出下列代码的运行结果

第一段代码的运行结果为：1

分析，在函数外面定义了一个全局变量a为1，在函数内部定义了一个局部变量a为2。局部变量在离开函数后就失效了。

所以，结果为全局变量的a的值。如果在a=2之前加上global a，声明为全局变量，那么结果为2。

第二段代码的运行结果为：[1]

这是因为，将a传入到function中，这相当于对a进行赋值引用。由于a是可变类型的，所以在函数内部修改a的时候，外部的全局变量a也跟着变化。

第三段代码的运行结果为：

Lily

以上就是本期讲的内容，如果你还有不清楚的，或者平时学习遇到非常问题不知道怎么弄，可以先去小编的Python交流.裙：一久武其而而流一思（数字的谐音）转换下可以找到了，里面有最新Python教程项目可拿,多跟里面的人交流，进步更快哦！

Python爬虫基础面试题，为2020年初就业做准备的更多相关文章

Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
python爬虫常见面试题（二）
前言之所以在这里写下python爬虫常见面试题及解答,一是用作笔记,方便日后回忆:二是给自己一个和大家交流的机会,互相学习.进步,希望不正之处大家能给予指正:三是我也是互联网寒潮下岗的那批人之一,为 ...
python爬虫常见面试题（一）
前言之所以在这里写下python爬虫常见面试题及解答,一是用作笔记,方便日后回忆:二是给自己一个和大家交流的机会,互相学习.进步,希望不正之处大家能给予指正:三是我也是互联网寒潮下岗的那批人之一,为 ...
Python爬虫基础之认识爬虫
一.前言爬虫Spider什么的,老早就听别人说过,感觉挺高大上的东西,爬网页,爬链接~~~dos黑屏的数据刷刷刷不断地往上冒,看着就爽,漂亮的校花照片,音乐网站的歌曲,笑话.段子应有尽有,全部都过来 ...
python 爬虫基础知识一
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 网络爬虫必备知识点 1. Python基础知识2. P ...

随机推荐

一个有意义的Day类
早晨去单位的路上听到电台里在说“Everyday is a new chance to change your life”,正好最近在学Python类的使用方法,于是我编了一个关于Day的类,以供参考 ...
appium自动化的一个实例
实现appium的自动化,三步走,具体如下: 第一步:启动appium的服务端: 可以通过命令行的方式启动:cmd,然后输入appium,如下图也可以打开桌面程序appium,点击右上角的运行按钮, ...
一个缓存使用案例：Spring Cache VS Caffeine 原生 API
最近在学习本地缓存发现,在 Spring 技术栈的开发中,既可以使用 Spring Cache 的注解形式操作缓存,也可用各种缓存方案的原生 API.那么是否 Spring 官方提供的就是最合适的方案 ...
react之高阶组件（一）
当两个或多个组件有相同的地方,可以将相同的部分抽离出来先创建三个组件A.B.C A.js import React, { Component } from 'react' class A exten ...
使用Python开发小说下载器，不再为下载小说而发愁 #华为云·寻找黑马程序员#
需求分析免费的小说网比较多,我看的比较多的是笔趣阁.这个网站基本收费的章节刚更新,它就能同步更新,简直不要太叼.既然要批量下载小说,肯定要分析这个网站了- 在搜索栏输入地址后,发送post请求获取数 ...
转:Spring事务管理
spring是SSH中的管理员,负责管理其它框架,协调各个部分的工作.今天一起学习一下Spring的事务管理.Spring配置文件中关于事务配置总是由三个组成部分,分别是DataSource.Tran ...
创建raid10（五块磁盘）
创建raid10(五块磁盘) Raid10(5块磁盘) 上一个bolg已经做了raid5(3 个raid. 2个备份),在此条件下继续以下步骤: 1.先将磁盘系统卸载 2.看系统挂载里是否还有md0 ...
POJ 2559 Langest Rectangle in a Histogame
A histogram is a polygon composed of a sequence of rectangles aligned at a common base line. The rec ...
重新精读《Java 编程思想》系列之组合与继承
Java 复用代码的两种方式组合与继承. 组合组合只需将对象引用置于新类中即可. 比如我们有一个B类,它具有一个say方法,我们在A类中使用B类的方法,就是组合. public class B { ...
Mint UI 之loadmore组件的坑：内部元素头部被遮挡了一部分
前端经常会遇到数据分页加载的需求,mint-ui组件为大家提供了loadmore组件但是我在使用的时候,遇到了一个问题:写好布局和样式以及逻辑之后,我的mt-loadmore标签的头部总是不顶在父元 ...

Python爬虫基础面试题，为2020年初就业做准备

Python爬虫基础面试题，为2020年初就业做准备的更多相关文章

随机推荐

热门专题