以下题目均非原创,只是汇总

python数据分析部分##

1. 如何利用SciKit包训练一个简单的线性回归模型

利用linear_model.LinearRegression()函数

# Create linear regression object
regr = linear_model.LinearRegression()
# Train the model using the training sets
regr.fit(data_X_train, data_y_train)

2. 例举几个常用的python分析数据包及其作用

数据处理和分析:NumPy, SciPy, Pandas

机器学习:SciKit

可视化: Matplotlib, Seaborn

3. 如何利用Numpy对数列的前n项进行排序

使用argsort()函数:x[x [: n-1].argsort ()]

4. 如何检验一个数据集或者时间序列是随机分布的

画lag plot(Correlogram:相关图),如果图上的点呈散乱分布,则为随机

5. 在python中如何创建包含不同类型数据的dataframe

利用pandas包的DataFrame函数的serias创建列然后用dtype定义类型:

df = pd.DataFrame({'x': pd.Series(['1.0', '2.0', '3.0'], dtype=float), 'y': pd.Series(['1', '2', '3'], dtype=int)})

6. Pandas中使用的标准数据缺失标志是什么

NaN

7. 描述numpy array比python list的优势

a. numpy array比python list更紧凑,存储数据占的空间小,读写速度快。(这是由于python list储存的是指向对象(至少需要16个字节)的指针(至少4个字节);而array中储存的是单一变量(比如单精度浮点数为4个字节,双精度为8))

b. array可以直接使用vector和matrix类型的处理函数,非常方便。

8. 如何检验numpy的array为空

使用size函数, 比如

a = np.array([])
print a.size # 0

**9. 如何检验pandas dataframe为空?

使用empty函数

python 基础操作部分##

1. 如何在python中复制对象

使用copy包的copydeepcopy函数。其中,copy 仅拷贝对象本身,而不拷贝对象中引用的其它对象;deepcopy 除拷贝对象本身,而且拷贝对象中引用的其它对象。

2. PEP8是什么

python语言的编程规范,提高代码可读性

3. init.py是什么

一个空文件,用于将导入目录中的模块。比如有一个模块是maindir/subdir/module.py,init.py 可以使之可以通过以下形式导入。import maindir.subdir.module

4. range()xrange()函数的差异

range()生成的是list,而xrange()生成的是迭代器(iterator)。例如:

range(5) #  [0, 1, 2, 3, 4]
xrange(5)
list(xrange(1,5)) # [1, 2, 3, 4]

5. 如何对list中的item进行随机重排

使用shuffle()函数

6. python中用于发现bug的工具

Pylint和Pychecker. Pylint可以检验模块是否满足所有的编程标准;Pychecker则是静态分析工具。

7. 装饰器的作用

装饰器可用于修饰函数或类。通过装饰器可以包裹函数或类使之执行之前或之后调用装饰器函数,从而达到抽离出大量函数中与函数功能本身无关的雷同代码并继续重用的目的。比较经典的厨力场景有检验权限,追踪参数,日志登陆等。

def makebold(fn):
def wrapped():
return "<b>" + fn() + "</b>"
return wrapped def makeitalic(fn):
def wrapped():
return "<i>" + fn() + "</i>"
return wrapped @makebold
@makeitalic
def hello():
return "hello world"

python程序解析部分##

  1. 以下代码的输出?
def multipliers():
return [lambda x: i * x for i in range(4)]
print [m(2) for m in multipliers()]

输出为[6,6,6,6]。 这个的原因是 Python 的闭包的后期绑定导致的 late binding,这意味着在闭包中的变量是在内部函数被调用的时候被查找。所以结果是,当任何 multipliers() 返回的函数被调用,在那时,i 的值是在它被调用时的周围作用域中查找,到那时,无论哪个返回的函数被调用,for 循环都已经完成了,i 最后的值是 3,因此,每个返回的函数 multiplies 的值都是 3。因此一个等于 2 的值被传递进以上代码,它们将返回一个值 6 (比如: 3 x 2)。

  1. 以下代码是否报错
list= [‘a’,’e’,’i’,’o’,’u’]
print list [8:]

输出为[]。 访问一个列表的以超出列表成员数作为开始索引的切片将不会导致 IndexError,并且将仅仅返回一个空列表。

  1. 以下代码的输出
def foo (i= []):
i.append (1)
return i
foo ()
foo ()

输出为[1],[1,1]。 新的默认列表仅仅只在函数被定义时创建一次。当foo没有被指定的列表参数调用的时候,其使用的是同一个列表。

数学统计学部分##

1. 什么是逻辑斯蒂回归(logistic regression)

逻辑斯蒂回归常指逻辑回归模型,用于预测参数之间组合可能输出的二分结果。

2. 推荐系统、协同过滤

3. P值的意义

决定假设检验的的结果是否显著

4. 监督学习和非监督学习,机器学习算法

5. A/B测试

对有两个变量A,B的随机试验进行的统计结果测试,目的是识别改动对网页点击率的影响从而获得实现最大化的改动。

6. 特征值和特征向量

在数据分析是通过计算相关和协方差矩阵的特征向量可以用于确定之后的线性转换的方向。特征值表示特征向量方向转化或者压缩的强度。

7. 如何评价一个逻辑斯蒂模型

  • 用分类矩阵查看真阴性和假阳性
  • 一致性分析: 查看逻辑斯蒂模型区分事件是否发生的能力
  • 与随机选择模型进行对比

8. 项目分析的步骤

  • 理解问题
  • 探索数据
  • 准备数据用于建模
  • 建模
  • 测试
  • 上线执行并追踪

9. 如何处理缺失数据?(如果缺失的数据不可得,将采用何种手段收集?)

首先判断缺失数据是否有意义,如果没有意义或者缺失数据的比例超过80%直接去掉。如果缺失数据有规律,则需根据其变化规律来推测次缺失值;如果数据没有规律,则用其他值代替:

如果数据符合正态分布,缺失值用期望值代替

如果数据是类型变量,则用默认类型值代替缺失值

10. 描述K-Means Clustering算法

11. 逻辑斯蒂回归和线性回归的区别

逻辑斯蒂回归的预测值是两元的,0或1;而线性回归的预测值是连续的。

12. 如何证明根号2是无理数

13. 统计中国有多少树

python数据分析师面试题选的更多相关文章

  1. 预测python数据分析师的工资

    前两篇博客分别对拉勾中关于 python 数据分析有关的信息进行获取(https://www.cnblogs.com/lyuzt/p/10636501.html)和对获取的数据进行可视化分析(http ...

  2. python 数据分析师

    简介 越来越多的政府机关.企事业单位将选择拥有数据分析师资质的专业人士为他们的项目做出科学.合理的分析.以便正确决策:越来越多的风险投资机构把数据分析师所出具的数据分析报告作为其判断项目是否可行及是否 ...

  3. 曾经我是一个只会excel的数据分析师,直到我遇到了……

    我是一个数据分析师. 准确来说我是一个当年只会excel数据透视表,就天不怕地不怕地来当数据分析师的人.当年的某一天,我的老板Q我: 小刘啊,我小姨子给了我一个全国市委书记的名单,你帮我看看,有什么规 ...

  4. 数据分析师入门|Python安装MAC版

    最近在学数据分析师入门课,看了大纲,感觉终于不再慌乱踩坑了,开始存档最粗暴版学习笔记,遇到停止的地方按照下文红字直接输入就OK,方便和我一样的小伙伴参考呀,老师讲的很适合我这种初学者,PUSH了很多资 ...

  5. Python拉勾爬虫——以深圳地区数据分析师为例

    拉勾因其结构化的数据比较多因此过去常常被爬,所以在其多次改版之下变得难爬.不过只要清楚它的原理,依然比较好爬.其机制主要就是AJAX异步加载JSON数据,所以至少在搜索页面里翻页url不会变化,而且数 ...

  6. python、数据分析师、算法工程师的学习计划

    1.前言 最近(2018.4.1)在百忙之中开通了博客,希望能够把自己所学所想沉淀下来,这篇是我开始系统学习python,成为数据分析师和算法工程师之路的计划,望有志于为同样目标奋斗的数据猿一起交流和 ...

  7. Python数据分析在互联网寒冬下,数据分析师还吃香吗?

    伴随着移动互联网的飞速发展,越来越多用户被互联网连接在一起,用户所积累下来的数据越来越多,市场对数据方面人才的需求也越来越大,由此也带火了如数据分析.数据挖掘.算法等职业,而作为其中入门门槛相对较低. ...

  8. 数据分析师的福音——VS 2017带来一体化的数据分析开发环境

    (此文章同时发表在本人微信公众号“dotNET开发经验谈”,欢迎右边二维码来关注.) 题记:在上个月的Connect() 2016大会上,微软宣布了VS 2017 RC的发布,其中为数据分析师带来了一 ...

  9. Python数据可视化之Matplotlib实现各种图表

    数据分析就是将数据以各种图表的形式展现给领导,供领导做决策用,因此熟练掌握饼图.柱状图.线图等图表制作是一个数据分析师必备的技能.Python有两个比较出色的图表制作框架,分别是Matplotlib和 ...

随机推荐

  1. glibc下的内存管理

    在解码过程中我们也遇到了类似的问题,第一次解码的音频比较大60s,耗了3G的内存,reset之后内存并没有退还给操作系统,第二次即使解一个10s的音频 几周前我曾提到,我被项目组分配去做了一些探究li ...

  2. ABBYY把pdf转换成word的方法

    有时候我们在网上下载的资料文献是PDF格式文档,遇到喜欢的字句总忍不住想要收藏起来,但是PDF文档不同于普通的Word文档可以直接进行复制粘贴,需要下载安装相关的编辑工具,才能对文字内容进行编辑.倒不 ...

  3. OpenJudge计算概论-分配病房

    /*===================================== 分配病房 总时间限制: 1000ms 内存限制: 65536kB 描述 某个科室的病房分为重症和普通,只有当病人的疾病严 ...

  4. struts2异常处理及类型转换

    一.struts2对异常的处理 1.自定义局部异常: <action> <exception-mapping result="sonException" exce ...

  5. apache commons vfs 文件夹监控

    package test.vfs; import java.io.File; import org.apache.commons.logging.Log; import org.apache.comm ...

  6. 从MySQL到Redis 提升数据迁移的效率

    场景是从MySQL中将数据导入到Redis的Hash结构中.当然,最直接的做法就是遍历MySQL数据,一条一条写入到Redis中.这样可能没什么错,但是速度会非常慢.而如果能够使MySQL的查询输出数 ...

  7. Myeclipse搭建struts2环境

    1.下载Struts2 到Apache Struts2官网下载最新的Struts2  http://struts.apache.org/download.cgi#struts2316-SNAPSHOT ...

  8. [spring] java.lang.reflect.MalformedParameterizedTypeException

    spring中加入dubbo后报java.lang.reflect.MalformedParameterizedTypeException 因为dubbo 2.5.3 它引用的是spring 2.5. ...

  9. $(function(){})和$(document).ready(function(){})

    document.ready和onload的区别——JavaScript文档加载完成事件 页面加载完成有两种事件 一是ready,表示文档结构已经加载完成(不包含图片等非文字媒体文件) 二是onloa ...

  10. 获得Unix/Linux系统中的IP、MAC地址等信息

    获得Unix/Linux系统中的IP.MAC地址等信息 中高级  |  2010-07-13 16:03  |  分类:①C语言. Unix/Linux. 网络编程 ②手册  |  4,471 次阅读 ...