用一个完整的案例讲解Python数据分析的整个流程和基础知识
先来想一下数据分析的流程,第一步获取数据,因此本节内容就是获取数据以及对数据的基本操作。
1.数据导入
1.1 导入.xlsx文件
要导入一个.xlsx后缀的Excel文件,可以使用pd.read_excel(路径)方法
结果:
df_review数据包含了两个字段,listing_id和date
读入数据时必不可少的参数就是路径,不同的操作系统下文件路径的写法也不同,通常windows操作系统下关于路径有两种写法:
- 反斜杠“ \ ”:右键点击这个文件,选择属性,可以看到它所在的位置,默认是使用 \ 来表示,由于反斜杠“\”在Python中被定义为转义符号,因此在写的时候就要在路径的最前方加一个转义符 r,r"D:\个人\data\reviews.xlsx"
- 斜杠“ / ”:不需要加r,全部用 / 来写:"D:/个人/data/reviews.xlsx"两种方式看个人习惯吧。
sheet_name 参数
对于.xlsx文件来说,可能会存在多个sheet表,因此也可以设置sheet_name参数指定导入的sheet表,可以传入sheet表的名字,也可以按照从0递增的顺序来指定,不指定sheet表则默认第一个sheet.
1.2 导入.csv文件
导入.csv格式的文件使用pd.read_csv(路径)的方法
结果:
df_list数据主要包括:房东ID、房东姓名、经纬度、房间类型、价格、最小可租天数、评论数量、最后一次评论时间、每月评论占比、可出租房屋、每年可出租时长等字段
指定编码格式
对于.csv文件有个重要的知识点,就是编码格式,尤其是在导入文件的时候,需要了解文件的编码格式,以免出现乱码,那么如何知道文件是什么类型的编码呢?用notepad++软件打开,右下角会显示该文件的编码格式,如刚刚导入的listings.csv文件,是utf-8编码,在书写编码时,大小写通用,且utf-8也可以写成utf8.
可以用encoding参数来设置编码格式,Python默认的编码格式是utf-8。
中文乱码问题
对于文件路径中因为出现中文而导致的乱码问题,可以加入参数engine来避免。
结果:
image.png
指定行索引
不指定行索引的话,从0开始递增的一列作为行索引,也可以指定id一列为行索引,传入参数index_col
结果:可以看到,id列成了行索引列。
指定列索引
默认第一行是列索引,也可以指定,使用header参数,header = 0,表示指定第一行为列索引。
结果:
指定导入列
有时候我们希望只导入指定的列即可,那么就传入usecols参数
结果:
2.对数据的基本操作
导入数据后,需要对数据进行一个大概的了解,比如数据集有几行几列,每个字段的数据类型是什么,有无空值等。
预览
不必完全跑出数据,只需看下前几行,用head方法,得到的是前5行数据
结果:
head()里也可传入数字,如预览前10行数据
查看数据维度
数据集有几行几列,用shape
结果:可以看到df_list数据集有28452行,16列
查看数据类型
使用dtypes可以查看数据集所有字段的数据类型
结果:
也可以单独查看某一个字段的数据类型
结果:
如果你处于想学Python或者正在学习Python,Python的教程不少了吧,但是是最新的吗?说不定你学了可能是两年前人家就学过的内容,在这小编分享一波2020最新的Python教程。获取方式,私信小编 “ 资料 ”,即可免费获取哦!
用一个完整的案例讲解Python数据分析的整个流程和基础知识的更多相关文章
- 【Python数据分析案例】python数据分析老番茄B站数据(pandas常用基础数据分析代码)
一.爬取老番茄B站数据 前几天开发了一个python爬虫脚本,成功爬取了B站李子柒的视频数据,共142个视频,17个字段,含: 视频标题,视频地址,视频上传时间,视频时长,是否合作视频,视频分区,弹幕 ...
- python数据分析---第04章 NumPy基础:数组和矢量计算
NumPy(Numerical Python的简称)是Python数值计算最重要的基础包.大多数提供科学计算的包都是用NumPy的数组作为构建基础. NumPy的部分功能如下: ndarray,一个具 ...
- KNIME + Python = 数据分析+报表全流程
Python 数据分析环境 数据分析领域有很多可选方案,例如SPSS傻瓜式分析工具,SAS专业性商业分析工具,R和python这类需要代码编程类的工具.个人选择是python这类,包括pandas,n ...
- Python入门方法推荐,哪些基础知识必学?
很多想入门的小伙伴还不知道Python应该怎么学,哪些知识必学,今天我们就来盘点一下. 01.入门方法推荐 总体来讲,找一本靠谱的书,由浅入深,边看边练. 网上的学习教程有很多,多到不知道如何选择.所 ...
- Python爬虫(1):基础知识
爬虫基础知识 一.什么是爬虫? 向网站发起请求,获取资源后分析并提取有用数据的程序. 二.爬虫的基本流程 1.发起请求 2.获取内容 3.解析内容 4.保存数据 三.Request和Response ...
- Python学习系列(二)(基础知识)
Python基础语法 Python学习系列(一)(基础入门) 对于任何一门语言的学习,学语法是最枯燥无味的,但又不得不学,基础概念较繁琐,本文将不多涉及概念解释,用例子进行相关解析,适当与C语言对比, ...
- python核心编程学习记录之基础知识
虽然对python的基础知识有所了解,但是为了更深入的学习,要对python的各种经典书籍进行学习 第一章介绍python的优缺点,略过 第二章介绍python起步,第三章介绍python基础,仅记录 ...
- 三分钟教会你Python数据分析—数据导入,小白基础入门必看内容
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:小白 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行 ...
- Python:Scrapy(一) 基础知识与实例
学习自: Scrapy爬虫框架教程(一)-- Scrapy入门 - 知乎 Scrapy爬虫框架,入门案例(非常详细)_ck784101777的博客-CSDN博客_scrapy爬虫案例 爬虫框架Scra ...
随机推荐
- P5663 加工零件 题解
原题链接 简要题意: 给定一个图,每次询问从 \(x\) 节点开始,\(y\) 步能不能达到 \(1\) 号节点. 算法一 这也是我本人考场算法.就是 深搜 . 因为你会发现,如果 \(x\) 用 \ ...
- 动态规划-01背包-Tallest Billboard
2020-02-07 17:46:32 问题描述: 问题求解: 解法一:BF 看问题规模看似可以直接暴力解决. 如果直接去解肯定是会超时的,因为每次将原空间划分成A区域,B区域和剩余区域的时间复杂度为 ...
- CentOS7 部署 Hadoop 3.2.1 (伪分布式)
CentOS: Linux localhost.localdomain 3.10.0-862.el7.x86_64 #1 SMP Fri Apr 20 16:44:24 UTC 2018 x86_64 ...
- 一文上手Tensorflow2.0(四)
系列文章目录: Tensorflow2.0 介绍 Tensorflow 常见基本概念 从1.x 到2.0 的变化 Tensorflow2.0 的架构 Tensorflow2.0 的安装(CPU和GPU ...
- Kaggle竞赛入门:决策树算法的Python实现
本文翻译自kaggle learn,也就是kaggle官方最快入门kaggle竞赛的教程,强调python编程实践和数学思想(而没有涉及数学细节),笔者在不影响算法和程序理解的基础上删除了一些不必要的 ...
- coding++:事务管理 隔离级别
在声明事务时,只需要通过value属性指定配置的事务管理器名即可,例如:@Transactional(value="transactionManagerPrimary"). 除了指 ...
- Windows 7系统记录
http://www.winwin7.com/ win7带USB3.0和NVME驱动 http://www.mohuishou.com/ 其中的青苹果家园 支持UEFI+GPT机器 http://ww ...
- JVM中内存分配策略及堆和栈的比较
最近愈发对JVM底层的运行 原理产生了兴趣,遂查阅相关资料以备忘. 内存分配策略 根据编译原理的观点,程序运行时的内存分配,有三种策略,分别为静态的.堆式的.栈式的. 静态存储分配指的是在编译时就能确 ...
- ConcurrentHashMap1.7和1.8的源码分析比较
ConcurrentHashMap 在多线程环境下,使用HashMap进行put操作时存在丢失数据的情况,为了避免这种bug的隐患,强烈建议使用ConcurrentHashMap代替HashMap,为 ...
- 写给小白看的入门级 Java 基本语法,强烈推荐
之前写的一篇我去阅读量非常不错,但有一句留言深深地刺痛了我: 培训班学习半年,工作半年,我现在都看不懂你这篇文章,甚至看不下去,对于我来说有点深. 从表面上看,这句话有点讽刺我的文章写得不够通俗易懂的 ...