用Python玩转数据——第五周数据统计和可视化
一、数据获取
1.本地数据
with 语句,pd.read_csv('data.csv')
2.网站上数据
2.1 直接获取网页源码,在用正则表达式进行删选
2.2 API接口获取---以豆瓣为例
import requests
r=requests.get(https://api.douban.com/v2/book/1084336)
其他电影或者音乐可以直接网上搜索豆瓣API,会有相应教程教你如何使用,切记要直接看官网的
3.NLTK 语料库(自然语言工具包)
需要首先pip install NLTK
nltk.downlod() 然后就会弹出下载框,自己选择要下载的资料
from nltk.corpus import gutenberg(brown) 资料下载在本地的,需要导入进来
包括古藤保语料库,布朗语料库,路透社语料库,这些都可以在查看其官网上看
二、数据准备
2.1 修改列索引和行索引
data.index=range(1,len(data)+1)
cols=['code',‘name’,'lasttrade']
2.2 创建时间序列
import pandas as pd
dates=pd.date_range('20170520',periods=7) 创建了7个连续时间序列
建立一个dataFrame时间二维表
data=pd.DataFrame(np.random.randn(7,3),index=dates,colums=list('ABC'))
三、数据显示
3.1 一维数据
data.head(5) 查看前5个;data.tail(5) 查看后5个;data.shape 维度;data.size 个数;
3.2 二维数据
loc类和iloc类,前者可以用标签,后者只能用物理位置的参数
data.loc[1:5,['code','lasttrade']]
data.loc[1:6,[0,2]]
data.iat[1,'code'] 选择一个之可以有iat也可以用loc类
/// data.iloc[1:5,[0,2]] 中括号里面只能是数字
四、分组Grouping
data.groupby('month').count()
五、合并(append、concat、join)
p.append(q)
concat是连接两个碎片,pd.concat([pieces1,pieces2],igonre_index=True)
join两张表合并,必须要有相同的字段
pd.merge(data.drop(['code'],axis=1),data2,on='code') 给予code将data1和data2两张表合并,并且将data1中code列删除
用Python玩转数据——第五周数据统计和可视化的更多相关文章
- MySQL行(记录)的详细操作一 介绍 二 插入数据INSERT 三 更新数据UPDATE 四 删除数据DELETE 五 查询数据SELECT 六 权限管理
MySQL行(记录)的详细操作 阅读目录 一 介绍 二 插入数据INSERT 三 更新数据UPDATE 四 删除数据DELETE 五 查询数据SELECT 六 权限管理 一 介绍 MySQL数据操作: ...
- 利用Python进行数据分析-Pandas(第五部分-数据规整:聚合、合并和重塑)
在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析.本部分关注可以聚合.合并.重塑数据的方法. 1.层次化索引 层次化索引(hierarchical indexing)是panda ...
- Python学习笔记第二十五周(Django补充)
1.render_to_reponse() 不同于render,render_to_response()不用包含request,直接写template中文件 2.locals() 如果views文件中 ...
- python作业ATM(第五周)
作业需求: 额度 15000或自定义. 实现购物商城,买东西加入 购物车,调用信用卡接口结账. 可以提现,手续费5%. 支持多账户登录. 支持账户间转账. 记录每月日常消费流水. 提供还款接口. AT ...
- python实验报告(第五周)
一.实验目的和要求 学会使用字符串的常用操作方法和正确应用正则表达式. 二.实验环境 软件版本:Python 3.10 64_bit 三.实验过程 1.实例1:使用字符串拼接输出一个关于程序员的笑话 ...
- Python学习笔记第十五周
目录: 一.CSS补充 1.position 2.overflow 3.hover 4.background 二.JavaScript 三.DOM 主要内容: 一.CSS补充 1.position 可 ...
- 五个数据段之代码段、数据段、BSS、栈、堆
继上文讲完了对内存管理的一些知识,下面笔者再对上篇文章的内容加以拓展,那么我们今天就来说一说5个数据段 五个数据段 进程(执行的程序)会占用一定数量的内存,它或是用来存放磁盘载入的程序代码,或是存放取 ...
- python金牌班第五周周末总结
python金牌班第五周周末总结 常见内置函数 1.abs # 求绝对值,将负数变为整数,并且得出的值只有正数print(abs(-999)) # 999 2.all # 当在经历条件判断时所有的返回 ...
- Python数据分析与展示[第三周](pandas简介与数据创建)
第三周的课程pandas 分析数据 http://pandas.pydata.org import pandas as pd 常与numpy matplotlib 一块定义 d=pd.Series(r ...
随机推荐
- verilog系统函数用法
1.$fwrite 向文件写入数据 $fdisplay 格式:$fwrite(fid,"%h%h\n",dout_r1,dout_r2); (1)fwrite是需要触发条件的,在一 ...
- Java 原始类型JComboBox的成员JComboBox(E())的调用 未经过检查
问题描述: 根据书上的代码 ,编译时候出现以下问题 自定义了一个字符数组: private String[] grades = {"1","2","3 ...
- Hdu1401 Solitaire 2017-01-18 17:21 33人阅读 评论(0) 收藏
Solitaire Time Limit : 2000/1000ms (Java/Other) Memory Limit : 65536/32768K (Java/Other) Total Sub ...
- codevs 1160
这道题还是和蛇形填数有关,因为要不停的去转圈圈去判断是否到了最中间的那个位置,所以用到了递归的思想. #include<stdio.h> int n,a[100][100]; void r ...
- TFS 如何強制撤銷被簽出的文件
我们在使用TFS (Team Foundation Server) 源代码管理的时候,源代码管理会在每个PC上创建一个工作区,然后这个工作区域映像到服务器上的源码文件夹,我们在正常签入,签出的时候,我 ...
- spring 注解实例
先不说网上的那些例子了,百度到的都是一些零碎的东西.我之所以记博客,除了总结之外,很大一个原因是对网上的某些东西真的很无语. 拿注解来说,什么入门实例的东西,说是入门,却连一个基本的hello wor ...
- Alwayson--与复制的影响
在主副本上建立复制后,复制的事务日志读取代理(log reader)不会读取尚未同步到辅助副本的日志,因为辅助副本可能在下一时刻转化成为主副本,变为新的复制发布服务器,为此需要保证复制处理的日志总慢于 ...
- 委托发展史(Linq操作符)
嗯~这篇就讲讲Linq吧! 之前讲过Lambda最后进化到了令人发指的地步: Func<string, int> returnLength; returnLength = text =&g ...
- Asp.Net从相对路径获取绝对路径的方法(不需要httpcontext上下文也可)
//如果拿不到当前HttpContext上下文的话可以用该方法取得绝对路径 var filePath = HostingEnvironment.MapPath("需要获取绝对路径 的 相对路 ...
- 如何使用socket进行java网络编程(三)
本篇文章继续记录java网络通讯编程的学习.在本系列笔记的第一篇中曾经记录过一个项目中的程序,当时还处于项目早期,还未进入与第三方公司的联调阶段,笔者只是用java写了一个client程序模拟了一下第 ...