最近处理数据需要分组计算,又用到了groupby函数,温故而知新. 分组运算的第一阶段,pandas 对象(无论是 Series.DataFrame 还是其他的)中的数据会根据你所提供的一个或多个键被拆分(split)为多组.拆分操作是在对象的特定轴上执行的.例如,DataFrame 可以在其行(axis=0)或列(axis=1)上进行分组.然后,将一个函数应用到各个分组并产生一个新值.最后,所有这些函数的执行结果会被合并到最终的结果对象中.结果对象的形式一般取决于数据上所执行的操作. 举例说明…
Different Choices for Indexing 1. loc--通过行标签索引行数据 1.1 loc[1]表示索引的是第1行(index 是整数) import pandas as pd data = [[1,2,3],[4,5,6]] index = [0,1] columns=['a','b','c'] df = pd.DataFrame(data=data, index=index, columns=columns) print df.loc[1] ''' a 4 b 5 c…
1. 开启Beautiful Soup 之旅 在这里先分享官方文档链接,不过内容是有些多,也不够条理,在此本文章做一下整理方便大家参考. 官方文档 2. 创建 Beautiful Soup 对象 首先必须要导入 bs4 库 from bs4 import BeautifulSoup 1 from bs4 import BeautifulSoup 我们创建一个字符串,后面的例子我们便会用它来演示 Python html = """ <html><head>…
首先,我们来看一个简单的网页https://www.pythonscraping.com/pages/page3.html,打开后: 右键"检查"(谷歌浏览器)查看元素: 用导航树的形式简单表示出来: 可知: tr是table的子标签 tr.th.td.img.span标签都是table的后代标签 一般情况下,bbs0bj.body.h1选择的是body标签后代里的第一个h1标签,不会去找body外面的标签 类似的,bs0bj.div.findall("img")会…
什么是正则表达式? 我们在处理文本文件的时候,会按照某种规则查找某些特定的字符串.比方我们希望从一堆电子档案中找到人员的电话号码整理成通讯录.于是,我们可以利用特定字符串的规律编程获得我们想要的信息.而正则表达式就是干这个事情的,它是记录文本规则的代码. 一.获得简单字符串 1. 如何我们 希望找到"hi"字符,how? 例如:Hi, I am Shirley Hilton. I am his wife.  希望寻找"hi"的字符. 用如下代码: import re…
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark SQL相关的知识,如果对Spark不熟的同学可以先看看之前总结的两篇文章: [原]Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令 [原]Learning Spark (Python版) 学习笔记(二)----键值对.数据读取与保存.共享特性 #####…
python 库安装笔记 zoerywzhou@163.com http://www.cnblogs.com/swje/ 作者:Zhouwan 2017-2-22 友情提示 安装python库的过程中,最重要的地方就是版本需要兼容.其中操作系统为64位,Python为2.X 64位,下载安装文件的时候也要注意版本匹配.其中文件名中包含的cp27表示CPython 2.7版本,cp34表示CPython 3.4,win_arm64指的是64位版本. 直奔主题 安装pip.setuptools 和…
0003.5-20180422-自动化第四章-python基础学习笔记--脚本 1-shopping """ v = [ {"name": "电脑","price":"1999"}, {"name": "鼠标", "price": "10"}, {"name": "游艇", &q…
Numpy库学习笔记: 1.array()   创建数组或者转化数组 例如,把列表转化为数组 >>>Np.array([1,2,3,4,5]) Array([1,2,3,4,5]) 还有,元组,range对象,arange 等转为数组 2.numpy库还有很多数组创建函数,如: Np.linspace(0,10,11)   #等差数组 Np.logspace(1,100,10)  #对数数组 3.一维数组,二维数组等,如: Np.zeros((3,3))   #全为0的33二维数组 Np…
原文链接:Python Click 学习笔记 Click 是 Flask 的团队 pallets 开发的优秀开源项目,它为命令行工具的开发封装了大量方法,使开发者只需要专注于功能实现.恰好我最近在开发的一个小工具需要在命令行环境下操作,就写个学习笔记. 国际惯例,先来一段 "Hello World" 程序(假定已经安装了 Click 包). # hello.py import click @click.command() @click.option('--count', default…