转载请注明出处:https://www.cnblogs.com/oceanicstar/p/10248763.html ★二层嵌套列表(或以列表为元素的pd.Series)有以下几种展开方式 (1)列表生成式 (2)用np.sum方法(将外层列表中各个子列表相加) (3)用sum方法(第二个参数传入一个空列表)   ★但是谨记:对列表慎用sum方法!(以上3个方法只推荐使用第一个!!!)   因为——对于列表,无论是sum方法还是np.sum方法,效率都特别低! 直接用列表生成式,效率高很多!…
以下内容来自链接:https://blog.csdn.net/qq_42648305/article/details/89634186 遍历pd.Series的index和value的方法如下,python built-in list的enumerate方法不管用 for i, v in s.items(): print('index: ', i, 'value: ', v)#index: a value: 1#index: b value: 2#index: c value: 3#index:…
out=groupby_sum.ix[:'to_uid','sum(diamonds)']使用ix在提取数据的时候,out的数据类型通常为<class 'pandas.core.series.Series'>,即为Series类型. 但是Series类型没有直接的to_excel方法(out.to_excel('data2.xlsx','Sheet1')),所以是不能直接写入到文件中的, 解决办法:将Series转化为DataFrame,然后再写入问价中即可.Series.to_frame(n…
cum系列函数是作为DataFrame或Series对象的方法出现的,因此命令格式为D.cumsum() 举例: D=pd.Series(range(0,5)) 1. cumsum 2. cumprod 3. cummax 4. cummin 参考文献: [1]Pandas —— cum累积计算和rolling滚动计算…
  Pandas库是处理时间序列的利器,pandas有着强大的日期数据处理功能,可以按日期筛选数据.按日期显示数据.按日期统计数据.   pandas的实际类型主要分为: timestamp(时间戳) period(时期) timedelta(时间间隔) 常用的日期处理函数有: pd.to_datetime() pd.to_period() pd.date_range() pd.period_range resample 一.定义时间格式 1. pd.Timestamp().pd.Timedel…
从文本文件读取数据 法一: 使用read.readline.readlines读取数据 read([size]):从文件读取指定的字节数.如果未给定或为负值,则去取全部.返回数据类型为字符串(将所有行合并为一个字符串). readline([size]):从文件读取整行,包括‘\n’字符.如果给定的是一个负数或未给定则读取整行,给定的是一个正数,则返回指定大小的字节数.返回数据类型为字符串. readlines([size]):从文件读取所用行,并返回列表.如果给定的是正数则读取一行,负数或未给…
PowerDesigner 12小技巧-pd小技巧-pd工具栏不见了-pd修改外键命名规则-pd添加外键 1. 附加:工具栏不见了 调色板(Palette)快捷工具栏不见了PowerDesigner 快捷工具栏 palette 不见了,怎么重新打开,找回来呢 上网搜索了一下”powerdesigner 图形工具栏”,找到了找回PowerDesigner工具栏palette的方法Tools(工具栏)customsize toolbars(自定义工具栏)palette(调色板)勾选 2. 修改外键命…
pandas中Dataframe的一些用法 pandas读取excel文件 pd.read_excel 前提是安装xlrd库 dataframe,numpy,list之间的互相转换 dataframe转numpy :dataframe对象.values dataframe转list:dataframe对象.values.tolist() list转numpy:np.array(list对象) list转dataframe:pd.DataFrame(list对象) numpy转list:numpy…
一.SparkSQL发展: Shark是一个为spark设计的大规模数据仓库系统,它与Hive兼容      Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来(by swapping out the physical execution engine part of Hive).这个方法使得Shark的用户可以加速Hive的查询,但是Shark继承了Hive的大且复杂的代码基线使得Shark很难优化和维护.随着我们遇到了性能优化的上限,以及集成SQL的一些复杂的分…
sklearn.preprocessing 下除了提供 OneHotEncoder 还提供 LabelEncoder(简单地将 categorical labels 转换为不同的数字): 1. 简单区别 Panda's get_dummies vs. Sklearn's OneHotEncoder() :: What is more efficient? sklearn.preprocessing 下的 OneHotEncoder 不可以直接处理 string,如果数据集中的某些特征是 stri…