pandas 笔记】的更多相关文章

速查笔记 使用实例 Pandas-数据导入 (未完成) Pandas-数据探索 基础属性 shape indexs columns values dtype/dtypes 汇总和计算描述统计 count() value_count() describe() head() tail() Pandas-数据整理 丢弃值 drop() 缺失值处理 isnull() & notnull() dropna() fillna() 值替换 replace() get_dummies() 重复值处理 dupli…
博客地址:http://www.cnblogs.com/yudanqu/ 1 import numpy as np import pandas as pd from pandas import Series,DataFrame #Series s1 = Series([1,2,3], index=['A','B','C']) s2 = Series([4,5,6,7], index=['B','C','D','E']) s1 + s2 # 结果:A NaN # B 6.0 # C 8.0 # D…
1.基础属性: array = np.array([[1,2,3],[2,3,4]]) #列表转化为矩阵 print('number of dim:',array.ndim) # 维度 # number of dim: 2 print('shape :',array.shape) # 行数和列数 # shape : (2, 3) print('size:',array.size) # 元素个数 # size: 6 创建array:注意其形式为([,,,])      ,若为矩阵其形式为([[,,…
删除: del df["A"]  # 原地修改 df.drop("a")  # 返回修改后的新对象 df.drop(["a", "b", "c"]) 修改: 增加,修改: df["ps"] = 1   # 可以通过标量或者数组进行列赋值,如果是通过列表或者数组进行赋值,长度必须与df长度一致,如果通过series赋值,索引会精确匹配,没有的会补NAN 创建: 通过传入字典或者列表进行创建…
axis = 1表示按列的方向遍历 axis = 0表示按行的方向遍历 Usually axis=0 is said to be "column-wise" (and axis=1 "row-wise"),…
原书作者使用字典dict实现推荐算法,并且惊叹于18行代码实现了向量的余弦夹角公式. 我用pandas实现相同的公式只要3行. 特别说明:本篇笔记是针对矩阵数据,下篇笔记是针对条目数据. ''' 基于用户的协同推荐 矩阵数据 ''' import pandas as pd from io import StringIO import json #数据类型一:csv矩阵(用户-商品)(适用于小数据量) csv_txt = '''"user","Blues Traveler&qu…
我正以Python作为突破口,入门机器学习相关知识.出于机器学习实践过程中的需要,我快速了解了一下提供了类似关系型或标签型数据结构的Pandas的使用方法.下面记录相关学习笔记. 数据结构 Pandas最主要的知识点是两个数据结构,分别是Series和DataFrame.你可以分别把它们简单地理解为带标签的一维数组和二维数组. 以下实践假设已经运行了必要的import语句,如: import pandas as pd Series 先在命令行里面看一下Series的样子:   可以看到Serie…
pandas and numpy notebook        最近工作交接,整理电脑资料时看到了之前的基于Jupyter学习数据分析相关模块学习笔记.想着拿出来分享一下,可是Jupyter导出来html文件,博客园不支持js注入,贴图效果实在太差劲儿.所以只贴了内容,要是有需要文件原版(pdf.md.html等)可以在评论区说一下.        本系列是数据分析相关的,打算做一个持续连载,后边便于自己系统查看和回顾. 另外,本片博客在github上有PDF版本,并且格式也很清爽,请转htt…
本学习笔记来自于莫烦Python,原视频链接 一.Pandas基本介绍和使用 Series数据结构:索引在左,值在右 import pandas as pd import numpy as np s = pd.Series([1,3,6,np.nan,44,1]) print(s) """ 0 1.0 1 3.0 2 6.0 3 NaN 4 44.0 5 1.0 dtype: float64 """ DataFrame数据结构:表格型数据结构,包…
Pandas 学习笔记 pandas 由两部份组成,分别是 Series 和 DataFrame. Series 可以理解为"一维数组.列表.字典" DataFrame 可以理解为"二维矩阵.表格.字典",可以视为是由 Series 组成的字典. 创建 import pandas as pd data = { 'Frank' : [25, 'male', 'reading'], 'Lily' : [22, 'female', 'running'] } frame =…
Python Data Analysis Library — pandas: Python Data Analysis Library https://pandas.pydata.org/ pandas is an open source, BSD-licensed library providing high-performance, easy-to-use data structures and data analysis tools for the Python programming l…
本文是对pandas官方网站上<10 Minutes to pandas>的一个简单的翻译,原文在这里.这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook .习惯上,我们会按下面格式引入所需要的包: 一.            创建对象 可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息. 1.可以通过传递一个list对象来创建一个Series,pandas会默认创建整型索引: 2.通过传递一个numpy array,时间索…
[笔记]Pandas分类数据详解 Pandas  Pandas分类数据详解|轻松玩转Pandas(5) 参考:Pandas分类数据详解|轻松玩转Pandas(5)…
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学习笔记(五)合并 concat Pandas学习笔记(六)合并 merge Pandas学习笔记(七)plot画图 原文:https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/3-8-pd-plot/ 本文有删改 这次我们讲如何将数据可…
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学习笔记(五)合并 concat Pandas学习笔记(六)合并 merge Pandas学习笔记(七)plot画图 原文:https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/3-7-pd-merge/ 本文有删减 要点 pandas中…
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学习笔记(五)合并 concat Pandas学习笔记(六)合并 merge Pandas学习笔记(七)plot画图 原文:https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/3-6-pd-concat/ 本文有删改 Concat pa…
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学习笔记(五)合并 concat Pandas学习笔记(六)合并 merge Pandas学习笔记(七)plot画图 原文:https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/3-4-pd-nan/ 本文有删改 创建含 NaN 的矩阵…
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学习笔记(五)合并 concat Pandas学习笔记(六)合并 merge Pandas学习笔记(七)plot画图 原文:https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/3-3-pd-assign/ 本文有删改 创建数据 我们可以…
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学习笔记(五)合并 concat Pandas学习笔记(六)合并 merge Pandas学习笔记(七)plot画图 原文:https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/3-2-pd-indexing/ 有删改 下面例子是以 6X…
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学习笔记(五)合并 concat Pandas学习笔记(六)合并 merge Pandas学习笔记(七)plot画图 原文: https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/3-1-pd-intro/ Numpy 和 Pandas…
目录 zip Importing & exporting data Plotting with pandas Visual exploratory data analysis 折线图 散点图 panadas hist pdf cdf Statistical exploratory data analysis descripe Separating populations resample() .str.contains() 时区处理方法 导入和处理数据hon drop() 总结 或许可以对比一些…
本笔记为自学笔记 1.pandas.DataFrame() 一种保存矩阵的数据格式 grades_df = pd.DataFrame( data={'exam1': [43, 81, 78, 75, 89, 70, 91, 65, 98, 87], 'exam2': [24, 63, 56, 56, 67, 51, 79, 46, 72, 60]}, index=['Andre', 'Barry', 'Chris', 'Dan', 'Emilio', 'Fred', 'Greta', 'Humb…
摘要 本文介绍了使用 Pandas 进行数据挖掘时常用的加速技巧. 实验环境 import numpy as np import pandas as pd print(np.__version__) print(pd.__version__) 1.16.5 0.25.2 性能分析工具 本文使用到的性能分析工具,参考:Python 性能评估 学习笔记 数据准备 tsdf = pd.DataFrame(np.random.randint(1, 1000, (1000, 3)), columns=['…
Numpy Numpy是python的一个库.支持维度数组与矩阵计算并提供大量的数学函数库. arr = np.array([[1.2,1.3,1.4],[1.5,1.6,1.7]])#创建ndarray时候也可以指定dtype arr.astype(dtype = np.int) #浮点数转int #对数组批量运算,作用在每个元素上 arr = np.array([[1,2,3],[4,5,6]]) print arr**5 #索引和切片 arr = np.array([1,2,3,4,5,6…
''' 基于物品的协同推荐 矩阵数据 说明: 1.修正的余弦相似度是一种基于模型的协同过滤算法.我们前面提过,这种算法的优势之 一是扩展性好,对于大数据量而言,运算速度快.占用内存少. 2.用户的评价标准是不同的,比如喜欢一个歌手时有些人会打4分,有些打5分:不喜欢时 有人会打3分,有些则会只给1分.修正的余弦相似度计算时会将用户对物品的评分减去 用户所有评分的均值,从而解决这个问题. 如何预测用户对给定物品的打分? 一.基于用户协同 方法1:用户之间的距离/相似度(K近邻算法) 二.基于物品协…
''' 基于物品的协同推荐 矩阵数据 说明: 1.修正的余弦相似度是一种基于模型的协同过滤算法.我们前面提过,这种算法的优势之 一是扩展性好,对于大数据量而言,运算速度快.占用内存少. 2.用户的评价标准是不同的,比如喜欢一个歌手时有些人会打4分,有些打5分:不喜欢时 有人会打3分,有些则会只给1分.修正的余弦相似度计算时会将用户对物品的评分减去 用户所有评分的均值,从而解决这个问题. ''' import pandas as pd from io import StringIO #数据类型一:…
''' 基于用户的协同推荐 条目数据 ''' import pandas as pd from io import StringIO import json #数据类型一:条目(用户.商品.打分)(避免巨型稀疏矩阵) csv_txt = '''"Angelica","Blues Traveler",3.5 "Angelica","Broken Bells",2.0 "Angelica","Nora…
http://www.cnblogs.com/batteryhp/p/5006274.html pandas是本书后续内容的首选库.pandas可以满足以下需求: 具备按轴自动或显式数据对齐功能的数据结构.这可以防止许多由于数据未对齐以及来自不同数据源(索引方式不同)的数据而导致的常见错误.. 集成时间序列功能 既能处理时间序列数据也能处理非时间序列数据的数据结构 数学运算和简约(比如对某个轴求和)可以根据不同的元数据(轴编号)执行 灵活处理缺失数据 合并及其他出现在常见数据库(例如基于SQL的…
Pandas基本介绍——DataFrame入门学习 前篇文章中,小生初步介绍pandas库中的Series结构的创建与运算,今天小生继续“死磕自己”为大家介绍pandas库的另一种最为常见的数据结构DataFrame. DataFrame是二维标记的数据结构(三维结构请看Panel,后面为大家介绍),你可以把它看成一张电子表格或者SQL关系库中的表格.DataFrame是pandas库中最为常见的一种数据结构,正如Series一样,它也有很多不同的创建方法: Dict of 1D ndarray…
Pandas基本介绍: pandas is an open source, BSD-licensed (permissive free software licenses) library providing high-performance, easy-to-use data structures and data analysis tools for the Python programming language. 我们快速简单地看一下pandas中的基本数据结构,先从数据类型.索引.切片等…