Python数据分析与挖掘所需的Pandas常用知识 前言Pandas基于两种数据类型:series与dataframe.一个series是一个一维的数据类型,其中每一个元素都有一个标签.series类似于Numpy中元素带标签的数组.其中,标签可以是数字或者字符串.一个dataframe是一个二维的表结构.Pandas的dataframe可以存储许多种不同的数据类型,并且每一个坐标轴都有自己的标签.你可以把它想象成一个series的字典项. Pandas常用知识 一.读取csv文件为dataf…
NumPy和Pandas常用库 1.NumPy NumPy是高性能科学计算和数据分析的基础包.部分功能如下: ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组. 用于对整组数据进行快速运算的标准数学函数(无需编写循环). 用于读写磁盘数据的工具以及用于操作内存映射文件的工具. 线性代数.随机数生成以及傅里叶变换功能. 用于集成C.C++.Fortran等语言编写的代码的工具. 首先要导入numpy库:import numpy as np A NumPy函数和属性: 类型…
Pandas 概述 Pandas(Python Data Analysis Library)是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具.Pandas提供了大量能使我们快速便捷地处理数据的函数和方法.它是使Python成为强大而高效的数据分析环境的重要因素之一. Pandas专用于数据预处理和数据分析的Python第三方库,最适合处理大型结构化表格数据 Pandas是2008年Wes Mc…
常用的数据类型有布尔类型.字符型.字节型.整型.无符号整型.长整型.无符号长整型.浮点型.双精度浮点型等 布尔类型bollean: 布尔值是一种逻辑值,其结果只能为真(true)或者假(false).布尔值可以用来进行计算,最常用的布尔运算符是与运算(&&).或运算(||)和非运算(!). 字符型char: 字符型(char)变量可以用来存放字符,其数值范围是-128-+128. 字节型byte: 字节(byte)只能用一个字节(8位)的存储空间,它可以用来存储0~255之间的数字 整型i…
2016-12-21 14:54:20 该系列文章链接NoSQL 数据库简介Redis的安装及及一些杂项基础知识Redis 的常用五大数据类型(key,string,hash,list,set,zset)Redis 配置文件介绍Redis 持久化之RDBRedis 持久化之AOFRedis 主从复制Redis 事务Redis 发布与订阅 Redis jedis 介绍 Redis 相对其它类型的 NoSQL 数据库而言,更出彩的一点就是有更多的数据类型共使用者选择. 学习任意一门技术,都应该从官网…
shift函数是对数据进行移动的操作,假如现在有一个DataFrame数据df,如下所示: index value1 A 0 B 1 C 2 D 3 那么如果执行以下代码: df.shift() 就会变成如下: index value1 A NaN B 0 C 1 D 2 看一下函数原型: DataFrame.shift(periods=1, freq=None, axis=0) 参数: periods:类型为int,表示移动的幅度,可以是正数,也可以是负数,默认值是1,1就表示移动一次,注意这…
diff函数是用来将数据进行某种移动之后与原数据进行比较得出的差异数据,举个例子,现在有一个DataFrame类型的数据df,如下: index value1 A 0 B 1 C 2 D 3 如果执行: df.diff() 则会得到: index value1 A NaN B 1 C 1 D 1 怎么得到的呢,其实是经过了两个步骤,首先会执行: df.shift() 然后再将该数据与原数据做差,即: df.shift()-df 函数原型: DataFrame.diff(periods=1, ax…
1.pyc简介 python程序在运行时也有编译过程,编译后会产生.pyc文件.这是一种由python虚拟机执行的二进制文件(字节码),用于保存内存中PyCodeObject,以便加快程序的加载运行.这个文件可以跨平台,但与python版本高度相关(文件名中带有版本信息),不同版本的.pyc内容不同. 怎么见证.pyc文件的存在呢? 方法1: 在python程序中通过import调用其他程序运行时,python会自动生成一个与被调用的python程序文件相关的.pyc文件出来.linux平台和w…
pandas库的数据类型运算 算数运算法则 根据行列索引,补齐运算(不同索引不运算,行列索引相同才运算),默认产生浮点数 补齐时默认填充NaN空值 二维和一维,一维和0维之间采用广播运算(低维元素与每一个高维元素运算) 采用 +-*/符号的二元运算会产生新的对象 a = pd.DataFrame(np.arange(12).reshape(3,4)) a b = pd.DataFrame(np.arange(20).reshape(4,5)) b # 维度相同,行列内元素个数不同的运算,自动补齐…
pandas常用函数整理,作为个人笔记. 仅标记函数大概用途做索引用,具体使用方式请参照pandas官方技术文档. 约定 from pandas import Series, DataFrame import pandas as pd import numpy as np 带.的为Series或者DataFrame对象的方法,只列举了部分关键字参数. 1.基础 .values 获取值,返回array对象 .index 获取(行)索引,返回索引对象 Series( index=) 创建Series…