数据分析(8):Series介绍】的更多相关文章

Series Series由一组数据及索引组成 索引 采用默认索引 data = pd.Series([4, 3, 2, 1]) 自定义索引 data = pd.Series([4, 3, 2, 1],index = ['a', 'b', 'c', 'd']) 通过索引取值 data['a'] data[['a', 'd']] 通过赋值修改索引 data.index = ['e', 'f', 'g', 'h'] name属性 data.name data.index.name 运算 布尔运算 d…
pandas是一个强大的Python数据分析的工具包. pandas是基于NumPy构建的. pandas的主要功能: 具备对其功能的数据结构DataFrame.Series 集成时间序列功能 提供丰富的数学运算和操作 灵活处理缺失数据 安装方法:pip install pandas 引用方法:import pandas as pd ------> 以下测试都是在ipython中 <------ Series Series是一种类似于一维数组的对象,由一组数据和一组与之相关的数据标签(索引)组…
一.处理数据的基本内容 数据分析 是指对数据进行控制.处理.整理.分析的过程. 在这里,“数据”是指结构化的数据,例如:记录.多维数组.Excel 里的数据.关系型数据库中的数据.数据表等. 二.说说 Python 这门语言 Python 是现在最受欢迎的动态编程语言之一(还有 Perl.Ruby 等).近些年非常流行用 Python 建站,比如流行的 Python Web 框架 Django. Python 这类语言被称为脚本语言,因为它们可以编写简短粗糙的小程序,即脚本.不过这好像在说 Py…
DataFrame 表格型的数据结构 创建DataFrame 可以通过传入dict的方式,DataFrame会自动加上索引,并且列会有序排列 data = {'state':['a', 'b', 'c']}, 'year':[2000, 1000, 2000], 'pop':[1.5, 1.6, 3.4]} frame = DataFrame(data) 可以指定列序列 DataFrame(data,columns = ['year', 'state', 'pop']) 如果传入的数据找不到,就…
一直想写点Python的笔记了,今天就闲着无聊随便抄点,(*^__^*) 嘻嘻…… -------------------------------------------------------------------------------------- 数据分析的几大任务: 搜集:与外界进行交互,读写各种各样的文件格式和数据库 准备:对数据进行清理.休整.整合.规范化.重塑.切片切块.变形等处理以便进行分析. 建模和计算:将数据跟统计模型.机器学习算法或其它计算工具联系起来. 展示:创建交互…
一.Greenplum背景 时间回到2002年,互联网行业经过近10年的发展,数据量正处于快速增长期: 1.传统的主机计算模式在海量数据面前,除了造价昂贵外,在CPU计算和IO吞吐上不能满足海量数据的计算需求: 2.传统数据库大多基于SMP架,纵向扩容(scale-up)模式遇到了瓶颈. 3.分布式存储和分布式计算理论刚刚被提出来,Google的两篇著名论文关于GFS分布式文件系统和关于MapReduce 并行计算框架的理论引起业界的关注,分布式计算模式在互联网行业特别是收索引擎和分词检索等方面…
怎样删除list中空字符? 最简单的方法:new_list = [ x for x in li if x != '' ] 这一部分主要学习pandas中基于前面两种数据结构的基本操作. 设有DataFrame结果的数据a如下所示: a b c one 4 1 1 two 6 2 0 three 6 1 6 一.查看数据(查看对象的方法对于Series来说同样适用) 1.查看DataFrame前xx行或后xx行a=DataFrame(data);a.head(6)表示显示前6行数据,若head()…
怎样删除list中空字符? 最简单的方法:new_list = [ x for x in li if x != '' ] 这一部分主要学习pandas中基于前面两种数据结构的基本操作. 设有DataFrame结果的数据a如下所示: a b c one 4 1 1 two 6 2 0 three 6 1 6 一.查看数据(查看对象的方法对于Series来说同样适用) 1.查看DataFrame前xx行或后xx行a=DataFrame(data);a.head(6)表示显示前6行数据,若head()…
常用模块 Python中的模块在使用的时候统一都是采用的句点符(.) # 就是模块名点方法的形式 import time time.time() import datetime datetime.datetime.today() time datetime random os sys pymysql import pymysql conn = pymysql.connect( host = '192.168.1.20', port = 3306, user = 'root', password…
前言 Numpy Numpy是科学计算的基础包,对数组级的运算支持较好 pandas pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数.pandas兼具Numpy高性能的数组计算功能以及电子表格和关系型数据(如SQL)灵活的数据处理能力,处理上千万的大数据易于反掌.对于金融行业的用户,pandas提供了大量适用于金融数据的高性能时间序列功能和工具.DataFrame是pandas的一个对象,它是一个面向列的二维表结构,且含有行标和列标. DataFrame是pandas的…