DIKW

DATA-->INFOMATION-->KNOWLEDGE-->WISDOM

数据-->信息-->知识-->智慧

爬虫-->数据库-->数据分析-->机器学习

信息：通过某种方式组织和处理数据，分析数据间的关系，数据就有了意义
知识：如果说数据是一个事实的集合，从中可以得出关于事实的结论。那么知识（Knowledge）就是信息的集合，它使信息变得有用。知识是对信息的应用，是一个对信息判断和确认的过程，这个过程结合了经验、上下文、诠释和反省。知识可以回答“如何？”的问题，可以帮助我们建模和仿真
智慧：智慧可以简单的归纳为做正确判断和决定的能力，包括对知识的最佳使用。智慧可以回答“为什么”的问题。回到前面的例子，根据故障对客户的业务影响可以识别改进点

数学

微积分

 # import math

 # s = 0

 # for i in range(1, 1001):

 #     x = (math.pi / 1000) * i

 #     y = math.sin((math.pi / 1000) * i)

 #     s = (math.pi / 1000) * y + s

 # print(s)

 # import numpy as np

 # def sin_integral(l,r,p):

 #     sum_result = 0

 #     delta = (r - l) / p

 #     for i in range(p):

 #         left = i * delta

 #         delta_area = delta * np.sin(left)

 #         sum_result += delta_area

 #     return sum_result

 # print(sin_integral(0.0,np.pi,100000))

numpy

 # coding=utf-8

 import numpy as np

 import matplotlib.pyplot as pt

 # x的3次方

 # X = np.linspace(-100, 100, 100)

 # Y = X * X * X

 # tan

 # X = np.linspace(-np.pi//2,np.pi//2,1000)

 # Y = np.tan(X)

 # log

 # X = np.linspace(-10,10,100)

 # Y = np.log(X)

 #

 # pt.plot(X, Y)

 # pt.show()

 # -----------------------------------------------------------------------

 # 鸡兔同笼

 # for x in range(36):

 #     y = 35 - x

 #     if x+2*y == 47:

 #         print(x,y)

 # sinx面积0-pi

 # import math

 # s = 0

 # for i in range(1, 1001):

 #     x = (math.pi / 1000) * i

 #     y = math.sin((math.pi / 1000) * i)

 #     s = (math.pi / 1000) * y + s

 # print(s)

 # 承上封装为函数

 # import numpy as np

 # def sin_integral(l,r,p):

 #     sum_result = 0

 #     delta = (r - l) / p

 #     for i in range(p):

 #         left = i * delta

 #         delta_area = delta * np.sin(left)

 #         sum_result += delta_area

 #     return sum_result

 # print(sin_integral(0.0,np.pi,100000))

 # --------------------------------------------------------

 # a = np.arange(18).reshape(3, 6)     #二维数组矩阵

 a = np.arange(24).reshape(2,3,4)     #三维数组矩阵

 # print a

 # print a.ndim    #矩阵维数

 # print np.ndim([[1,1],[2,2]])    #矩阵维数

 # print a.dtype.name      #数值类型 int32

 # print a.size    #元素个数

 # print a.itemsize    #每个数组元素的字节大小

 # print type(a)         #a的类型

 b = np.array([[1.2, 2, 3], [4, 5, 6]])

 # print b.dtype       #float64类型的数组

 c = np.array([[1, 1], [2, 2]], dtype=complex)

 # print c,c.dtype     #复数类型complex128类型的数组

 z = np.zeros((3, 4))

 # print z     #创建全零数组，默认为float64形式

 o = np.ones((2, 3, 4), dtype=np.int16)

 # print o

 # 创建一个三维全1的数组，并且创建时指定类型，可以认为是一个长方体里有序的充满了1

 #两层，每一层是三行四列的二维数组

 e = np.empty((2,3))

 # print e     #创建一个二维空数组，电脑不同显示不同

 # f = np.arange(1,9,2)

 f = np.arange(0,3,0.5)

 # print f     #[1 3 5 7]，2和0.5为步进值

 # print np.arange(10000)  #如果数组太大而无法全部打印，NumPy会自动跳过中央部分，只能打印出边界部分（首尾）

 # np.set_printoptions(threshold='nan')      #禁用此省略并强制NumPy打印整个数组，使用set_printoptions更改打印选项

 # print np.arange(10000).reshape(100,100)

 a = np.array([20,30,40,50])

 b = np.arange(4)

 # print a-b           #相减

 # print b**2              #平方

 # print 10*np.sin(a)      #a数组先进行sin运算，然后结果乘10

运算

阶乘

np.math.factorial(100)

对数

np.log()

开方

1.准备每一个条件的数据表示 2.准备程序的逻辑 3.将你的数据应用到逻辑 4.优化结构

 # np.sqrt(3)    

 # A = (2, 7)

 # B = (8, 3)  # 欧几里得距离

 # AB = np.sqrt((A[0] - B[0]) ** 2 + (A[1] - B[1]) ** 2)

 # print AB

三角函数

np.arctan()
np.cos()
np.sin()
np.rad2deg()——弧度转角度
np.deg2rad——角度转弧度
……

 # x = np.array([3, 0]) + np.array([0, 3])

 # x = np.array([3,3])

 # l = np.linalg.norm(x)   #矢量x的范数(长度)

 # h = np.arctan(3.0/3.0)  #计算弧度 π/4

 # j = np.rad2deg(h)       #弧度转角度 45度

 # np.deg2rad()          #角度转弧度

 # print j

点乘

numpy数组 (矢量) 默认的 +-*/ 操作都是对应位置的元素相操作

 array1.dot(array2)

 # d1 = np.array([2, 7])

 # d2 = np.array([8, 3])

 # print d1.dot(d2)        #点乘(内积) 2*8+7*3 结果：实数

 # 余弦相似度，向量内积，对应元素相乘再相加

 '''

 设两个向量分别为a=（x1，y1）,b=(x2,y2)，

 其夹角为α，因为ab=|a||b|cosα，

 所以cosα=ab/|a||b|=（x1y1+x2,y2）/(根号（x1^2+y1^2）根号（x2^2+y1^2）)

 '''

 # d12 = d1.dot(d2)                    #d1·d2

 # d1_len = np.linalg.norm(d1)         #|d1|

 # d2_len = np.linalg.norm(d2)         #|d2|

 # cosa = d12 / (d1_len * d2_len)      #余弦值cosa

 # a = np.rad2deg(np.arccos(cosa))     #角度a

 # print a

复数

 # a = 1 + 2j              #复数  complex

 # b = 2 + 3j             #泰勒级数，傅里叶级数

 # print a,type(a),a*b,a-b

 # np.nan   #not a number 当数据读取缺失或计算异常时会出现，本质是一个浮点数

 # np.exp(10)  #以e为底的指数

 # np.log(10)    #以e为底的对数，即ln

 # np.e          #e,2.71828182

 # np.inf          #无穷大

函数

空数组

默认值是0或正无穷或负无穷

实数在计算机里只能用浮点数无限逼近精度，不能确切表示，所以在处理0的时候要格外小心；a - b < 0.1e-10 相减的时候当结果小于一个极小的数值就认为相等

np.empty((3, 3))

数组

矢量是有方向和长度的变量，可以用numpy的多位数组来表示，二维矢量就是平面的一个点

 np.array([[1,2,3],[4,5,6]])

范数

矢量的范数(长度)

np.linalg.norm(np.array([3,3]))

类型转换

 array.astype(np.int)

数组信息

 array.shape

 array.shape[0]

 array.shape[1]

 # 使用两个矢量相减，可以计算两点距离

 d1 = np.array([2, 7])

 # d2 = np.array([8,3])

 # np.linalg.norm(d1-d2)

 # d1.astype(np.int)    #将数组类型强制转换为int

 # d1.shape    #返回数组的行列数

 # d1.shape[0]     #返回数组的行数

 # d1.shape[1]     #返回数组的列数

均分

# np.linspace()

 # xs = np.linspace(-1000, 1000, 10000)

 # idx = []

 # max_result = []

 # for x in xs:

 #     y = -3 * (x ** 2) + 5 * x - 6

 #     idx.append(x)

 #     max_result.append(y)

 # print max(max_result),idx[max_result.index(max(max_result))]

 # def poly_test(l,r):

 #     r_len = r - l

 #     max_num = l

 #     m_idx = l

 #     for i in range(r_len):

 #         r_num = l + i

 #         result = (r_num ** 2) * -3 + (5 * r_num) - 6

 #         if result > max_num:

 #             max_num = result

 #             m_idx = i

 #     return max_num,m_idx

 # print poly_test(-10000,10000)

 # 在X轴上生成2000个从-10000到10000的离散点

 # 使用矢量计算直接生成对应上述多项式的所有结果，这里没有使用循环，一次计算了20000个结果

 # X = np.linspace(-1000, 10000, 20000)

 # Y = (X ** 2) * -3 + 5 * X - 6  # 矢量运算，计算机会加速此类运算

 # Y.max()  # 获取当前矢量的最大值

 # Y.argmax()  # 获取当前数组最大值对应的索引(X值，不是函数中的X)

数组切片

二维数组

 n_array = np.arange(25).reshape(5, 5)

 # print n_array      #第一个数选行，第二个选列

 # print n_array[:,:2]     #前两列

 # print n_array[:3,:]         #前三行

 # print n_array[1:4,1:4]      #1-3行且1-3列

 # print n_array[2,2]          #第3行的第3个数

 # print n_array[2][2]         #同上

 # print n_array[::-2]   #隔行选择

 # print n_array[::2]

三维数组

 n3_array = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [3, 2, 1]], [[6, 5, 4], [9, 8, 7]]])

 # print n3_array          #第一个数选层，第二个数选行，第三个数选列

 # print n3_array[:,:,2]   #最后一列

 # print n3_array[:,:1,:].sum()    #每一层的第一行

 # print n3_array[:1,:,:].mean()       #平均值

 # print n3_array[:,1,:2].std()        #方差小，更稳定

数组元素选取

 # d1 < 3                           #返回满足条件的布尔类型矩阵

 # np.count_nonzero(d1 < 3)        #统计数组中小于3的元素个数

 # d1[d1<3]                         #选出指定范围的元素

学生成绩案例

数据准备

 # score_array = np.loadtxt(open('score.csv', 'rb'), delimiter=',', dtype=int)

 score_array = np.genfromtxt('score.csv', delimiter=',', dtype=int)

 students = []

 courses = ['数学', '语文', '化学', '地理', '音乐', '体育']

课程成绩最好

 def course_score():

     course_score_max = 0

     cid_max = -1

     for c in range(6):

         course_score = score_array[:, c].sum()

         print course_score

         if course_score_max < course_score:

             course_score_max = course_score

             cid_max = c

     return courses[cid_max], course_score_max

学生成绩最好

 def student_score():

     student_score_max = 0

     sid_max = -1

     for s in range(6):

         student_score = score_array[s, :].sum()

         print '{}号学生成绩：{}分'.format(s, student_score)

         if student_score_max < student_score:

             student_score_max = student_score

             sid_max = s

     return '{}号学生成绩最好，总分为{}分'.format(sid_max, student_score_max)

学生偏科

 def pian():

     pian_max = 0

     pid_max = -1

     for p in range(6):

         student_score_std = score_array[p, :].std()

         print '{}号学生成绩方差为：{}'.format(p, student_score_std)

         if pian_max < student_score_std:

             pian_max = student_score_std

             pid_max = p

     return '{}号学生偏科，方差为：{}'.format(pid_max, pian_max)

主课成绩最好

 def main_course_score():

     main_course_score_max = 0

     cid_max = -1

     for c in range(3):

         main_course_score = score_array[:, c].sum()

         print main_course_score

         if main_course_score_max < main_course_score:

             main_course_score_max = main_course_score

             cid_max = c

     return cid_max, main_course_score_max

该班主课副课对比哪个成绩好

 def than():

     main_course_std = 0

     side_course_std = 0

     for t in range(3):

         main_course_std += score_array[:, t].std()

     main_course_std /= 3

     for t in range(3, 6):

         side_course_std += score_array[:, t].std()

     side_course_std /= 3

     if main_course_std > side_course_std:

         return '该班主课成绩更好'

     else:

         return '该班副课成绩更好'

这个班有多少学生出现了不及格

 def bad():

     badstudent = []

     for b in range(6):

         if min(score_array[b, :]) < 60:

             badstudent.append(b)

             # print '{}学生不及格'.format(b)

     return '不及格学生：{}'.format(badstudent)

封装成类

 name_dic = {0: '数学', 1: '语文', 2: '化学', 3: '地理', 4: '音乐', 5: '体育'}

 class CoursaDesc(object):

     def __init__(self):

         self.name = ''

         self.std = 0

         self.max = 0

         self.min = 0

         self.mean = 0

         self.num = 0

 class ComputerDesc(object):

     def __init__(self, n_array):

         self.score_array = n_array

         self.result = []

     def counter_all_coursa(self):

         for i in range(6):

             c_desc = CoursaDesc()

             c_desc.name = name_dic[i]

             c_desc.std = self.score_array[:, i].std()

             c_desc.mean = self.score_array[:, i].mean()

             c_desc.max = self.score_array[:, i].max()

             c_desc.min = self.score_array[:, i].min()

             c_desc.sum = self.score_array[:, i].sum()

             self.result.append(c_desc)

     def best_coursa(self):

         # std_list = [coursa.std for coursa in self.result]

         # sum_list = [coursa.sum for coursa in self.result]

         std_list = []

         sum_list = []

         for coursa in self.result:

             std_list.append(coursa.std)

             sum_list.append(coursa.sum)

         std_array = np.array(std_list)

         sum_array = np.array(sum_list)

         max_sum_coursa = sum_array.max()

         max_sum_index = sum_array.argmax()

         min_std_coursa = std_array.min()

         min_std_index = std_array.argmin()

         if max_sum_index == min_std_index:

             return name_dic[max_sum_index]

         else:

             # 方差最小的课程的成绩总和

             min_std_coursa_sum = sum_array[min_std_index]

             # 总和成绩最大的课程的方差

             max_sum_coursa_std = std_array[max_sum_index]

             sum_delta = max_sum_coursa - min_std_coursa_sum

             std_delta = max_sum_coursa_std - min_std_coursa

             sum_percent = sum_delta / max_sum_coursa

             std_percent = std_delta / min_std_coursa

             if sum_percent < 0.05 and std_percent > 0.2:

                 return name_dic[min_std_index]

 if __name__ == '__main__':

     c = ComputerDesc(score_array)

     c.counter_all_coursa()

     print c.best_coursa()

数据分析——numpy的更多相关文章

利用Python进行数据分析——Numpy基础：数组和矢量计算
利用Python进行数据分析--Numpy基础:数组和矢量计算 ndarry,一个具有矢量运算和复杂广播能力快速节省空间的多维数组对整组数据进行快速运算的标准数学函数,无需for-loop 用于读写 ...
Python数据分析-Numpy数值计算
Numpy介绍: NumPy是高性能科学计算和数据分析的基础包.它是pandas等其他各种工具的基础. NumPy的主要功能: 1)ndarray,一个多维数组结构,高效且节省空间 2)无需循环对整组 ...
Python数据分析numpy库
1.简介 Numpy库是进行数据分析的基础库,panda库就是基于Numpy库的,在计算多维数组与大型数组方面使用最广,还提供多个函数操作起来效率也高 2.Numpy库的安装 linux(Ubuntu ...
Python数据分析Numpy库方法简介(二)
数据分析图片保存:vg 1.保存图片:plt.savefig(path) 2.图片格式:jpg,png,svg(建议使用,不失真) 3.数据存储格式: excle,csv csv介绍 csv就是用逗号 ...
python数据分析Numpy（二）
Numpy (Numerical Python) 高性能科学计算和数据分析的基础包: ndarray,多维数组(矩阵),具有矢量运算能力,快速.节省空间: 矩阵运算,无需循环,可以完成类似Matlab ...
python 数据分析----numpy
NumPy是高性能科学计算和数据分析的基础包.它是pandas等其他各种工具的基础. NumPy的主要功能: ndarray,一个多维数组结构,高效且节省空间无需循环对整组数据进行快速运算的数学函数 ...
数据分析--numpy的基本使用
一.numpy概述 NumPy是高性能科学计算和数据分析的基础包.它是pandas等其他各种工具的基础. NumPy的主要功能: ndarray,一个多维数组结构,高效且节省空间无需循环对整组数据进 ...
数据分析 - Numpy
简介 Numpy是高性能科学计算和数据分析的基础包.它也是pandas等其他数据分析的工具的基础,基本所有数据分析的包都用过它.NumPy为Python带来了真正的多维数组功能,并且提供了丰富的函数库 ...
数据分析-numpy的用法
一.jupyter notebook 两种安装和启动的方式: 第一种方式: 命令行安装:pip install jupyter 启动:cmd 中输入 jupyter notebook 缺点:必须手动去 ...

随机推荐

FCN网络
https://www.cnblogs.com/gujianhan/p/6030639.html
Linux 文件格式转码工具
Linux 系统下文件编码转换格式工具 ICONV 下载 https://ftp.gnu.org/pub/gnu/libiconv/libiconv-1.15.tar.gz 源码安装: $ ./con ...
Kafka安装配置
Kafka是由Apache软件基金会开发的一个高吞吐量的分布式发布订阅消息系统,由Scala和Java编写.官网地址:http://kafka.apache.org 0.基本概念 Broker:Kaf ...
matplotlib 生成 eps 插入到 tex
matplotlib 生成 eps 插入到 tex matplotlib 生成 eps,就可以插入到 tex 中,而且是矢量图,放大不失真. 而且因为图中的元素都是嵌入到 pdf 中,所以图中的文字也 ...
【nginx】中server配置说明
server { listen 80; //监听的端口号 server_name localhost; //用域名方式访问的地址 #charset koi8-r; //编码 #access_log / ...
VS发布网站时，报错提示：“未能将文件xxx复制到xxx，未能找到文件xx”三种解决方案！
发布网站时候大家可能会遇到这样的情况,就是报错提示说:“未能将文件xxx复制到xxx,未能找到文件xx”,这个问题一般来说有三种解决方案,个人倾向第三种,如图: 解决方案如下: 方案一.把系统提示缺失 ...
SQL SERVER获取信息的方法
获取数据库的表 SELECT obj.name tablename, schem.name schemname, CAST ( CASE ) ) END AS BIT) HasPrimaryKey f ...
dubbo注册中心
官方推荐的是zookeeper注册中心. 1.Multicast 注册中心 Multicast 注册中心不需要启动任何中心节点,只要广播地址一样,就可以互相发现. 提供方启动时广播自己的地址消费方启动 ...
java学习笔记07-循环
java有三种主要的循环结构 while循环 do...while循环 for循环 while循环 while(布尔表达式){ //循环内容 } public static void main(Str ...
有趣的 zkw 线段树（超全详解）
zkw segment-tree 真是太棒了(真的重口味)!写篇博客纪念入门 emmm...首先我们来介绍一下 zkw 线段树这个东西(俗称 "重口味" ,与 KMP 类似,咳咳. ...

数据分析——numpy

DIKW

数学

微积分

numpy

运算

阶乘

对数

开方

三角函数

点乘

复数

函数

空数组

数组

范数

类型转换

数组信息

均分

数组切片

二维数组

三维数组

数组元素选取

学生成绩案例

数据准备

课程成绩最好

学生成绩最好

学生偏科

主课成绩最好

该班主课副课对比哪个成绩好

这个班有多少学生出现了不及格

封装成类

数据分析——numpy的更多相关文章

随机推荐

热门专题