python——sklearn完整例子整理示范（有监督，逻辑回归范例）（原创）

sklearn使用方法，包括从制作数据集，拆分数据集，调用模型，保存加载模型，分析结果，可视化结果

 1 import pandas as pd

 2 import numpy as np

 3 from sklearn.model_selection import train_test_split #训练测试集拆分

 4 from sklearn.linear_model import LogisticRegression  #逻辑回归模型

 5 import matplotlib.pyplot as plt #画图函数

 6

 7 from sklearn.externals import joblib #保存加载模型函数joblib

 8

 9 #以下为sklearn评测指标的一些函数

10 from sklearn.metrics import precision_score

11 from sklearn.metrics import classification_report

12 from sklearn.metrics import confusion_matrix

13

14 #1. 若有文件，建议用read_csv加载，用sep代表按照该符号分割，若文件无列标签名，则header设置为None，自定义标签名names

15

16 #file = "XXX_file"

17 #df = pd.read_csv(file, sep='###',header = None, names = ['flag','uuid','features'],engine = 'python')

18 #df.head()

19

20

21 #2. 准备好特征集合x 和 标签集合y

22

23 #x = df['features']  #x存储特征

24 #y = df['flag']      #y存储标签

25 x = np.random.rand(100,3)

26 print("x:\n",x)

27 print(x.shape)

28 y = np.array([1 if i.sum()>1.2 else 0 for i in x])  #若三个维度之和大于1.2，则y分类为1，否则为0

29 print("y:\n",y)

30 print(y.shape)   #注意y的形式必须是（n，），即numpy中的一维格式

31 #当同时有 if 和 else 时，列表生成式构造为 [最终表达式 - 条件分支判断 - 范围选择]

32

33

34 #3. 拆分训练集和测试集（7:3）

35 x_train, x_test, y_train, y_test = train_test_split(x,y, random_state=666, train_size = 0.7)

36

37

38 #4. 生成模型，并喂入数据

39 clf = LogisticRegression()

40 clf.fit(x_train, y_train)

41

42

43 #5. 保存模型（用joblib，不用pickle）

44 joblib.dump(clf,"lr.model")    #from sklearn.externals import joblib

45 #加载模型是： clf = joblib.load("lr.model")

46

47

48 #6. 预测结果，并评测

49 y_pred = clf.predict(x_test)  #预测出来的值计做y_pred

50 y_true = y_test               #真实值计做y_true，和sklearn参数一模一样

51

52 target_names = ['class 0', 'class 1']

53 print(classification_report(y_true, y_pred, target_names=target_names)) #可以参考sklearn官网API

54 print(confusion_matrix(y_true, y_pred)) #混淆矩阵（记住！sklearn定义的混淆矩阵m行n列含义是：该样本真实值是m，预测值是n）

55 print("precision_score:", precision_score(y_test,y_pred)) #打印精确率（记住！默认是positive，即标注为1的精确率）

56

57

58 #7. 附加：结果可视化，利用plt（用seaborn也可以）

59 """

60 #神秘代码，主要是保证plt字体显示正确

61 plt.rcParams['font.sans-serif'] = ['SimHei']

62 plt.rcParams['font.family']='sans-serif'

63 plt.rcParams['axes.unicode_minus'] = False

64 """

65 plt.plot(y_pred,"b.", label = "y_pred")   #blue，点号

66 plt.plot(y_true,"r*", label = "y_true")   #red，星号

67 plt.legend()

68 plt.show()  #画的比较简略，可以进一步美化

python——sklearn完整例子整理示范（有监督，逻辑回归范例）（原创）的更多相关文章

python基础全部知识点整理,超级全(20万字+)
目录 Python编程语言简介 https://www.cnblogs.com/hany-postq473111315/p/12256134.html Python环境搭建及中文编码 https:// ...
Python —— sklearn.feature_selection模块
Python —— sklearn.feature_selection模块 sklearn.feature_selection模块的作用是feature selection,而不是feature ex ...
Python Sklearn.metrics 简介及应用示例
Python Sklearn.metrics 简介及应用示例利用Python进行各种机器学习算法的实现时,经常会用到sklearn(scikit-learn)这个模块/库. 无论利用机器学习算法进行 ...
python+sklearn+kaggle机器学习
python+sklearn+kaggle机器学习系列教程 0.kaggle 1. 初级线性回归模型机器学习过程 a. 提取数据 b.数据预处理 c.训练模型 d.根据数据预测 e.验证今天是10 ...
C#调用存储过程简单完整例子
CREATE PROC P_TEST@Name VARCHAR(20),@Rowcount INT OUTPUTASBEGIN SELECT * FROM T_Customer WHERE NAME= ...
python多线程简单例子
python多线程简单例子作者:vpoet mail:vpoet_sir@163.com import thread def childthread(threadid): print "I ...
python 三方面库整理
测试开发 Web UI测试自动化 splinter - web UI测试工具,基于selnium封装. selenium - web UI自动化测试. –推荐 mechanize- Python中有状 ...
Python NLP完整项目实战教程（1）
一.前言打算写一个系列的关于自然语言处理技术的文章<Python NLP完整项目实战>,本文算是系列文章的起始篇,为了能够有效集合实际应用场景,避免为了学习而学习,考虑结合一个具体的项目 ...

随机推荐

[阿里DIN]从模型源码梳理TensorFlow的形状相关操作
[阿里DIN]从模型源码梳理TensorFlow的形状相关操作目录 [阿里DIN]从模型源码梳理TensorFlow的形状相关操作 0x00 摘要 0x01 reduce_sum 1.1 reduc ...
CSS圣杯布局、双飞翼布局详解
三栏布局中,经典中的经典应该就是圣杯布局.双飞翼布局没跑了.双飞翼布局和圣杯布局其实是一样的,只不过在写法上有些不同,其布局都是左右固定宽度,中间宽度自适应. 先熟悉一下圣杯布局.双飞翼布局中的特点: ...
企业网络拓扑VRRP主备功能实例(一)
组网图形 VRRP主备备份简介通常,同一网段内的所有主机上都存在一条相同的.以网关为下一跳的缺省路由.主机发往其他网段的报文将通过缺省路由发往网关,再由网关进行转发,从而实现主机与外部网络的通信. ...
python执行rados命令例子
前言我们以前的管理平台在python平台下面做的,内部做的一些操作采用的是命令执行,然后解析的方式去做的,ceph自身有python的rados接口,可以直接调用原生接口,然后直接解析json的方式 ...
最多约数问题(Java)
Description 正整数x 的约数是能整除x 的正整数.正整数x的约数个数记为div(x).例如,1,2,5,10 都是正整数10的约数,且div(10)=4.设a 和b是2 个正整数,a≤b, ...
mimikatz使用
mimikatz使用需要用管理员权限打开 privilege::debug sekurlsa::logonpasswords 已测试系统 Windows Server 2008 R2 Datacen ...
PHP代码审计入门(SQL注入漏洞挖掘基础)
SQL注入漏洞 SQL注入经常出现在登陆页面.和获取HTTP头(user-agent/client-ip等).订单处理等地方,因为这几个地方是业务相对复杂的,登陆页面的注入现在来说大多数是发生在HTT ...
C++中class和struct区别
1.存储不同结构体使用栈存储(Stack Allocation),而类使用堆存储(Heap Allocation). 栈的空间相对较小.但是存储在栈中的数据访问效率相对较高. 堆的空间相对较大.但是 ...
FL Studio通道乐器设置页详讲
上一篇文章我们说到FL Studio通道乐器设置页每个标签页面中几乎都是由包络.低频振荡器和滤波器这三个部分组成.我们之前只对包络进行的简单的介绍,相信很多同学对它还有其他两个的功能的了解还是云里雾里 ...
【PUPPETEER】初探之获取元素文本值（三）
一.知识点 page.$eval(selector, pageFunction[, ...args]) page.$$eval(selector, pageFunction[, ...args]) i ...

python——sklearn完整例子整理示范（有监督，逻辑回归范例）（原创）

python——sklearn完整例子整理示范（有监督，逻辑回归范例）（原创）的更多相关文章

随机推荐

热门专题