Spark之导出PMML文件（Python）

　　PMML，全称预言模型标记语言（Predictive Model Markup Language），利用XML描述和存储数据挖掘模型，是一个已经被W3C所接受的标准。PMML是一种基于XML的语言，用来定义预言模型。详细的介绍可以参考：http://dmg.org/pmml/v4-3/GeneralStructure.html。
　　本文将介绍如何在Spark中导出PMML文件（Python语言）。
　　首先我们需要安装jpmml-sparkml-package。具体的安装细节可以参考：https://github.com/jpmml/jpmml-sparkml-package。
　　1.利用Git下载JPMML-SparkML-Package project

git init

git clone https://github.com/jpmml/jpmml-sparkml-package.git

cd jpmml-sparkml-package

如下图所示：

　　2.生成uber-JAR文件
　　将Spark的Python路径添加到环境变量

sudo gedit /etc/profile

export PYTHONPATH=$PYTHONPATH:$SPARK_HOME/python

source /etc/profile

再生成uber-JAR文件

mvn -Ppyspark -Dpython.exe=/usr/bin/python3. clean package

注意这里的python路径要是你自己的系统里的Python路径。耐心等待运行，运行结果如下：

这时jpmml-sparkml-package文件夹下会多出target文件夹，如下：

　　3.将上述的jpmml_sparkml-1.3rc0-py3.5.egg文件添加到Eclipse的Pydev的libraries中，如下图：

并且将上述的两个jar包复制到spark安装目录下的jars文件夹下。

这样我们就完成了所有的环境配置。接下来我们进行测试：
　　首先，我们需要数据……数据文件test_data.csv截图如下（部分）：

完整的数据集可在http://archive.ics.uci.edu/ml/datasets/Wholesale+customers找到。
　　在Eclipse中新建test_PMML项目，如下图：

其中test_pmml.py的python代码如下：

 from pyspark import SparkContext

 from pyspark.sql import SparkSession

 from pyspark.ml import Pipeline

 from pyspark.ml.classification import LogisticRegression

 from pyspark.ml.feature import RFormula

 from jpmml_sparkml import toPMMLBytes

 sc = SparkContext.getOrCreate()

 spark = SparkSession.builder.appName("PMML Predict").config("spark.some.config.option", "some-value").getOrCreate()

 print("Read file from /home/vagrant/......")

 df = spark.read.csv("/home/vagrant/test_data.csv", header = True, inferSchema = True)

 print("Reading complete.\n")

 print("Processing logistic model......")

 formula = RFormula(formula = "target ~ .")

 logit = LogisticRegression()

 pipeline = Pipeline(stages = [formula, logit])

 pipelineModel = pipeline.fit(df)

 print("Modeling complete.\n")

 print("Exporting pmml file......")

 pmmlBytes = toPMMLBytes(sc, df, pipelineModel)

 output_rdd = sc.parallelize([pmmlBytes])

 output_rdd.saveAsTextFile("pmml_Logit")

 print("Export complete.\nThe end.")

运行结果如下：

同时会生成pmml_Logit文件夹，里面包含PMML文件part-00000，内容如下图（部分）：

这样我们就成功地导出了逻辑回归模型的PMML文件！本次分享就到这儿啦~~

参考文献：

PMML介绍：http://dmg.org/pmml/v4-3/GeneralStructure.html
测试数据集：http://archive.ics.uci.edu/ml/machine-learning-databases/00292/
https://stackoverflow.com/questions/39888728/export-models-as-pmml-using-pyspark/39902676#39902676
https://github.com/jpmml/jpmml-sparkml-package

Spark之导出PMML文件（Python）的更多相关文章

Python导出DBF文件到Excel的方法
Python导出DBF文件到Excel的方法这篇文章主要介绍了Python导出DBF文件到Excel的方法,实例分析了Python基于win32com模块实现文件导出与转换的相关技巧,分享给大家供大 ...
用PMML实现python机器学习模型的跨平台上线
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...
Solidworks 2016中导出URDF文件
安装SolidWorks to URDF exporter插件下载SolidWorks to URDF Exporter插件后按照网站上的步骤进行安装(目前该插件已经在Win 7 64位系统+Sol ...
使用Scrapy命令行工具【导出JSON文件】时编码设置
Windows 10家庭中文版,Python 3.6.4,virtualenv 16.0.0,Scrapy 1.5.0, 使用scrapy命令行工具建立了爬虫项目(startproject),并使用s ...
使用Spark读写CSV格式文件（转）
原文链接:使用Spark读写CSV格式文件 CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号.在本文中的CSV格 ...
数据库数据导出CSV文件，浏览器下载
直接上代码: def download(request): # 从数据库查询数据 data_list = Info.objects.all() # 定义返回对象 response = HttpResp ...
.Net导出pdf文件,C#实现pdf导出
最近碰见个需求需要实现导出pdf文件,上网查了下代码资料总结了以下代码.可以成功的实现导出pdf文件. 在编码前需要在网上下载个itextsharp.dll,此程序集是必备的.楼主下载的是5.0版本, ...
Java Keytools 证书转换成Openssl 的PEM 文件或keytools 导出私钥文件
上一遍又说到Godaddy 生请证书流程与操作: 现因使用Incapsula 防护使用到https,在添加网站时需要自定义证书,其中需要上传私钥信息,因公钥是能过keytool 生成所以需要导出私钥信 ...
导出csv文件示例
导出csv文件示例 csv文件默认以英文逗号,做为列分隔符换行符\n作为行分隔符,写入到一个.csv文件即可.含有英文逗号,和换行符会发生数据输出会出现混乱,下面列出一些处理方法.特殊字符处理1.含有 ...

随机推荐

mysql密码更改
1.用户修改密码: 方法一:mysqladmin -u用户 -p密码 password '新密码' mysqladmin -uroot -pdefault password 'zhouli.cn' 方 ...
关于EsayUI中datagrid重复提交后台查询数据的问题
直接上代码: <table id="XXXX" style="width:100%;height:100%;" class="easyui-da ...
Xilinx ISE 14.1中模拟True Dual Port RAM例子
<一>创建工程创建工程在此略过. <二>基本代码 1.创建一个Verilog modual代码如下: module main( input clk, input rsta, ...
HDU4027 Can you answer these queries?(线段树单点修改)
A lot of battleships of evil are arranged in a line before the battle. Our commander decides to use ...
正常启动HBase顺序
先启动hadoop集群start-all.sh 在master节点会启动SecondaryNameNode,NameNode,ResourceManager 在slave节点会启动NodeManage ...
单元测试 Qunit
http://api.qunitjs.com/category/assert/ 测试方法选中 "Check for Globals" 会暴露全局对象,看你的代码会不会无 ...
Icon font font face
font-face自定义字体,iconfont就是把各种图片做成字体.iconfont优势: 字体文件小,一般20-50kb: 容易编辑和维护,尺寸和颜色可以用css来控制: 透明完全兼容IE6: ...
通讯框架 T-io 学习——给初学者的Demo：ShowCase设计分析
前言最近闲暇时间研究Springboot,正好需要用到即时通讯部分了,虽然springboot 有websocket,但是我还是看中了 t-io框架.看了部分源代码和示例,先把helloworld敲 ...
实现基于Keepalived高可用集群网站架构的多种方法
实现基于Keepalived高可用集群网站架构随着业务的发展,网站的访问量越来越大,网站访问量已经从原来的1000QPS,变为3000QPS,目前业务已经通过集群LVS架构可做到随时拓展,后端节点已 ...
【Kafka源码】KafkaConsumer
[TOC] KafkaConsumer是从kafka集群消费消息的客户端.这是kafka的高级消费者,而SimpleConsumer是kafka的低级消费者.何为高级?何为低级? 我们所谓的高级,就是 ...

Spark之导出PMML文件（Python）

Spark之导出PMML文件（Python）的更多相关文章

随机推荐

热门专题