PMML,全称预言模型标记语言(Predictive Model Markup Language),利用XML描述和存储数据挖掘模型,是一个已经被W3C所接受的标准。PMML是一种基于XML的语言,用来定义预言模型。详细的介绍可以参考:http://dmg.org/pmml/v4-3/GeneralStructure.html。
  本文将介绍如何在Spark中导出PMML文件(Python语言)。
  首先我们需要安装jpmml-sparkml-package。具体的安装细节可以参考:https://github.com/jpmml/jpmml-sparkml-package。
  1.利用Git下载JPMML-SparkML-Package project

git init
git clone https://github.com/jpmml/jpmml-sparkml-package.git
cd jpmml-sparkml-package

如下图所示:

  2.生成uber-JAR文件
  将Spark的Python路径添加到环境变量

sudo gedit /etc/profile
export PYTHONPATH=$PYTHONPATH:$SPARK_HOME/python
source /etc/profile

再生成uber-JAR文件

mvn -Ppyspark -Dpython.exe=/usr/bin/python3. clean package

注意这里的python路径要是你自己的系统里的Python路径。耐心等待运行,运行结果如下:


这时jpmml-sparkml-package文件夹下会多出target文件夹,如下:


  3.将上述的jpmml_sparkml-1.3rc0-py3.5.egg文件添加到Eclipse的Pydev的libraries中,如下图:


并且将上述的两个jar包复制到spark安装目录下的jars文件夹下。


这样我们就完成了所有的环境配置。接下来我们进行测试:
  首先,我们需要数据……数据文件test_data.csv截图如下(部分):


完整的数据集可在http://archive.ics.uci.edu/ml/datasets/Wholesale+customers找到。
  在Eclipse中新建test_PMML项目,如下图:


其中test_pmml.py的python代码如下:

 from pyspark import SparkContext
from pyspark.sql import SparkSession
from pyspark.ml import Pipeline
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import RFormula
from jpmml_sparkml import toPMMLBytes sc = SparkContext.getOrCreate()
spark = SparkSession.builder.appName("PMML Predict").config("spark.some.config.option", "some-value").getOrCreate()
print("Read file from /home/vagrant/......")
df = spark.read.csv("/home/vagrant/test_data.csv", header = True, inferSchema = True)
print("Reading complete.\n") print("Processing logistic model......")
formula = RFormula(formula = "target ~ .")
logit = LogisticRegression()
pipeline = Pipeline(stages = [formula, logit])
pipelineModel = pipeline.fit(df)
print("Modeling complete.\n") print("Exporting pmml file......")
pmmlBytes = toPMMLBytes(sc, df, pipelineModel)
output_rdd = sc.parallelize([pmmlBytes])
output_rdd.saveAsTextFile("pmml_Logit")
print("Export complete.\nThe end.")

运行结果如下:


同时会生成pmml_Logit文件夹,里面包含PMML文件part-00000,内容如下图(部分):


这样我们就成功地导出了逻辑回归模型的PMML文件!本次分享就到这儿啦~~


参考文献:

  1. PMML介绍:http://dmg.org/pmml/v4-3/GeneralStructure.html
  2. 测试数据集:http://archive.ics.uci.edu/ml/machine-learning-databases/00292/
  3. https://stackoverflow.com/questions/39888728/export-models-as-pmml-using-pyspark/39902676#39902676
  4. https://github.com/jpmml/jpmml-sparkml-package

Spark之导出PMML文件(Python)的更多相关文章

  1. Python导出DBF文件到Excel的方法

    Python导出DBF文件到Excel的方法 这篇文章主要介绍了Python导出DBF文件到Excel的方法,实例分析了Python基于win32com模块实现文件导出与转换的相关技巧,分享给大家供大 ...

  2. 用PMML实现python机器学习模型的跨平台上线

    python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...

  3. Solidworks 2016中导出URDF文件

    安装SolidWorks to URDF exporter插件 下载SolidWorks to URDF Exporter插件后按照网站上的步骤进行安装(目前该插件已经在Win 7 64位系统+Sol ...

  4. 使用Scrapy命令行工具【导出JSON文件】时编码设置

    Windows 10家庭中文版,Python 3.6.4,virtualenv 16.0.0,Scrapy 1.5.0, 使用scrapy命令行工具建立了爬虫项目(startproject),并使用s ...

  5. 使用Spark读写CSV格式文件(转)

    原文链接:使用Spark读写CSV格式文件 CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号.在本文中的CSV格 ...

  6. 数据库数据导出CSV文件,浏览器下载

    直接上代码: def download(request): # 从数据库查询数据 data_list = Info.objects.all() # 定义返回对象 response = HttpResp ...

  7. .Net导出pdf文件,C#实现pdf导出

    最近碰见个需求需要实现导出pdf文件,上网查了下代码资料总结了以下代码.可以成功的实现导出pdf文件. 在编码前需要在网上下载个itextsharp.dll,此程序集是必备的.楼主下载的是5.0版本, ...

  8. Java Keytools 证书转换成Openssl 的PEM 文件或keytools 导出私钥文件

    上一遍又说到Godaddy 生请证书流程与操作: 现因使用Incapsula 防护使用到https,在添加网站时需要自定义证书,其中需要上传私钥信息,因公钥是能过keytool 生成所以需要导出私钥信 ...

  9. 导出csv文件示例

    导出csv文件示例 csv文件默认以英文逗号,做为列分隔符换行符\n作为行分隔符,写入到一个.csv文件即可.含有英文逗号,和换行符会发生数据输出会出现混乱,下面列出一些处理方法.特殊字符处理1.含有 ...

随机推荐

  1. gulp-prompt入个了门

    gulp-prompt版本:0.4.1 源码:gulp-prompt 一.gulp-prompt的简介 gulp-prompt 是一个基于gulp的命令行提示. 我们可以用它来完成命令行中互动功能. ...

  2. vim基本命令(转载自网络)

    来源于<Unix初级教程(第四版)>. 命令模式切换到文本输入模式: 键 功能 i 在光标左侧输入文本 I 在当前行的行首输入文本 a 在光标右侧输入文本 A 在当前行的行尾输入文本 o ...

  3. Github和Github for windows的使用简介

    很多程序员都把自己开发的代码放到Github上,方便自己管理也有利于别人查阅.所以这两天我也捣鼓了一下这个东西,现在把怎么使用Github和Github for windows简单的总结一下. 1.现 ...

  4. 磁盘管理之 raid 文件系统 分区

    第1章 RAID 磁盘阵列 1.1 使用raid的目的 1)获得更大的容量 2)让数据更安全 3)读写速度更快 1.2 raid0.raid1.raid5.raid10对比 磁头 0磁道 1扇区 前4 ...

  5. AngularJS学习篇(二)

    AngularJS 指令 AngularJS 通过被称为 指令 的新属性来扩展 HTML. AngularJS 通过内置的指令来为应用添加功能. AngularJS 允许你自定义指令. Angular ...

  6. TestNG并行测试

    并行(多线程)技术在软件术语里被定义为软件.操作系统或者程序可以并行地执行另外一段程序中多个部分或者子组件的能力.TestNG允许我们以并行(多线程)的方式来执行测试.这就意味着基于TestNG测试组 ...

  7. PHPMailer 发送邮件(二)

    发现PHPMailer又做了较大的更新,以前发送邮件的方法已不太适用,刚好要做一个实验,需要搭建个环境,这里使用Gmail进行测试,现记录下来. 传送地址Github: PHPMailer 基本要求的 ...

  8. Anaconda快捷搭建Python2和Python3环境

    我们在使用Pycharm编辑Python程序经常会因为不熟悉Python2和Python3的一些代码区别而导致错误,我们知道他们之间很多代码是必须运行在对应版本中的,否则是会报错的.因此,本文介绍一个 ...

  9. 一:配置使用阿里云Maven库

    鉴于国内的网络环境,从默认 Maven 库下载 jar 包是非常的痛苦. 速度慢就不说了,还经常是下不下来,然后一运行就是各种 ClassNotFoundException,然后你得找到残留文件删掉重 ...

  10. Visual Studio 2017开发环境的安装

    Visual Studio 2017是微软为了配合.NET战略推出的IDE开发环境,同时也是目前开发C#程序最新的工具,本节以Visual Studio 2017社区版的安装为例讲解具体的安装步骤. ...