机器学习中的又一个利器,广泛用于Kaggle或类似的数据比赛。

 xlearn的优势:

  • 1.通用性好,包括主流的算法(lr, fm, ffm 等),用户不用再切换于不同软件之间
  • 2.性能好,测试 xLearn 可以比 libfm 快13倍,比 libffm 和 liblinear 快5倍
  • 3.易用性和灵活性,xLearn 提供简单的 python 接口,并且集合了机器学习比赛中许多有用的功能
  • 4.可扩展性好。xLearn 提供 out-of-core 计算,利用外存计算可以在单机处理 1TB 数据

二、xlearn安装:巨简单

目前xlearn只支持,Linux和Mac,Windows用户可能要等等了。以下操作在Ubuntu系统进行。

2.1安装GCC(或Clang)和CMake:

建议安装GCC,Clang下载文件大,而且安装过程出现问题,便直接安装的GCC。

安装gcc

sudo apt-get install build-essential

测试是否安装成功:
gcc --version

出现以下界面代表安装成功:

gcc (Ubuntu 5.4.0-6ubuntu1~16.04.9) 5.4.0 20160609
Copyright (C) 2015 Free Software Foundation, Inc.

安装cmake

我实在不明白为什么有些教程要下载文件,等等骚操作,那么麻烦。一行搞定。

sudo apt-get install cmake

测试是否安装成功:
cmake --version

出现以下界面代表安装成功:

cmake version 3.5.1
CMake suite maintained and supported by Kitware (kitware.com/cmake).

2.2 安装xlearn:

sudo pip install xlearn

这个地方注意下,如果安装了Anaconda,确认xlearn是否安装在你所运行的Anaconda的虚拟环境中。找到安装包的位置可以查看下,如果显示安装成功,却不能import xlearn,八成是这个问题。

三、xlearn实战:

简单实战,每一行都有详细的注释。主要是简单学会使用模型,并没有对特征过多分析。

3.1 快速入门

import xlearn as xl
ffm_model = xl.create_ffm()
# 训练集
ffm_model.setTrain("small_train.txt")
# 设置验证集
ffm_model.setValidate("small_test.txt") # 设置参数
param = {'task':'binary','lr':0.2,'lambda':0.002} # 设置不同的评价指标
# 分类问题:acc(Accuracy);prec(precision);f1(f1 score);auc(AUC score)
param1 = {'task':'binary','lr':0.2,'lambda':0.002,'metric':'rmse'}
# 回归问题:mae,mape,rmsd(RMSE)
param2 = {'task':'binary','lr':0.2,'lambda':0.002, 'metric':'rmse'} # 训练模型
ffm_model.fit(param, "model.out") # 测试集
ffm_model.setTest("small_test.txt")
# 输出样本预测概率,范围(-1,1)
ffm_model.predict("model.out","output.txt") # 设置预测概率范围为(0,1)
ffm_model.setSigmoid()
ffm_model.predict("model.out","output.txt") # 转化为二分类(0,1),没有阈值吗???
ffm_model.setSign()
ffm_model.predict("model.out","output.txt") # 模型保存为txt格式,
ffm_model.setTXTModel("model.txt")
 

3.2 更进一步:

# 选择不同的机器学习算法
# FM,LR可以使用csv和libsvm格式,FFM应该接受libffm格式
fm_model = xl.create_fm()
lr_model = xl.create_linear() # 设置交叉验证(Cross Validation)
ffm_model = xl.create_ffm()
ffm_model.setTrain("train.txt")
param = {'task':'binary','lr':0.2,'lambda':0.002,'fold':3}
# 默认5-folds,可通过param设置
ffm_model.cv(param) # 设置优化算法:SGD,AdaGrad,Ftrl(Follow-the-Regularized-Leader)
param3 = {'task':'binary','lr':0.002,'lambda':0.01,'opt':'ftrl'}
# Ftrl的额外参数
param = {'alpha':0.002,'beta':0.8,'lambda_1':0.001,'lambda_2':1.0}
# 如何自动进行超参数训练 # 设置Epoch数量
param4 = {'task':'bianry','lr':0.2,'lambda':0.01,'epoch':3}
# Early stopping,设置提前停止窗口
param5 = {'task':'binary','lr':0.2,'lambda':0.002,'epoch':10,'stop_window':3} # Lock-Free 训练,可以充分利用多核来加速训练,但是结果具有不确定性,默认开启
ffm_model.disableLockFree() # disable lock-free training # Instance-wise Normalization,对CTR预测问题,非常有效,但是有损性能
ffm_model.disableNorm() # disable Instance-wise Normalization # Quite Training 提高训练速度,不计算评指标,只训练模型
ffm_model.setQuiet()
 

3.3 与Sklearn相结合

建议利用sklearn接口,众多sklearn的功能都能使用。

# 调用Sklearn的API
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split iris_data = load_iris()
X = iris_data['data']
y = iris_data['target' == 2] X_train,X_test,y_train, y_test = train_test_split(X,y,test_size=0.3,random_state=0)
linear_model = xl.LRModel(task='binary',init=0.1,epoch=10,lr=0.1,reg_lambda=1.0,opt='sgd') linear_model.fit(X_train,y_train,eval_set=[X_test, y_test],is_lock_free=False) y_pred = linear_model.predict(X_test) 版权声明:本文为CSDN博主「linxid」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/linxid/article/details/80382569

linux xlearn安装的更多相关文章

  1. Linux下安装 Posgresql 并设置基本参数

    在Linux下安装Postgresql有二进制格式安装和源码安装两种安装方式,这里用的是二进制格式安装.各个版本的Linux都内置了Postgresql,所以可直接通过命令行安装便可.本文用的是Cen ...

  2. Linux下安装Tomcat服务器和部署Web应用

    一.上传Tomcat服务器

  3. Linux下安装使用Solr

    Linux下安装使用Solr 1.首先下载Solr.mmseg4j分词包.tomcat并解压,这用google.百度都可以搜索得到下载地址. 2.因为要使用到中文分词,所以要设置编码,进入tomcat ...

  4. Linux下安装tar.gz类型的jdk,并配置环境变量

    近期因要学习一门技术,必须在Linux下运行,故开始学习如何使用Linux. 在安装jdk时出现了困难,环境变量配置不成功,花了一天时间才搞定,特分享出来,供大家参考. Linux下安装jdk,步骤如 ...

  5. Linux下安装和配置JDK与Tomcat(升级版)

    在这个版本 Linux下安装和配置JDK与Tomcat(入门版) 的基础上优化升级 1.下载相关软件 apache-tomcat-6.0.37.tar.gz jdk-6u25-linux-i586-r ...

  6. Linux下安装cmake

    cmake是一个跨平台的编译工具,特点是语句简单,编译高效,相对于原有的automake更为高效,接下来说明在Linux下安装cmake工具的过程 首先去cmake官网下载cmake安装包,下载界面网 ...

  7. 阿里云服务器Linux CentOS安装配置(零)目录

    阿里云服务器Linux CentOS安装配置(零)目录 阿里云服务器Linux CentOS安装配置(一)购买阿里云服务器 阿里云服务器Linux CentOS安装配置(二)yum安装svn 阿里云服 ...

  8. 阿里云服务器Linux CentOS安装配置(九)shell编译、打包、部署

    阿里云服务器Linux CentOS安装配置(九)shell编译.打包.部署 1.查询当前目录以及子目录下所有的java文件,并显示查询结果 find . -name *.java -type f - ...

  9. 阿里云服务器Linux CentOS安装配置(八)nginx安装、配置、域名绑定

    阿里云服务器Linux CentOS安装配置(八)nginx安装.配置.域名绑定 1.安装nginx yum -y install nginx 2.启动nginx service nginx star ...

随机推荐

  1. kubernetes 集群添加node节点

    kubernetes 集群添加node节点 注意,我们并不需要把新增的node ip加入到证书里重新生成!!! 下面我们以添加node03为例 一.添加集群里个节点的hostname并设置好对应主机名 ...

  2. mac中git使用

    配置用户名及邮箱在使用Git提交前,必须配置用户名和邮箱,这些信息会永久保存到历史记录中.git config --global user.name "xxxxxx"git con ...

  3. 编译制作Linux 3.18内核rpm包(升级centos6.x虚拟机内核)

    介绍 openstack平台需要使用各种Linux发行版模板镜像,其制作方法主要有两种,要么是基于各大Linux发行版ISO光盘手动制作,要么是使用官方提供的模板镜像再做修改 之前制作的opensta ...

  4. spice在桌面虚拟化中的应用系列之二(Linux平台spice客户端的编译安装,支持USB映射)

    1.系统环境 1.1 测试环境 centos6.4最小化安装(centos6.x桌面版也适用) 使用yum源为163源加EPEL源 1.2 spice客户端介绍 spice作为远程连接工具,可以支持远 ...

  5. 学了 C 语言到底能做什么, 能从事什么工作?

    前言 经常有小伙伴问我,你是做C/C++的,那学C语言可以做什么呢?尤其是还在学校的同学,感觉自己学了很久,什么也做不了,一度怀疑自己是不是不适合程序员这个方向. 开始我都是直接说可以开发嵌入式啊,做 ...

  6. 如何顺利完成Kubernetes源码编译?

    为什么要编译源码 ? Kubernetes是一个非常棒的容器集群管理平台.通常情况下,我们并不需要修改K8S代码即可直接使用.但如果,我们在环境中发现了某个问题/缺陷,或按照特定业务需求需要修改K8S ...

  7. 史诗级干货-python爬虫之增加CSDN访问量

    史诗级干货-python爬虫之增加CSDN访问量 搜索微信公众号:'AI-ming3526'或者'计算机视觉这件小事' 获取更多算法.机器学习干货 csdn:https://blog.csdn.net ...

  8. 2019牛客多校第三场 F.Planting Trees

    题目链接 题目链接 题解 题面上面很明显的提示了需要严格\(O(n^3)\)的算法. 先考虑一个过不了的做法,枚举右下角的\((x,y)\),然后二分矩形面积,枚举其中一边,则复杂度是\(O(n^3 ...

  9. SpringBoot序列化时间类型的问题

    在使用sringboot的时候因为在配置文件中缺少一个配置项,所以导致查询出来的时间都是long类型的时间格式 因为springboot默认使用的是Jackson 这个时间显然不是我们所需要的,参考官 ...

  10. SVM:从数学上分析为什么优化cost function会产生大距离(margin)分类器

    向量内积 uTv = vTu为两个二维向量的内积,它等于p*||u||(其中p为向量v在向量u上的投影长度,是有+/-之分的,||u||为向量u的长度也称为范数),它是一个实数(是一个标量). 如上图 ...