更简易的机器学习-pycaret的安装和环境初始化
1、安装
pip install pycaret
在谷歌colab中还要运行:
from pycaret.utils import enable_colab
enable_colab()
2、获取数据
(1)利用pandas库加载
import pandas as pd
data = pd.read_csv('c:/path_to_data/file.csv')
(2)使用自带的数据
from pycaret.datasets import get_data
data = get_data('juice')
数据集列表:
Dataset | Data Types | Default Task | Target Variable | # Instances | # Attributes |
anomaly | Multivariate | Anomaly Detection | None | 1000 | 10 |
france | Multivariate | Association Rule Mining | InvoiceNo, Description | 8557 | 8 |
germany | Multivariate | Association Rule Mining | InvoiceNo, Description | 9495 | 8 |
bank | Multivariate | Classification (Binary) | deposit | 45211 | 17 |
blood | Multivariate | Classification (Binary) | Class | 748 | 5 |
cancer | Multivariate | Classification (Binary) | Class | 683 | 10 |
credit | Multivariate | Classification (Binary) | default | 24000 | 24 |
diabetes | Multivariate | Classification (Binary) | Class variable | 768 | 9 |
electrical_grid | Multivariate | Classification (Binary) | stabf | 10000 | 14 |
employee | Multivariate | Classification (Binary) | left | 14999 | 10 |
heart | Multivariate | Classification (Binary) | DEATH | 200 | 16 |
heart_disease | Multivariate | Classification (Binary) | Disease | 270 | 14 |
hepatitis | Multivariate | Classification (Binary) | Class | 154 | 32 |
income | Multivariate | Classification (Binary) | income >50K | 32561 | 14 |
juice | Multivariate | Classification (Binary) | Purchase | 1070 | 15 |
nba | Multivariate | Classification (Binary) | TARGET_5Yrs | 1340 | 21 |
wine | Multivariate | Classification (Binary) | type | 6498 | 13 |
telescope | Multivariate | Classification (Binary) | Class | 19020 | 11 |
glass | Multivariate | Classification (Multiclass) | Type | 214 | 10 |
iris | Multivariate | Classification (Multiclass) | species | 150 | 5 |
poker | Multivariate | Classification (Multiclass) | CLASS | 100000 | 11 |
questions | Multivariate | Classification (Multiclass) | Next_Question | 499 | 4 |
satellite | Multivariate | Classification (Multiclass) | Class | 6435 | 37 |
asia_gdp | Multivariate | Clustering | None | 40 | 11 |
elections | Multivariate | Clustering | None | 3195 | 54 |
Multivariate | Clustering | None | 7050 | 12 | |
ipl | Multivariate | Clustering | None | 153 | 25 |
jewellery | Multivariate | Clustering | None | 505 | 4 |
mice | Multivariate | Clustering | None | 1080 | 82 |
migration | Multivariate | Clustering | None | 233 | 12 |
perfume | Multivariate | Clustering | None | 20 | 29 |
pokemon | Multivariate | Clustering | None | 800 | 13 |
population | Multivariate | Clustering | None | 255 | 56 |
public_health | Multivariate | Clustering | None | 224 | 21 |
seeds | Multivariate | Clustering | None | 210 | 7 |
wholesale | Multivariate | Clustering | None | 440 | 8 |
tweets | Text | NLP | tweet | 8594 | 2 |
amazon | Text | NLP / Classification | reviewText | 20000 | 2 |
kiva | Text | NLP / Classification | en | 6818 | 7 |
spx | Text | NLP / Regression | text | 874 | 4 |
wikipedia | Text | NLP / Classification | Text | 500 | 3 |
automobile | Multivariate | Regression | price | 202 | 26 |
bike | Multivariate | Regression | cnt | 17379 | 15 |
boston | Multivariate | Regression | medv | 506 | 14 |
concrete | Multivariate | Regression | strength | 1030 | 9 |
diamond | Multivariate | Regression | Price | 6000 | 8 |
energy | Multivariate | Regression | Heating Load / Cooling Load | 768 | 10 |
forest | Multivariate | Regression | area | 517 | 13 |
gold | Multivariate | Regression | Gold_T+22 | 2558 | 121 |
house | Multivariate | Regression | SalePrice | 1461 | 81 |
insurance | Multivariate | Regression | charges | 1338 | 7 |
parkinsons | Multivariate | Regression | PPE | 5875 | 22 |
traffic | Multivariate | Regression | traffic_volume | 48204 | 8 |
3、设置环境
(1)第一步:导入模块
pycaret提供以下6种模块,当你导入相应的模块之后,就将环境切换到了该环境下。
S.No | Module | How to Import |
1 | Classification | from pycaret.classification import * |
2 | Regression | from pycaret.regression import * |
3 | Clustering | from pycaret.clustering import * |
4 | Anomaly Detection | from pycaret.anomaly import * |
5 | Natural Language Processing | from pycaret.nlp import * |
6 | Association Rule Mining | from pycaret.arules import * |
(2)第二步:初始化设置
对于PyCaret中的所有模块都是通用的,设置是开始任何机器学习实验的第一步,也是唯一的必需步骤。 除默认情况下执行一些基本处理任务外,PyCaret还提供了广泛的预处理功能,这些功能在结构上将普通的机器学习实验提升为高级解决方案。 在本节中,我们仅介绍了设置功能的必要部分。 可以在此处找到所有预处理功能的详细信息。 下面列出的是初始化设置时PyCaret执行的基本默认任务:
数据类型推断:在PyCaret中执行的任何实验都始于确定所有特征的正确数据类型。 设置函数执行有关数据的基本推断,并执行一些下游任务,例如忽略ID和Date列,分类编码,基于PyCaret内部算法推断的数据类型的缺失值插补。 执行设置后,将出现一个对话框(请参见以下示例),其中包含所有特征及其推断的数据类型的列表。 数据类型推断通常是正确的,但是一旦出现对话框,用户应查看列表的准确性。 如果正确推断了所有数据类型,则可以按Enter键继续,否则,请键入“ quit”以停止实验。
如果您由于无法正确推断一种或多种数据类型而选择输入“退出”,则可以在setup命令中覆盖它们,方法是传递categorical_feature参数以强制分类类型,而numeric_feature参数则强制数字类型。 同样,为了忽略某些功能以成为实验的一部分,您可以在设置程序中传递ignore_features参数。
注意:如果您不希望PyCaret显示确认数据类型的对话框,则可以在设置过程中以“ True”(静默)方式传递为True,以执行无人看管的实验。 我们不建议您这样做,除非您完全确定推断是正确的,或者您之前已经进行过实验,或者正在使用numeric_feature和categorical_feature参数覆盖数据类型。
数据清理和准备:设置功能会自动执行缺失值插补和分类编码,因为它们对于任何机器学习实验都是必不可少的。 默认情况下,平均值用于数字特征的插补,而最频繁使用的值或模式用于分类特征。 您可以使用numeric_imputation和categorical_imputation参数来更改方法。 对于分类问题,如果目标不是数字类型,则安装程序还将执行目标编码。
数据采样:如果样本量大于25,000,PyCaret会根据不同的样本量自动构建初步的线性模型,并提供可视化效果,以根据样本量显示模型的性能。 然后可以使用该图来评估模型的性能是否随样本数量的增加而增加。 如果不是,您可以选择较小的样本量,以提高实验的效率和性能。 请参见下面的示例,在该示例中,我们使用了pycaret存储库中的“银行”数据集,其中包含45,211个样本。
训练测试拆分:设置功能还执行训练测试拆分(针对分类问题进行了分层)。 默认的分割比例为70:30,但是您可以在设置程序中使用train_size参数进行更改。 仅在Train set上使用k倍交叉验证,才能对PyCaret中已训练好的机器学习模型和超参数优化进行评估。
将会话ID分配为种子:如果未传递session_id参数,则会话ID是默认生成的伪随机数。 PyCaret将此id作为种子分发给所有函数,以隔离随机效应。 这样可以在以后在相同或不同的环境中实现可重现性。
以下是一些例子:
分类:
from pycaret.datasets import get_data
diabetes = get_data('diabetes')
# Importing module and initializing setup
from pycaret.classification import *
clf1 = setup(data = diabetes, target = 'Class variable')
回归:
from pycaret.datasets import get_data
boston = get_data('boston')
# Importing module and initializing setup
from pycaret.regression import *
reg1 = setup(data = boston, target = 'medv')
聚类:
from pycaret.datasets import get_data
jewellery = get_data('jewellery')
# Importing module and initializing setup
from pycaret.clustering import *
clu1 = setup(data = jewellery)
异常检测:
from pycaret.datasets import get_data
anomalies = get_data('anomaly')
# Importing module and initializing setup
from pycaret.anomaly import *
ano1 = setup(data = anomalies)
自然语言处理:
from pycaret.datasets import get_data
kiva = get_data('kiva')
# Importing module and initializing setup
from pycaret.nlp import *
nlp1 = setup(data = kiva, target = 'en')
关联规则挖掘:
from pycaret.datasets import get_data
france = get_data('france')
# Importing module and initializing setup
from pycaret.arules import *
arules1 = setup(data = france, transaction_id = 'InvoiceNo', item_id = 'Description')
更简易的机器学习-pycaret的安装和环境初始化的更多相关文章
- 机器学习实战__安装python环境
环境:win7 64位系统 第一步:安装python 1.下载python2.7.3 64位 msi 版本(这里选择了很多2.7的其他更高版本导致安装setuptools失败,也不知道是什么原因,暂时 ...
- CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-1虚拟机安装及环境初始化
1.软件准备: VMware-workstation-full-14.1.2-8497320.exe CentOS-7-x86_64-DVD-1804.iso 2.VMare激活码: AU5WA-0E ...
- 微软开源自动机器学习工具NNI安装与使用
微软开源自动机器学习工具 – NNI安装与使用 在机器学习建模时,除了准备数据,最耗时耗力的就是尝试各种超参组合,找到最佳模型的过程了.对于初学者来说,常常是无从下手.即使是对于有经验的算法工程师 ...
- 机器学习库shark安装
经过两天的折腾,一个对c++和机器学习库的安装都一知半解的人终于在反复安装中,成功的将shark库安装好了,小小纪念一下,多亏了卡门的热心帮忙. shark的安装主要分为以下几个部分: (1)下载 s ...
- 机器学习linux系统环境安装
机器学习linux系统环境安装 安装镜像下载 可以自己去ubuntu官方网站按照提示下载amd64的desktop版本 或者考虑到国内镜像站点下载,如tuna,163, ali等 课程使用最新的17. ...
- Windows+Python+anaconda机器学习安装及环境配置步骤
Windows+Python+anaconda机器学习安装及环境配置步骤 1. 下载安装python3.6以上版本(包含pip,不用自己安装)2. 直接下载安装pycharm安装包(用于编写pytho ...
- django 简易博客开发 1 安装、创建、配置、admin使用
首先贴一下项目地址吧 https://github.com/goodspeedcheng/sblog 到现在位置项目实现的功能有: 1.后台管理使用Admin ,前端显示使用bootstrap 2. ...
- 在Windows/Ubuntu下安装OpenGL环境(GLUT/freeglut)与跨平台编译(mingw/g++)
GLUT/freeglut 是什么? OpenGL 和它们有什么关系? OpenGL只是一个标准,它的实现一般自带在操作系统里,只要确保显卡驱动足够新就可以使用.如果需要在程序里直接使用OpenGL, ...
- 第一章 andriod studio 安装与环境搭建
原文 http://blog.csdn.net/zhanghefu/article/details/9286123 第一章 andriod studio 安装与环境搭建 一.Android Stu ...
随机推荐
- SpringBoot系列之从入门到精通系列教程
对应SpringBoot系列博客专栏,例子代码,本博客不定时更新 Spring框架:作为JavaEE框架领域的一款重要的开源框架,在企业应用开发中有着很重要的作用,同时Spring框架及其子框架很多, ...
- vue 在使用数组的时候,数组内部数据发生变化,视图却没有改变
data(){ return{ todos: [ {name: 'aa', age: 22}, {name: 'bb', age: 23} ] } } methods:{ changeTodos(){ ...
- Jmeter简单操作 取样器 ,监听器
1.创建线程组 1.2 (1) 线程组主要包含三个参数:线程数.准备时长(Ramp-Up Period(in seconds)).循环次数. (2) 线程数:虚拟用户数.一个虚拟用户占用一个进程或线 ...
- Java获取CPU序列号
获取CPU序列号 /** * 获取CPU序列号 * @return */ public static String getCpuId() throws IOException { Process pr ...
- springboot2.x基础教程:自动装配原理与条件注解
spring Boot采用约定优于配置的方式,大量的减少了配置文件的使用.该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置. 当springboot启动的时候,默认在容器中注入 ...
- 【LeetCode/LintCode】丨Google面试题:N皇后问题
n皇后问题是将n个皇后放置在n*n的棋盘上,皇后彼此之间不能相互攻击(任意两个皇后不能位于同一行,同一列,同一斜线). 给定一个整数n,返回所有不同的n皇后问题的解决方案. 每个解决方案包含一个明确的 ...
- Java 15 正式发布, 14 个新特性,刷新你的认知!!
JDK 15 2020/09/15 如期而至! 这个时间牛逼啊,和苹果发布会同天? OracleJDK 15 发布地址: https://www.oracle.com/java/technologie ...
- 使用GO实现Paxos分布式一致性协议
什么是Paxos分布式一致性协议 最初的服务往往都是通过单体架构对外提供的,即单Server-单Database模式.随着业务的不断扩展,用户和请求数都在不断上升,如何应对大量的请求就成了每个服务都需 ...
- vSphere Client上安装虚拟机工具VMware Tools
vSphere Client上安装虚拟机工具VMware Tools 1.安装虚拟机 具体安装步骤就不详述了,安装虚拟机之后右击虚拟机名->客户机->安装/升级VMware Tools,这 ...
- python的循环结构
遍历循环 计数循环(N次)/(特定次)/字符串遍历循环 列表遍历循环/文件遍历循环......字典遍历循环等等 例子--计数循环 输出从1到6的整数,以2为步长 字符串遍历循环 列表遍历循环 文件遍历 ...