机器学习入门-数值特征-进行二值化变化 1.Binarizer(进行数据的二值化操作)

函数说明：

1. Binarizer(threshold=0.9) 将数据进行二值化，threshold表示大于0.9的数据为1,小于0.9的数据为0

对于一些数值型的特征：存在0还有其他的一些数

二值化指的是：将大于0的特征使用1表示，将等于0的特征还是用0表示

对于二值化操作：使用两种方法

第一种方法：

求出大于等于1的索引值，令这些索引值对应的数值等于1，然后重新构建列

第二种方法：

使用Binarizer(threshold=0.9) 表示大于0.9的数据使用1表示

这里传入的参数需要是二维的，因此需要做维度转换

代码：

数据说明：使用的是歌曲的数据：对歌曲听过的次数做二值化操作，听过大于等于1的次数的设置为1，否者设置为0

import numpy as np

import matplotlib.pyplot as plt

import matplotlib as mpl

import pandas as pd

plt.style.reload_library()

plt.style.use('classic')

# 设置颜色

mpl.rcParams['figure.facecolor'] = (1, 1, 1, 0)

# 设置图形大小

mpl.rcParams['figure.figsize'] = (6.0, 4.0)

# 设置图形的分辨率

mpl.rcParams['figure.dpi'] = 100

popsong_df = pd.read_csv('datasets/song_views.csv', encoding='utf-8')

# 我们对listen_count听歌的次数进行二值化操作, 听过的次数大于等于1的为1，次数为0的为0

# 第一种方法

# listened = popsong_df['listen_count'].copy()

# listened[listened >= 1] = 1

# popsong_df['listened'] = listened

# print(popsong_df[['listen_count', 'listened']])

# 第二种方法：使用 Binarizer

from sklearn.preprocessing import# threshold表示阈值，大于0.9的为1

bin = Binarizer(threshold=0.9)

popsong_df['listened'] = bin.transform(popsong_df['listen_count'].values.reshape(-1, 1))

print(popsong_df[['listen_count', 'listened']].iloc[:10])

机器学习入门-数值特征-进行二值化变化 1.Binarizer(进行数据的二值化操作)的更多相关文章

机器学习入门-数值特征-数字映射和one-hot编码 1.LabelEncoder(进行数据自编码) 2.map(进行字典的数字编码映射) 3.OnehotEncoder(进行one-hot编码) 4.pd.get_dummies(直接对特征进行one-hot编码)
1.LabelEncoder() # 用于构建数字编码 2 .map(dict_map) 根据dict_map字典进行数字编码的映射 3.OnehotEncoder() # 进行one-hot编码 ...
机器学习入门-数值特征-对数据进行log变化
对于一些标签和特征来说,分布不一定符合正态分布,而在实际的运算过程中则需要数据能够符合正态分布因此我们需要对特征进行log变化,使得数据在一定程度上可以符合正态分布进行log变化,就是对数据使用n ...
机器学习入门-数值特征-数据四分位特征 1.quantile(用于求给定分数位的数值) 2.plt.axvline(用于画出竖线) 3.pd.pcut(对特征进行分位数切分，生成新的特征)
函数说明: 1. .quantile(cut_list) 对DataFrame类型直接使用,用于求出给定列表中分数的数值,这里用来求出4分位出的数值 2. plt.axvline() # 用于画 ...
机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)
函数说明: 1. .hist 对于Dataframe格式的数据,我们可以使用.hist直接画出直方图对于一些像年龄和工资一样的连续数据,我们可以对其进行分段标记处理,使得这些连续的数据变成离散化就 ...
机器学习入门-数值特征-进行多项式变化(将特征投影到高维度上) 1.PolynomialFeatures(将数据变化为多项式特征)
函数说明: 1. PolynomialFeatures(degree=2, interaction_only=False, include_bias=False) 参数说明:degree=2,表示多项 ...
深度学习实践-物体检测-faster-RCNN(原理和部分代码说明) 1.tf.image.resize_and_crop(根据比例取出特征层，进行维度变化) 2.tf.slice(数据切片) 3.x.argsort()(对数据进行排列,返回索引值) 4.np.empty(生成空矩阵) 5.np.meshgrid(生成二维数据) 6.np.where(符合条件的索引) 7.tf.gather取值
1. tf.image.resize_and_crop(net, bbox, 256, [14, 14], name) # 根据bbox的y1,x1,y2,x2获得net中的位置,将其转换为14*1 ...
机器学习入门09 - 特征组合 (Feature Crosses)
原文链接:https://developers.google.com/machine-learning/crash-course/feature-crosses/ 特征组合是指两个或多个特征相乘形成的 ...
机器学习入门-文本特征-word2vec词向量模型 1.word2vec（进行word2vec映射编码）2.model.wv['sky']输出这个词的向量映射 3.model.wv.index2vec(输出经过映射的词名称)
函数说明: 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count ...
机器学习入门-文本特征-使用LDA主题模型构造标签 1.LatentDirichletAllocation(LDA用于构建主题模型) 2.LDA.components(输出各个词向量的权重值)
函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型,将文本分成不同的主题参数说明:n_topics 表示分为多少个主题, max_i ...

随机推荐

docker logs 查看实时日志
docker logs -f -t --since="2017-05-31" --tail=10 edu_web_1 --since : 此参数指定了输出日志开始日期,即只输出指定 ...
mybatisz中一个可以替代between..and 的技巧
用mybatis进行时间段筛选时,如果,查询本日,本月的信息量,我们可以使用like concat()函数来替换between..and <select id="queryMyStaf ...
Redis 在线管理工具（phpRedisAdmin）介绍两次git
phpRedisAdmin is a simple web interface to manage Redis databases. phpRedisAdmin 在 Redis clients 的列表 ...
Postgres 主从复制搭建步骤
系统版本: CentOS Linux release 7.5.1804 (Core) 数据库 psql (PostgreSQL) 10.5 2台机器ip : 172.17.0.3 /172.17.0. ...
10 Skills Every SharePoint Developer Needs
10 Skills Every SharePoint Developer Needs(原文) This blog post guides you through the essential skill ...
ES6核心内容讲解
ECMAScript 6(以下简称ES6)是JavaScript语言的下一代标准.因为当前版本的ES6是在2015年发布的,所以又称ECMAScript 2015. 也就是说,ES6就是ES2015. ...
mysql实现自增函数
这两天在思考怎么生成数据库随机名称,思前想后觉得还是利用自增的逻辑主键是最方便快捷的,于是便尝试着获取一种自增的mysql函数自增mysql函数 BEGIN DECLARE id INT DEFAU ...
C Mysql API连接Mysql
最近都在查看MYsql C API文档,也遇到了很多问题,下面来简单的做一个总结. mysql多线程问题 mysql多线程处理不好,经常会发生coredump,见使用Mysql出core一文. 单线程 ...
CentOS、Ubuntu、Debian简析
Centos .Ubuntu.Debian 三个Linux都是非常优秀的系统,开源的系统,也分付费的商业版和免费版,下面简单比较这三种系统. Centos系统非常多的商业公司部署在生产环境上的服务器 ...
python学习之----深网和暗网
深网是网络的一部分,与浅网(surface Web)对立.浅网是互联网上搜索引擎可以抓到的那部分网络.据不完全统计,互联网中其实约90% 的网络都是深网.因为谷歌不能做像表单提交这类事情,也找不到 ...

机器学习入门-数值特征-进行二值化变化 1.Binarizer(进行数据的二值化操作)

机器学习入门-数值特征-进行二值化变化 1.Binarizer(进行数据的二值化操作)的更多相关文章

随机推荐

热门专题