聊聊基于Alink库的特征工程方法
示例代码及相关内容来源于《Alink权威指南(Java版)》
独热编码
OneHotEncoder 是用于将类别型特征转换为独热编码的类。独热编码是一种常用的特征编码方式,特别适用于处理类别型特征,将其转换为数值型特征。
对于每个类别型特征,OneHotEncoder 将其编码成一个长度为类别数量的向量。
每个类别对应一个维度,如果样本的该特征值为该类别,则对应维度置1,其他维度置0。
示例:
List <Row> df = Arrays.asList(
Row.of("a", 1),
Row.of("b", 1),
Row.of("c", 1),
Row.of("e", 2),
Row.of("a", 2),
Row.of("b", 1),
Row.of("c", 2),
Row.of("d", 2),
Row.of(null, 1)
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "query string, weight int");
OneHotEncoder one_hot = new OneHotEncoder().setSelectedCols("query").setEncode(Encode.VECTOR);
// 或者单独设置输出列
// OneHotEncoder one_hot = new OneHotEncoder().setSelectedCols("query").setOutputCols("output");
one_hot.fit(inOp).transform(inOp).print();
输出结果如下所示:
| query | weight |
|---|---|
| $5$0:1.0 | 1 |
| $5$1:1.0 | 1 |
| $5$2:1.0 | 1 |
| $5$ | 2 |
| $5$0:1.0 | 2 |
| $5$1:1.0 | 1 |
| $5$2:1.0 | 2 |
| $5$3:1.0 | 2 |
| $5$4:1.0 | 1 |
向量聚合
VectorAssembler 是用于将多列特征合并为单列特征向量的类。它将多个特征列的值合并为一个特征向量,通常用于特征工程的最后阶段,以准备机器学习模型的输入特征。
对于每个样本,VectorAssembler 将选定的特征列的值合并成一个特征向量。特征向量的维度等于选定的特征列数,每个维度对应一个特征列的值。
合并的特征列仅支持数值类型。
示例:
List <Row> df = Arrays.asList(
Row.of("0", "$6$1:2.0 2:3.0 5:4.3", "3.0 2.0 3.0"),
Row.of("1", "$8$1:2.0 2:3.0 7:4.3", "3.0 2.0 3.0"),
Row.of("2", "$8$1:2.0 2:3.0 7:4.3", "2.0 3.0 2.2")
);
MemSourceBatchOp data = new MemSourceBatchOp(df, "id string, c0 string, c1 string");
VectorAssembler res = new VectorAssembler()
.setSelectedCols("c0", "c1")
.setOutputCol("table2vec");
res.transform(data).print();
输出结果如下所示:
| id | c0 | c1 | table2vec |
|---|---|---|---|
| 0 | $6$1:2.0 2:3.0 5:4.3 | 3.0 2.0 3.0 | $9$1:2.0 2:3.0 ... 8:3.0 |
| 1 | $8$1:2.0 2:3.0 7:4.3 | 3.0 2.0 3.0 | $11$1:2.0 2:3.0 ... 10:3.0 |
| 2 | $8$1:2.0 2:3.0 7:4.3 | 2.0 3.0 2.2 | $11$1:2.0 2:3.0 ... 10:2.2 |
特征哈希
FeatureHasher 是用于将多列特征进行哈希映射,将特征合并成特征向量的类。
对于每个样本,将选定的特征列的值进行哈希映射,得到特征向量的维度。每个特征列的值经过哈希函数映射到特征向量的对应维度,形成一个特征向量。
这种方式可以降低特征维度,减少内存和计算资源的消耗,尤其适用于高维稀疏特征。
不限于数值类型的数据
示例:
List<Row> df1 = Arrays.asList(
Row.of(1.1, true, 2, "A"),
Row.of(1.1, false, 2, "B"),
Row.of(1.1, true, 1, "B"),
Row.of(2.2, true, 1, "A")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df1, "double double, bool boolean, number int, str string");
FeatureHasher binarizer = new FeatureHasher().setSelectedCols("double", "bool", "number", "str").setOutputCol("output").setNumFeatures(3);
输出结果如下所示:
| double | bool | number | str | output |
|---|---|---|---|---|
| 1.1000 | true | 2 | A | $3$0:3.0 1:1.1 2:1.0 |
| 1.1000 | false | 2 | B | $3$0:3.0 1:1.1 2:1.0 |
| 1.1000 | true | 1 | B | $3$0:2.0 1:1.1 2:1.0 |
| 2.2000 | true | 1 | A | $3$0:2.0 1:2.2 2:1.0 |
文本特征生成
DocCountVectorizer 用于将文本数据转换为文本特征向量。它主要适用于文本数据的特征抽取和处理,以便进一步用于机器学习模型的训练和预测。主要用于自然语言处理(NLP)任务,如文本分类、情感分析、主题建模等。
特征抽取过程:
对于每个文本数据,
DocCountVectorizer统计每个词汇在文本中的出现次数,作为特征向量的值。每个文本对应一个特征向量,特征向量的维度为词汇表的大小。
Alink库封装的DocCountVectorizer支持生成多种类型的特征向量,支持IDF/WORD_COUNT/TF_IDF/Binary/TF。默认是WORD_COUNT特征类型,即单词出现的频率。
示例:
List <Row> df = Arrays.asList(
Row.of(0, "二手旧书:医学电磁成像"),
Row.of(1, "二手美国文学选读( 下册 )李宜燮南开大学出版社 9787310003969"),
Row.of(2, "二手正版图解象棋入门/谢恩思主编/华龄出版社"),
Row.of(3, "二手中国糖尿病文献索引"),
Row.of(4, "二手郁达夫文集( 国内版 )全十二册馆藏书")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "id int, text string");
Pipeline pipeline = new Pipeline()
.add(new Segment().setSelectedCol("text")) // 分词
.add(new DocCountVectorizer().setFeatureType("TF_IDF").setSelectedCol("text").setOutputCol("vec"));
pipeline.fit(inOp).transform(inOp).print();
输出结果如下所示:
| id | text | vec |
|---|---|---|
| 0 | 二手 旧书 : 医学 电磁 成像 | $37$10:0.1831020481113516 14:0.1831020481113516 ... 34:0.1831020481113516 |
| 1 | 二手 美国 文学 选读 ( 下册 ) 李宜燮 南开大学 出版社 9787310003969 | $37$0:0.04077336356234972 1:0.04077336356234972 ... 35:0.06462425227459469 |
| 2 | 二手 正版 图解 象棋 入门 / 谢恩 思 主编 / 华龄 出版社 | $37$5:0.0915510240556758 6:0.0915510240556758 ... 36:0.1831020481113516 |
| 3 | 二手 中国 糖尿病 文献 索引 | $37$8:0.21972245773362198 9:0.21972245773362198 ... 32:0.21972245773362198 |
| 4 | 二手 郁达夫 文集 ( 国内 版 ) 全 十二册 馆藏 书 | $37$0:0.046209812037329684 1:0.046209812037329684 ... 30:0.07324081924454065 |
文本哈希特征生成
DocHashCountVectorizer 将文本数据中的每个词汇通过哈希函数映射到特征向量的维度,得到特征向量。
特征向量的维度由用户设置的参数 numFeatures 决定,通常较小以减少维度。
示例:
List <Row> df = Arrays.asList(
Row.of(0, "二手旧书:医学电磁成像"),
Row.of(1, "二手美国文学选读( 下册 )李宜燮南开大学出版社 9787310003969"),
Row.of(2, "二手正版图解象棋入门/谢恩思主编/华龄出版社"),
Row.of(3, "二手中国糖尿病文献索引"),
Row.of(4, "二手郁达夫文集( 国内版 )全十二册馆藏书")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "id int, text string");
Pipeline pipeline = new Pipeline()
.add(new Segment().setSelectedCol("text"))
.add(new DocHashCountVectorizer().setFeatureType("TF_IDF").setSelectedCol("text").setOutputCol("vec").setNumFeatures(3));
pipeline.fit(inOp).transform(inOp).print();
输出结果如下所示:
| id | text | vec |
|---|---|---|
| 0 | 二手 旧书 : 医学 电磁 成像 | $3$0:-0.7331685343967134 1:-0.5207269374140805 |
| 1 | 二手 美国 文学 选读 ( 下册 ) 李宜燮 南开大学 出版社 9787310003969 | $3$0:-0.776296095243579 1:-0.24504797054780258 2:-0.21559781926450705 |
| 2 | 二手 正版 图解 象棋 入门 / 谢恩 思 主编 / 华龄 出版社 | $3$0:-0.7331685343967134 1:-0.17357564580469348 2:-0.30543024395805163 |
| 3 | 二手 中国 糖尿病 文献 索引 | $3$0:-0.2932674137586854 1:-0.4165815499312644 2:-0.366516292749662 |
| 4 | 二手 郁达夫 文集 ( 国内 版 ) 全 十二册 馆藏 书 | $3$0:-0.5865348275173707 1:-0.34715129160938696 2:-0.24434419516644132 |
Word2Vec
Word2Vec是Google在2013年开源的一个将词表转为向量的算法,其利用神经网络,可以通过训练,将词映射到K维度空间向量,它主要用于将单词表示成高维空间中的向量,以便能够在计算机上更好地处理自然语言文本。Word2Vec 提供了一种有效的方式来捕获单词之间的语义关系,这对于自然语言处理任务非常有用。
Word2Vec有两种主要模型:Skip-gram和Continuous Bag of Words (CBOW)。
Skip-gram模型是预测上下文单词,而CBOW模型是预测中心单词。
示例:
List <Row> df = Arrays.asList(
Row.of("A B C")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "tokens string");
Word2Vec word2vec = new Word2Vec().setSelectedCol("tokens").setMinCount(1).setVectorSize(2).setOutputCol("vec");
word2vec.fit(inOp).transform(inOp).print();
输出结果如下所示:
| tokens | vec |
|---|---|
| A B C | 0.7309789158041142 0.40841706187852966 |
聊聊基于Alink库的特征工程方法的更多相关文章
- 基于bs4库的HTML查找方法
基于bs4库的HTML查找方法 find_all方法 <>.find_all(name,attrs,recursive,string,**kwargs) 返回一个列表类型,内部存储查找的结 ...
- 【STM32学习笔记1】基于固件库的STM32_MDK工程模版
文章包含STM32固件库介绍和工程模板搭建两方面内容. 一.STM32固件库介绍 要建立工程模板,首先要对STM32的固件库有所了解.STM32的固件可以从ST官网下载,网址为:http://www. ...
- 手把手教你用Python实现自动特征工程
任何参与过机器学习比赛的人,都能深深体会特征工程在构建机器学习模型中的重要性,它决定了你在比赛排行榜中的位置. 特征工程具有强大的潜力,但是手动操作是个缓慢且艰巨的过程.Prateek Joshi,是 ...
- 2022年Python顶级自动化特征工程框架⛵
作者:韩信子@ShowMeAI 机器学习实战系列:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/artic ...
- Alink漫谈(十) :特征工程 之 特征哈希/标准化缩放
Alink漫谈(十) :特征工程之特征哈希/标准化缩放 目录 Alink漫谈(十) :特征工程之特征哈希/标准化缩放 0x00 摘要 0x01 相关概念 1.1 特征工程 1.2 特征缩放(Scali ...
- 【GMT43智能液晶模块】基于HAL库的SDRAM和LCD驱动例程(MDK工程&CubeMX工程)
说明: 1.该工程基于HAL库实现动态存储器SDRAM驱动以及液晶控制器LCD驱动. 2.工程通过STM32CubeMX(Version 4.22.0)配置生成,可直接打开进行配置. 3.KEIL M ...
- 基于bs4库的HTML标签遍历方法
基于bs4库的HTML标签遍历方法 import requests r=requests.get('http://python123.io/ws/demo.html') demo=r.text HTM ...
- 基于bs4库的HTML内容查找方法
一.信息提取实例 提取HTML中所有的URL链接 思路:1)搜索到所有的<a>标签 2)解析<a>标签格式,提取href后的链接内容 >>> import r ...
- python 机器学习库 —— featuretools(自动特征工程)
文档:https://docs.featuretools.com/#minute-quick-start 所谓自动特征工程,即是将人工特征工程的过程自动化.以 featuretools 为代表的自动特 ...
- 使用sklearn做单机特征工程
目录 1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺 ...
随机推荐
- Linux系统运维之FastDFS集群部署
一.简介 FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储.文件同步.文件访问(文件上传.文件下载)等,解决了大容量存储和负载均衡的问题.FastDFS服务端有两个 ...
- Linux系统运维之Web服务器Nginx安装
一.介绍 Nginx是一款轻量级的Web 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器,并在一个BSD-like 协议下发行.本文先整理web服务器内容. 二.环境及软件版本 操作 ...
- Unity 4.6 bate 20 or 4.5.5 +vuforia3.0.9 发布到真机错误 解决
错误图 +错误码 014-11-20 15:45:49.224 youzheng[6527:1035587] ################### enable 32014-11-20 15:45: ...
- SSIS向MySQL目标(Destination)写数据--Step By Step
前言(废话) 最近的工作中涉及到SQLSERVER向MySQL的数据迁移同步,团队中理所当然准备用开发C#微服务接口的方式实现,我觉得这个路子曲折了,推荐SSIS的方式并自告奋勇接下了这个活.不过以前 ...
- vscode中react组件
通过使用这个插件我们可以很方便的进行组件/方法/文件的导入 本篇博客仅对插件进行介绍翻译,便于自己以后使用 常用片段列表 imr: 引入 React import React from 'react' ...
- Python数据分析易错知识点归纳(六):机器学习
六.机器学习 分类和聚类的区别 分类是有监督学习,聚类是无监督学习 分类算法用于预测新样本,聚类用于理解已知数据 标准化/归一化 type_se_num = type_se[type_se!= 'ob ...
- SEO相关配置 HTML meta标签总结与属性使用介绍
HTML meta标签总结与属性使用介绍 <!-- 声明文档使用的字符编码 --> <meta charset='utf-8'> <!-- 优先使用 IE 最新版本和 C ...
- iptables防火墙调试,想打印个日志就这么难
背景 怎么会讲这个话题,这个说来真的长了.但是,长话短说,也是可以的. 我前面的文章提到,线上的服务用了c3p0数据库连接池,会偶发连接泄露问题,而分析到最后,又怀疑是db侧主动关闭连接,或者是服务所 ...
- 想在golang里用好泛型还挺难的
golang的泛型已经出来了一年多了,从提案被接受开始我就在关注泛型了,如今不管是在生产环境还是开源项目里我都写了不少泛型代码,是时候全面得回顾下golang泛型的使用体验了. 先说说结论,好用是好用 ...
- UiAutomator2.0(转)
1. 概述 UI测试(功能测试.黑盒测试)不需要测试者了解应用程序的内部实现细节,只需要知道当执行了某些特定的动作后是否会得到其预期的输出.这种测试方法,在团队合作中可以更好地分离的开发和测试 ...