机器学习sklearn

sklearn相关模块导入

 from sklearn.feature_extraction import DictVectorizer

 from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

 from sklearn.preprocessing import MinMaxScaler,StandardScaler,Imputer

 from sklearn.feature_selection import VarianceThreshold

 from sklearn.decomposition import PCA

 import jieba

 import numpy as np

一、字典数据抽取

 def dictvec():

     """

     字典数据抽取

     :return: None

     """

     dict = DictVectorizer(sparse=False)

     # 调用ift_transform

     data = dict.fit_transform([{"city": "北京", "temperature": 100}])

     print(dict.get_feature_names())

     print(dict.inverse_transform(data))

     print(data)

     return None

二、对文本进行特征值化

　　1、英文

 def countvec():

     """

     对文本进行特征值化

     :return:None

     """

     cv = CountVectorizer()

     data = cv.fit_transform(["life is short i like python", "life is too long, i dislike python"])

     print(cv.get_feature_names())

     print(data.toarray())

     return None

　　2、中文

 def cutword():

     """

     中文特征值化分词

     :return:None

     """

     con1 = jieba.cut("这是一个什么样的时代，这是一个以互联网时代为代表的时代\n")

     con2 = jieba.cut("看到这些我们都想到了什么，什么才能让我们想起不该想起的东西")

     # 转换成列表

     # content1 = list(con1)

     # content2 = list(con2)

     # 转换成字符串

     c1 = " ".join(con1)

     c2 = " ".join(con2)

     print(c1,c2)

     return c1, c2

 def hanzivec():

     """

     中文特征值化

     :return:None

     """

     c1, c2 = cutword()

     # print(c1, c2)

     cv = CountVectorizer()

     data = cv.fit_transform([c1, c2])

     print(cv.get_feature_names())

     print(data.toarray())

     return None

 def tfidfvec():

     """

     中文特征值化

     :return:None

     """

     c1, c2 = cutword()

     # print(c1, c2)

     tf = TfidfVectorizer()

     data = tf.fit_transform([c1, c2])

     # print(data)

     print(tf.get_feature_names())

     print(data.toarray())

     return None

三、归一化计算

 def mm():

     """

     归一化计算

     :return: None

     """

     mm=MinMaxScaler(feature_range=(4,5))

     data=mm.fit_transform([[60,2,40],[90,4,30],[75,6,50]])

     print(data)

四、标准化计算

 def ss():

     """

     标准化计算

     :return: None

     """

     ss=StandardScaler()

     data=ss.fit_transform([[1,-1,4],[2,1,0],[9,2,3]])

     print(data)

五、缺失值处理

 def im():

     """

     缺失值处理

     :return:

     """

     im=Imputer(missing_values="NaN",strategy="mean",axis=0)

     data=im.fit_transform([[1,2],[np.nan,3],[7,6]])

     print(data)

六、特征选择-删除低方差的特征

 def var():

     """

     特征选择-删除低方差的特征

     :return:

     """

     var=VarianceThreshold(threshold=0.0)

     data=var.fit_transform([[0,3,5,4],[0,2,9,4],[0,8,3,4],[0,8,1,4]])

     print(data)

七、数据降维处理

 def pca():

     """

     数据降维处理

     :return:

     """

     pca=PCA(n_components=0.9)

     data=pca.fit_transform([[1,2,3],[4,5,6],[7,8,9],[10,11,12],[7,8,9]])

     print(data)

机器学习sklearn的更多相关文章

python机器学习-sklearn挖掘乳腺癌细胞（五）
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
python机器学习-sklearn挖掘乳腺癌细胞（四）
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
python机器学习-sklearn挖掘乳腺癌细胞（三）
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
python机器学习-sklearn挖掘乳腺癌细胞（二）
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
python机器学习-sklearn挖掘乳腺癌细胞（一）
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
机器学习-Sklearn
Scikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一. Sklearn 包含了很多种机器学习的方式: Classification 分类 Regres ...
机器学习sklearn的快速使用--周振洋
ML神器:sklearn的快速使用传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类.本文我们将依据传统 ...
机器学习——sklearn中的API
import matplotlib.pyplot as pltfrom sklearn.svm import SVCfrom sklearn.model_selection import Strati ...
python机器学习sklearn 岭回归（Ridge、RidgeCV）
1.介绍 Ridge 回归通过对系数的大小施加惩罚来解决普通最小二乘法的一些问题. 岭系数最小化的是带罚项的残差平方和, 其中,α≥0α≥0 是控制系数收缩量的复杂性参数: αα 的值越大,收缩量 ...

随机推荐

使用代理实现对C# list distinct操作
范型在c#编程中经常使用,而经常用list 去存放实体集,因此会设计到对list的各种操作,比较常见的有对list进行排序,查找,比较,去重复.而一般的如果要对list去重复如果使用linq dist ...
CSRF、XSS、clickjacking、SQL 的攻击与防御
CSRF攻击原理: 跨站请求伪造.是一种挟制用户在当前已登录的Web应用程序上执行非本意的操作的攻击方法. 网站通过cookie来实现登录功能.而cookie只要存在浏览器中,那么浏览器在访问含有这 ...
hadoop配置项笔记 - yarn
hadoop版本:3.1.1 yarn-site.xml yarn.log-aggregation-enable 作用:是否开启任务日志收集默认值:false 我的设置:true yarn.log- ...
《Clean Code》阅读笔记
Chapter 2 命名命名要表现意图避免歧义和误导,增强区分命名可读性:便于发音,增强印象,便于交流命名可查性:增强区分,便于搜索类和对象的命名:名词或名词短语方法的命名:动词或动词短 ...
Linux 缩减逻辑卷
因工作需要,将/usr/users 空间从100G 缩小到50G 检查文件系统类型 mount | grep /usr/users 发现该文件系统使用的是 xfs ,逻辑卷为 /dev/appvg ...
php 两次encodeURI,解决浏览器跳转请求页乱码报错找不到页面的bug
Not Found The requested URL /index.php/XXX/mid/97329240798095910/bname/3000T/D/sname/æ°´æ³¥ç²‰ç£¨/un ...
React文档（二十一）协调
React提供了一个声明式地API因此你不用担心每一次更新什么东西改变了.这使得开发应用变得简单,但是这个东西在React中如何实现的并不是很明显.这篇文章会解释我们在React的算法中所做的选择以便 ...
初步接触gulp
首先是安装nodejs,通过nodejs的npm全局安装和项目安装gulp,其次在项目里安装所需要的gulp插件,然后新建gulp的配置文件gulpfile.js并写好配置信息(定义gulp任务),最 ...
python 近义词库包 synonyms 的使用
最近接触到nlp的一些东西,需要找出中文词语的近义词,也接触到了一个synonyms 的库, 分词,去停用词,word2vector 等一些列nlp 的操作,还可以输出中文词语的近义词 https ...
跟踪mqttv3源码（二）
对于spring-mqtt.xml中的标签: <int-mqtt:message-driven-channel-adapter> <int-mqtt:outbound-channel ...

机器学习sklearn

机器学习sklearn的更多相关文章

随机推荐

热门专题