机器学习sklearn
sklearn相关模块导入
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler,StandardScaler,Imputer
from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA
import jieba
import numpy as np
一、字典数据抽取
def dictvec():
"""
字典数据抽取
:return: None
"""
dict = DictVectorizer(sparse=False)
# 调用ift_transform
data = dict.fit_transform([{"city": "北京", "temperature": 100}])
print(dict.get_feature_names())
print(dict.inverse_transform(data))
print(data) return None
二、对文本进行特征值化
1、英文
def countvec():
"""
对文本进行特征值化
:return:None
"""
cv = CountVectorizer()
data = cv.fit_transform(["life is short i like python", "life is too long, i dislike python"])
print(cv.get_feature_names())
print(data.toarray())
return None
2、中文
def cutword():
"""
中文特征值化分词
:return:None
"""
con1 = jieba.cut("这是一个什么样的时代,这是一个以互联网时代为代表的时代\n")
con2 = jieba.cut("看到这些我们都想到了什么,什么才能让我们想起不该想起的东西")
# 转换成列表
# content1 = list(con1)
# content2 = list(con2)
# 转换成字符串
c1 = " ".join(con1)
c2 = " ".join(con2)
print(c1,c2)
return c1, c2 def hanzivec():
"""
中文特征值化
:return:None
"""
c1, c2 = cutword()
# print(c1, c2)
cv = CountVectorizer()
data = cv.fit_transform([c1, c2])
print(cv.get_feature_names())
print(data.toarray()) return None def tfidfvec():
"""
中文特征值化
:return:None
"""
c1, c2 = cutword()
# print(c1, c2)
tf = TfidfVectorizer()
data = tf.fit_transform([c1, c2])
# print(data)
print(tf.get_feature_names())
print(data.toarray()) return None
三、归一化计算
def mm():
"""
归一化计算
:return: None
"""
mm=MinMaxScaler(feature_range=(4,5))
data=mm.fit_transform([[60,2,40],[90,4,30],[75,6,50]])
print(data)
四、标准化计算
def ss():
"""
标准化计算
:return: None
"""
ss=StandardScaler()
data=ss.fit_transform([[1,-1,4],[2,1,0],[9,2,3]])
print(data)
五、缺失值处理
def im():
"""
缺失值处理
:return:
"""
im=Imputer(missing_values="NaN",strategy="mean",axis=0)
data=im.fit_transform([[1,2],[np.nan,3],[7,6]])
print(data)
六、特征选择-删除低方差的特征
def var():
"""
特征选择-删除低方差的特征
:return:
"""
var=VarianceThreshold(threshold=0.0)
data=var.fit_transform([[0,3,5,4],[0,2,9,4],[0,8,3,4],[0,8,1,4]])
print(data)
七、数据降维处理
def pca():
"""
数据降维处理
:return:
"""
pca=PCA(n_components=0.9)
data=pca.fit_transform([[1,2,3],[4,5,6],[7,8,9],[10,11,12],[7,8,9]])
print(data)
机器学习sklearn的更多相关文章
- python机器学习-sklearn挖掘乳腺癌细胞(五)
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
- python机器学习-sklearn挖掘乳腺癌细胞(四)
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
- python机器学习-sklearn挖掘乳腺癌细胞(三)
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
- python机器学习-sklearn挖掘乳腺癌细胞(二)
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
- python机器学习-sklearn挖掘乳腺癌细胞(一)
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
- 机器学习-Sklearn
Scikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一. Sklearn 包含了很多种机器学习的方式: Classification 分类 Regres ...
- 机器学习sklearn的快速使用--周振洋
ML神器:sklearn的快速使用 传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类.本文我们将依据传统 ...
- 机器学习——sklearn中的API
import matplotlib.pyplot as pltfrom sklearn.svm import SVCfrom sklearn.model_selection import Strati ...
- python机器学习sklearn 岭回归(Ridge、RidgeCV)
1.介绍 Ridge 回归通过对系数的大小施加惩罚来解决 普通最小二乘法 的一些问题. 岭系数最小化的是带罚项的残差平方和, 其中,α≥0α≥0 是控制系数收缩量的复杂性参数: αα 的值越大,收缩量 ...
随机推荐
- 关于Redis处理高并发
Redis的高并发和快速原因 1.Redis是基于内存的,内存的读写速度非常快: 2.Redis是单线程的,省去了很多上下文切换线程的时间: 3.Redis使用多路复用技术,可以处理并发的连接.非阻塞 ...
- ZJOI-2017 R2 游记
来说说考试(之前的事明天再补): 开始看了一遍所有题目,感觉第二题最可做的样子(ZJOI R1树状数组,HNOI splay 你们西方什么题我还没见过,淦!),大概感觉了一下所有题. T1:k=1直接 ...
- 谈谈传统BIO网络编程模型的局限性与NIO
先来看看我们的server端: 创建一个serversocket,进行监听,每来一个客户端,就启动一个新启动为其服务: private void createListenSocket() { //如果 ...
- python 学习笔记 3 ----> dive into python 3
Python内置数据类型 注意: Python可以不需要声明变量的数据类型.它是根据变量的初始赋值情况分析数据类型,并在内部跟踪变量. 比较重要的数据类型: 1 布尔型(Booleans):True. ...
- json处理+list.sort()排序
#coding:utf-8 """ json是一种轻量级数据交换格式,可以对复杂数据进行表达和存储 规格: 1.数据保存在键值对里 2.键值对之间由逗号分隔 3.花括号用 ...
- 169. Majority Element求众数
网址:https://leetcode.com/problems/majority-element/ 参考:https://blog.csdn.net/u014248127/article/detai ...
- 开发中常用的es6知识
结合实际开发,开发中常用的es6的知识: 1.新增let和const命令: ES6 新增了let命令,用来声明变量.它的用法类似于var,但是所声明的变量,只在let命令所在的代码块内有效: cons ...
- 爬虫(九)scrapy框架简介和基础应用
概要 scrapy框架介绍 环境安装 基础使用 一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能 ...
- echarts-五分钟的教程
https://echarts.baidu.com/tutorial.html#5%20%E5%88%86%E9%92%9F%E4%B8%8A%E6%89%8B%20ECharts
- Jenkins自动构建gitlab项目(jenkins+maven+giltlab+tomcat)
环境准备: System:CentOS 7.3 (最小化安装) JDK: 8u161 (1.8_161) tomcat: 8.5.29 Jenkins: Jenkins 2.107.1 Gitlab: ...