sklearn相关模块导入

 from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler,StandardScaler,Imputer
from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA
import jieba
import numpy as np

一、字典数据抽取

 def dictvec():
"""
字典数据抽取
:return: None
"""
dict = DictVectorizer(sparse=False)
# 调用ift_transform
data = dict.fit_transform([{"city": "北京", "temperature": 100}])
print(dict.get_feature_names())
print(dict.inverse_transform(data))
print(data) return None

二、对文本进行特征值化

  1、英文

 def countvec():
"""
对文本进行特征值化
:return:None
"""
cv = CountVectorizer()
data = cv.fit_transform(["life is short i like python", "life is too long, i dislike python"])
print(cv.get_feature_names())
print(data.toarray())
return None

  2、中文

 def cutword():
"""
中文特征值化分词
:return:None
"""
con1 = jieba.cut("这是一个什么样的时代,这是一个以互联网时代为代表的时代\n")
con2 = jieba.cut("看到这些我们都想到了什么,什么才能让我们想起不该想起的东西")
# 转换成列表
# content1 = list(con1)
# content2 = list(con2)
# 转换成字符串
c1 = " ".join(con1)
c2 = " ".join(con2)
print(c1,c2)
return c1, c2 def hanzivec():
"""
中文特征值化
:return:None
"""
c1, c2 = cutword()
# print(c1, c2)
cv = CountVectorizer()
data = cv.fit_transform([c1, c2])
print(cv.get_feature_names())
print(data.toarray()) return None def tfidfvec():
"""
中文特征值化
:return:None
"""
c1, c2 = cutword()
# print(c1, c2)
tf = TfidfVectorizer()
data = tf.fit_transform([c1, c2])
# print(data)
print(tf.get_feature_names())
print(data.toarray()) return None

三、归一化计算

 def mm():
"""
归一化计算
:return: None
"""
mm=MinMaxScaler(feature_range=(4,5))
data=mm.fit_transform([[60,2,40],[90,4,30],[75,6,50]])
print(data)

四、标准化计算

 def ss():
"""
标准化计算
:return: None
"""
ss=StandardScaler()
data=ss.fit_transform([[1,-1,4],[2,1,0],[9,2,3]])
print(data)

五、缺失值处理

 def im():
"""
缺失值处理
:return:
"""
im=Imputer(missing_values="NaN",strategy="mean",axis=0)
data=im.fit_transform([[1,2],[np.nan,3],[7,6]])
print(data)

六、特征选择-删除低方差的特征

 def var():
"""
特征选择-删除低方差的特征
:return:
"""
var=VarianceThreshold(threshold=0.0)
data=var.fit_transform([[0,3,5,4],[0,2,9,4],[0,8,3,4],[0,8,1,4]])
print(data)

七、数据降维处理

 def pca():
"""
数据降维处理
:return:
"""
pca=PCA(n_components=0.9)
data=pca.fit_transform([[1,2,3],[4,5,6],[7,8,9],[10,11,12],[7,8,9]])
print(data)

机器学习sklearn的更多相关文章

  1. python机器学习-sklearn挖掘乳腺癌细胞(五)

    python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...

  2. python机器学习-sklearn挖掘乳腺癌细胞(四)

    python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...

  3. python机器学习-sklearn挖掘乳腺癌细胞(三)

    python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...

  4. python机器学习-sklearn挖掘乳腺癌细胞(二)

    python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...

  5. python机器学习-sklearn挖掘乳腺癌细胞(一)

    python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...

  6. 机器学习-Sklearn

    Scikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一. Sklearn 包含了很多种机器学习的方式: Classification 分类 Regres ...

  7. 机器学习sklearn的快速使用--周振洋

    ML神器:sklearn的快速使用 传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类.本文我们将依据传统 ...

  8. 机器学习——sklearn中的API

    import matplotlib.pyplot as pltfrom sklearn.svm import SVCfrom sklearn.model_selection import Strati ...

  9. python机器学习sklearn 岭回归(Ridge、RidgeCV)

    1.介绍 Ridge 回归通过对系数的大小施加惩罚来解决 普通最小二乘法 的一些问题. 岭系数最小化的是带罚项的残差平方和, 其中,α≥0α≥0 是控制系数收缩量的复杂性参数: αα 的值越大,收缩量 ...

随机推荐

  1. flask No such command "init-db".

    在Daily目录下,使用cmd窗口执行,不要使用IDE的命令行 set FLASK_APP=DLY set FLASK_ENV=development flask init_app

  2. Linux根目录下各个目录的用途及含义

    Linux根目录下各个目录的用途及含义 Linux ./bin 重要的二进制 (binary) 应用程序,包含二进制文件,系统的所有用户使用的命令都在这个目录下. ./boot 启动 (boot) 配 ...

  3. ubuntu安装QGIS

    参考官网https://qgis.org/en/site/forusers/alldownloads.html#debian-ubuntu 但是官网写的太繁琐分散,没有按每个OS集中写cli安装完整过 ...

  4. bs4 FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?

    安装beautifulsoup后,运行测试报错 from urllib import requestfrom bs4 import BeautifulSoup url = "http://w ...

  5. Python学习周末练习1-用户登录

    用户登录验证要求:1.用户登录输入账号.密码.4位随机大写字母验证码2.验证码错误重新输入3.有三次机会输入账号密码 count = 1 while count <= 3 : from rand ...

  6. Django-CSRF的使用

    1. 为什么要有csrf_token? 防止跨站请求伪造 2. Django中如何使用? urls.py: urlpatterns = [ # 测试跨站请求伪造 (CSRF) url(r'^csrf_ ...

  7. 九度1456胜利大逃亡【BFS】

    时间限制:1 秒 内存限制:128 兆 特殊判题:否 提交:4432 解决:1616 题目描述: Ignatius被魔王抓走了,有一天魔王出差去了,这可是Ignatius逃亡的好机会.魔王住在一个城堡 ...

  8. max of 直线划平面

    在一个无限延伸平面上有一个圆和n条直线,这些直线中每一条都在一个圆内,并且同其他所有的直线相交,假设没有3条直线相交于一点,试问这些直线最多将圆分成多少区域. Input 第一行包含一个整数T,(0& ...

  9. css常用的属性

    CSS------属性值篇 display: none | block | inline(默认值) | inline-block(css2新增) | inherit none :此元素不会再显示 {注 ...

  10. 某mac最简单调节亮度

    说明 mac用户其实都可以使用 背景 很多人都说需要打补丁啊,或者修改什么的,我试过不管用.不如通过软件调节.. 正文 从appstore下载 Brightness Slider 即可,虽然不能达到系 ...