sklearn简单实现机器学习算法记录

需要引入最重要的库：Scikit-learn

一、KNN算法

from sklearn import datasets

from sklearn.model_selection import train_test_split

from sklearn.neighbors import KNeighborsClassifier

iris = datasets.load_iris()

iris_x = iris.data

iris_y = iris.target

x_train, x_test, y_train, y_test = train_test_split(iris_x, iris_y, test_size=0.3)

knn = KNeighborsClassifier()

knn.fit(x_train, y_train)

print(knn.predict(x_test))

print(y_test)

二、朴素贝叶斯

from sklearn.naive_bayes import BernoulliNB

def loadDataSet():

    '''

    postingList: 进行词条切分后的文档集合

    classVec:类别标签

    使用伯努利模型的贝叶斯分类器只考虑单词出现与否（0，1）

    '''

    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],

                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],

                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],

                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],

                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],

                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

    classVec = [0, 1, 0, 1, 0, 1]  # 1代表侮辱性文字，0代表正常言论

    return postingList, classVec

def create_wordVec(dataset):

    word_set = set([])

    for doc in dataset:

        word_set = word_set | set(doc)  # 通过对两个集合取并，找出所有非重复的单词

    return list(word_set)

def words2Vec(wordList, input_set):

    '''

    @wordList：为前一个函数的输出值（包含单词）

    @input_set：输入需要分类的集合

    函数输出：包含0，1的布尔型向量（对应Wordlist中的单词出现与否）

    '''

    return_vec = [0] * len(wordList)

    # 创建与词汇表等长的列表向量

    for word in input_set:

        if word in wordList:

            return_vec[wordList.index(word)] = 1  # 出现的单词赋1

        else:

            print("the word %s is not in list" % word)

    return return_vec

if __name__ == '__main__':

    p, c = loadDataSet()

    vocab = create_wordVec(p)

    vec = []

    for pl in p:

        vec.append(words2Vec(vocab, pl))

    clf = BernoulliNB(alpha=1.0, binarize=0.0, fit_prior=True, class_prior=None)  # 伯努利模型

    clf.fit(vec, c)

    print("预测值：")

    print(clf.predict(vec))

    print("正确值：")

    print(c)

三、Logistic回归

from sklearn.datasets import load_breast_cancer

from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import train_test_split

breast_cancer = load_breast_cancer()

# print(diabetes)

diabetes_x = breast_cancer.data

diabetes_y = breast_cancer.target

# print(diabetes_x)

# print(diabetes_y)

x_train, x_test, y_train, y_test = train_test_split(diabetes_x, diabetes_y, test_size=0.3)

log = LogisticRegression(solver='liblinear')

log.fit(x_train, y_train)

print(log.predict(x_test))

print(y_test)

# count = 0

# l = len(y_test)

# print(l)

# for i in range(l):

#     if log.predict(x_test)[i] != y_test[i]:

#         count += 1

# print(count)

#

# print(1 - count / l)  # 输出准确率

四、支持向量机SVM

1. 线性 SVM 分类器

import numpy as np

import matplotlib.pyplot as plt

from sklearn.datasets.samples_generator import make_blobs

from sklearn.svm import SVC

X, y = make_blobs(n_samples=50, centers=2,

                  random_state=0, cluster_std=0.60)

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='spring')

model = SVC(kernel='linear')

model.fit(X, y)

def plot_svc_decision_function(clf, ax=None, plot_support=True):

    """Plot the decision function for a 2D SVC"""

    if ax is None:

        ax = plt.gca()

    xlim = ax.get_xlim()

    ylim = ax.get_ylim()

    x = np.linspace(xlim[0], xlim[1], 30)

    y = np.linspace(ylim[0], ylim[1], 30)

    Y, X = np.meshgrid(y, x)

    xy = np.vstack([X.ravel(), Y.ravel()]).T

    P = model.decision_function(xy).reshape(X.shape)

    ax.contour(X, Y, P, colors='k',

               levels=[-1, 0, 1], alpha=0.5,

               linestyles=['--', '-', '--'])

    if plot_support:

        ax.scatter(clf.support_vectors_[:, 0],

                   clf.support_vectors_[:, 1],

                   s=300, linewidth=1, facecolors='none')

    ax.set_xlim(xlim)

    ax.set_ylim(ylim)

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')

plot_svc_decision_function(model) #显示分界线

plt.show()

print("分类值：")

print(model.predict(X))

print("正确值：")

print(y)

2. SVM 与核函数

对于非线性可切分的数据集，要做分割，就要借助于核函数

import numpy as np

import matplotlib.pyplot as plt

from sklearn.datasets.samples_generator import make_circles

from sklearn.svm import SVC

from mpl_toolkits import mplot3d

X, y = make_circles(100, factor=0.1, noise=0.1)

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='spring')

# r = np.exp(-(X ** 2).sum(1))

# 画出3D图像

#

# def plot_3D(elev=30, azim=30, X=X, Y=y):

#     ax = plt.subplot(projection='3d')

#     ax.scatter3D(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')

#     ax.view_init(elev=elev, azim=azim)

#     ax.set_xlabel('x')

#     ax.set_ylabel('y')

#     ax.set_zlabel('z')

#

#

# plot_3D(elev=45, azim=45, X=X, Y=y)

# plt.show()

model = SVC(kernel='rbf', C=1E6)

model.fit(X, y)

def plot_svc_decision_function(clf, ax=None, plot_support=True):

    """Plot the decision function for a 2D SVC"""

    if ax is None:

        ax = plt.gca()

    xlim = ax.get_xlim()

    ylim = ax.get_ylim()

    x = np.linspace(xlim[0], xlim[1], 30)

    y = np.linspace(ylim[0], ylim[1], 30)

    Y, X = np.meshgrid(y, x)

    xy = np.vstack([X.ravel(), Y.ravel()]).T

    P = model.decision_function(xy).reshape(X.shape)

    ax.contour(X, Y, P, colors='k',

               levels=[-1, 0, 1], alpha=0.5,

               linestyles=['--', '-', '--'])

    if plot_support:

        ax.scatter(clf.support_vectors_[:, 0],

                   clf.support_vectors_[:, 1],

                   s=300, linewidth=1, facecolors='none')

    ax.set_xlim(xlim)

    ax.set_ylim(ylim)

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')

plot_svc_decision_function(model)

plt.show()

print("分类值：")

print(model.predict(X))

print("正确值：")

print(y)

3. 总结

非线性映射是SVM方法的理论基础，SVM利用内积核函数代替向高维空间的非线性映射；
对特征空间划分的最优超平面是SVM的目标，最大化分类边际的思想是SVM方法的核心；
支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。因此，模型需要存储空间小，算法鲁棒性强；
无任何前提假设，不涉及概率测度；
SVM算法对大规模训练样本难以实施；
用SVM解决多分类问题存在困难，经典的支持向量机算法只给出了二类分类的算法，而在数据挖掘的实际应用中，一般要解决多类的分类问题。可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式和SVM决策树；再就是通过构造多个分类器的组合来解决。主要原理是克服SVM固有的缺点，结合其他算法的优势，解决多类问题的分类精度。如：与粗集理论结合，形成一种优势互补的多类问题的组合分类器；
SVM是O(n^3)的时间复杂度。在sklearn里，LinearSVC是可扩展的(也就是对海量数据也可以支持得不错), 对特别大的数据集SVC就略微有点尴尬了。不过对于特别大的数据集，你倒是可以试试采样一些样本出来，然后用rbf核的SVC来做做分类。

sklearn简单实现机器学习算法记录的更多相关文章

Python机器学习算法 — KNN分类
KNN简介 K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.KNN分类算法属于监督学习. 最简单最初级的分类器是将全部的训练 ...
机器学习算法-K-NN的学习 /ML 算法（K-NEAREST NEIGHBORS ALGORITHM TUTORIAL）
1为什么我们需要KNN 现在为止,我们都知道机器学习模型可以做出预测通过学习以往可以获得的数据. 因为KNN基于特征相似性,所以我们可以使用KNN分类器做分类. 2KNN是什么? KNN K-近邻,是 ...
【机器学习PAI实践十二】机器学习算法基于信用卡消费记录做信用评分
背景如果你是做互联网金融的,那么一定听说过评分卡.评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应 ...
编程作业1.1——sklearn机器学习算法系列之LinearRegression线性回归
知识点 scikit-learn 对于线性回归提供了比较多的类库,这些类库都可以用来做线性回归分析. 我们也可以使用scikit-learn的线性回归函数,而不是从头开始实现这些算法. 我们将scik ...
机器学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考 ...
paper 17 ：机器学习算法思想简单梳理
前言: 本文总结的常见机器学习算法(主要是一些常规分类器)大概流程和主要思想. 朴素贝叶斯: 有以下几个地方需要注意: 1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分 ...
机器学习&数据挖掘笔记（常见面试之机器学习算法思想简单梳理）
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 作者:tornadomeet 出处:http://www.cnblogs.com/tornadomeet 前言: 找工作时( ...
简单易学的机器学习算法——EM算法
简单易学的机器学习算法——EM算法一.机器学习中的参数估计问题在前面的博文中,如“简单易学的机器学习算法——Logistic回归”中,采用了极大似然函数对其模型中的参数进行估计,简单来讲即对于一系 ...
[转]机器学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 转自http://www.cnblogs.com/tornadomeet/p/3395593.html 前言: 找工作时(I ...

随机推荐

springmvc 实现文件上传
1.添加jar包 <dependency> <groupId>commons-io</groupId> <artifactId>commons-io&l ...
Navicat-pymysql-sql注入问题
一.Navicat 可视化工具的使用 1.Navicat [1] 是一套快速.可靠并价格相宜的数据库管理工具,专为简化数据库的管理及降低系统管理成本而设. 它的设计符合数据库管理员.开发人员及中小企 ...
Ansible--初始ansible
一.ansible简介 ansible是一种自动化运维工具.实现批量操作系统配置.批量程序部署.批量命令运行等功能. ansible工作在agentless模式下,并且具有幂等性(幂等性不会重复执行相 ...
WPS隐藏文档修订显示的方法
893B. Beautiful Divisors#美丽的因子（打表法）
题目出处:http://codeforces.com/problemset/problem/893/B 题目大意:找到一个数在二进制下,最大的以k个连续的1和k-1个连续的0组成的数字作为因子 #in ...
功能区按钮调用Excel、PowerPoint、Word中的VBA宏：RunMacro
功能区按钮调用Excel.PowerPoint.Word中的VBA宏:RunMacro 众所周知,Excel.PPT.Word文档或加载宏文件中可以写很多过程和函数,调试的过程中当然可以按F8或F5直 ...
论文翻译——Character-level Convolutional Networks for Text Classification
论文地址 Abstract Open-text semantic parsers are designed to interpret any statement in natural language ...
PHP小点注意
(1)控制器不可以有list,因为它属于thinkPHP的保留关键字,不可以重名
用Kinect为听障人士架一座沟通的桥梁
编者按:这是微软亚洲研究院和中国科学院共同进行的一个合作项目,希望通过使用Kinect来帮助提升手语的识别率,从而为听力受损的残障人士(以下简称听障人士)架起一座与外界沟通的桥梁. 文章译自:Digi ...
让mybatis不再难懂(一)
与hibernate相比,我无疑更喜欢mybatis,就因为我觉得它真的好用,哈哈.它简单上手和掌握:sql语句和代码分开,方便统一管理和优化:当然缺点也有:sql工作量很大,尤其是字段多.关联表多时 ...

sklearn简单实现机器学习算法记录

sklearn简单实现机器学习算法记录

一、KNN算法

二、朴素贝叶斯

三、Logistic回归

四、支持向量机SVM

1. 线性 SVM 分类器

2. SVM 与 核函数

3. 总结

sklearn简单实现机器学习算法记录的更多相关文章

随机推荐

热门专题

2. SVM 与核函数