逻辑回归这个算法的名称有一定的误导性。
虽然它的名称中有“回归”，当它在机器学习中不是回归算法，而是分类算法。
因为采用了与回归类似的思想来解决分类问题，所以它的名称才会是逻辑回归。

逻辑回归的思想可以追溯到19世纪，由英国统计学家Francis Galton在研究豌豆遗传问题时首次提出。
然而，真正将逻辑回归应用于机器学习的是加拿大统计学家Hugh Everett，他在1970年代提出了广义线性模型（GLM），其中包括逻辑回归。

逻辑回归广泛应用于各种分类问题，如垃圾邮件识别、疾病预测、市场细分等。

1. 算法概述

逻辑回归通过构建一个逻辑模型来预测分类结果。
它首先对特征进行线性回归，
\(y=w_0 x_0+w_1 x_1+w_2 x_2+w_3 x_3...+w_n x_n=w^Tx\)

然后通过一个sigmoid函数（\(y=\frac{1}{1+e^{-x}}\)）将线性回归的结果转化为概率值，
sigmoid函数的输出范围是0到1。

最后得到逻辑回归的公式：\(h_{w}(x)=\frac{1}{1+e^{-y}}=\frac{1}{1+e^{-w^Tx}}\)

2. 创建样本数据

这次用scikit-learn中的样本生成器make_moons来生成二分类用的样本数据。

from sklearn.datasets import make_moons

fig, ax = plt.subplots(1, 1)

X, y = make_moons(noise=0.05, n_samples=1000)

ax.scatter(X[:, 0], X[:, 1], marker="o", c=y, s=25)

plt.show()

关于用make_moons生成样本数据的介绍，请参考：TODO

3. 模型训练

首先，分割训练集和测试集。

from sklearn.model_selection import train_test_split

# 分割训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

这次按照8:2的比例来划分训练集和测试集。

然后用scikit-learn中的LogisticRegression模型来训练：

from sklearn.neighbors import LogisticRegression

# 定义逻辑回归模型

reg = LogisticRegression()

# 训练模型

reg.fit(X_train, y_train)

# 在测试集上进行预测

y_pred = reg.predict(X_test)

LogisticRegression的主要参数包括：

penalty：广义线性模型的正则项，可选值包括L1正则项'l1'、L2正则项'l2'、复合正则'elasticnet'和无正则项None，默认值为'l2'。
dual：是否为对偶问题。默认为False。
tol：容忍度。默认值为0.0001。
C：惩罚系数。默认值为1.0。
fit_intercept：是否拟合截距。默认为True。
intercept_scaling：截距的缩放因子。默认值为1。
class_weight：样本权重，用于实现数据的不同分类重要性的惩罚。默认为None。
random_state：随机种子。默认为None。
solver：优化算法。默认为'warn'，可选项有'lbfgs'、'sag'、'saga'、'newton-cg'、'sag-l2'、'saga-l2'、'lbfgs-l2'和'optimal'。
max_iter：最大迭代次数。默认为100。
multi_class：多类别分类器。默认为'warn'，当n_classes>2时，默认为True，否则默认为False。
n_jobs：线程数。默认为None，表示使用CPU的核数。

最后验证模型的训练效果：

# 比较测试集中有多少个分类预测正确

correct_pred = np.sum(y_pred == y_test)

print("预测正确率：{}%".format(correct_pred/len(y_pred)*100))

# 运行结果

预测正确率：89.0%

准确率还可以，可以调节生成样本数据的make_moons方法的noise参数，
看看在不同混乱程度的样本数据下，逻辑回归的准确性是否健壮。

4. 总结

逻辑回归在很多领域都有广泛的应用，如自然语言处理、图像识别、医疗诊断、信用评分等。
它尤其适用于那些样本特征之间存在线性关系，且目标变量为二元的情况。

逻辑回归算法主要优势在于：：

实现简单：易于理解和实现，可以在短时间内训练出模型。
计算效率高：在训练和预测时具有较高的计算效率，可以处理大规模的数据集。
可解释性强：可以给出概率输出，这使得它更容易解释和信任。

不过，逻辑回归也有其不足之处：

对数据质量和特征选择敏感：如果数据中存在噪音或者特征选择不当，可能会出现过拟合或者欠拟合的情况。
只能处理二分类问题：如果要处理多分类问题的话，需要把多分类问题转为多个二分类问题。
对异常值和缺失值敏感：处理不当可能会影响模型的性能。

【scikit-learn基础】--『监督学习』之逻辑回归分类的更多相关文章

Lineage逻辑回归分类算法
Lineage逻辑回归分类算法线性回归和逻辑回归参考文章: http://blog.csdn.net/viewcode/article/details/8794401 http://www.cnbl ...
用Python开始机器学习（7：逻辑回归分类） --好！！
from : http://blog.csdn.net/lsldd/article/details/41551797 在本系列文章中提到过用Python开始机器学习(3:数据拟合与广义线性回归)中提到 ...
逻辑回归(分类问题)(Logistic Regression、罗杰斯特回归)
逻辑回归:问题只有两项,即{0, 1}.一般而言,回归问题是连续模型,不用在分类问题上,且噪声较大,但如果非要引入,那么采用逻辑回归模型. 对于一般训练集: 参数系统为: 逻辑回归模型为: ...
Python基础『二』
目录语句,表达式赋值语句打印语句分支语句循环语句函数函数的作用函数的三要素函数定义 DEF语句 RETURN语句函数调用作用域闭包递归函数匿名函数迭代语句,表达式赋值 ...
Python基础『一』
内置数据类型数据名称例子数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...
DeepLearning之路（一）逻辑回归
逻辑回归 1. 总述逻辑回归来源于回归分析,用来解决分类问题,即预测值变为较少数量的离散值. 2. 基本概念回归分析(Regression Analysis):存在一堆观测资料,希望获得数据内 ...
tensorFlow（三）逻辑回归
tensorFlow 基础见前博客逻辑回归广泛应用在各类分类,回归任务中.本实验介绍逻辑回归在 TensorFlow 上的实现理论知识回顾逻辑回归的主要公式罗列如下: 激活函数(activati ...
kaggle信用卡欺诈看异常检测算法——无监督的方法包括：基于统计的技术，如BACON *离群检测多变量异常值检测基于聚类的技术；监督方法：神经网络 SVM 逻辑回归
使用google翻译自:https://software.seek.intel.com/dealing-with-outliers 数据分析中的一项具有挑战性但非常重要的任务是处理异常值.我们通常将异 ...
机器学习（1）- 概述&线性回归&逻辑回归&正则化
根据Andrew Ng在斯坦福的<机器学习>视频做笔记,已经通过李航<统计学习方法>获得的知识不赘述,仅列出提纲. 1 初识机器学习 1.1 监督学习(x,y) 分类(输出y是 ...
机器学习之使用Python完成逻辑回归
一.任务基础我们将建立一个逻辑回归模型来预测一个学生是否被大学录取.假设你是一个大学系的管理员,你想根据两次考试的结果来决定每个申请人的录取机会.你有以前的申请人的历史数据,你可以用它作为逻辑回归的 ...

随机推荐

MySQL运维1-日志
一.错误日志错误日志是MySQL中最重要的日志之一,它记录了当MySQL启动和停止时,以及服务器在运行过程中发生的任何严重错误时的相关信息,当数据库出现任何故障导致无法正常使用时,建议首先查看此日志 ...
微软发布开源平台 Radius：高效构建、运行基于Dapr 云原生应用程序
Microsoft Azure 孵化团队很高兴地宣布[1]推出一个名为 Radius 的新开放应用程序平台,该平台将应用程序置于每个开发阶段的中心,重新定义应用程序的构建.管理和理解方式.Radius ...
使用fontforge进行字体拆分
fontforge官方网站游戏开发为了节省内存和资源下载量,需要把字体不用的字删掉,或者拆成多个字体逐级加载,批量操作用UI就比较难搞了,用fontforge搞起来比较顺手安装fontforge后 ...
VM虚拟机在添加虚拟硬盘后无法boot的解决方案
今天本想自己配一个mini Linux系统,但是在给系统增加一块硬盘的时候,发现出现以下问题 CentOS打不开(其实经过很久也能进去,但是指令全部失效) 由于不知道原因最后就重装了系统,奇怪的是,重 ...
在VM虚拟机中安装FTP服务
自用的话,建议先关掉防火墙 systemctl stop firewalld #关闭防火墙 systemctl disable firewalld.service #设置开机禁用防火墙 systemc ...
Flask解决跨域问题
什么是跨域问题跨域问题指的是浏览器限制了从一个源(协议.域名.端口)访问另一个源的资源的行为,这个限制是浏览器的一个安全机制.如果一个网页从一个源加载了另一种类型的资源(例如 HTML.CSS.脚本 ...
C/C++ extern “C“ 的问题
声明文章中的部分代码引用来在: https://blog.csdn.net/u012234115/article/details/43272441 场景今天在CSDN中看到了一篇关于 extern ...
（Good topic）二分法：x的平方根
计算并返回 x 的平方根,其中 x 是非负整数. 由于返回类型是整数,结果只保留整数的部分,小数部分将被舍去. 示例 1: 输入: 4输出: 2 示例 2: 输入: 8输出: 2说明: 8 的平方 ...
普冉PY32系列(十二) 基于PY32F002A的6+1通道遥控小车III - 驱动篇
目录普冉PY32系列(一) PY32F0系列32位Cortex M0+ MCU简介普冉PY32系列(二) Ubuntu GCC Toolchain和VSCode开发环境普冉PY32系列(三) P ...
Grok AI 是什么？
原文链接:https://openaigptguide.com/grok-ai/ Grok AI是由马斯克推出的一款高级别的人工智能大语言模型,旨在帮助软件开发者以不同的口头语言交流和表达.它是基于多 ...

【scikit-learn基础】--『监督学习』之 逻辑回归分类

1. 算法概述

2. 创建样本数据

3. 模型训练

4. 总结

【scikit-learn基础】--『监督学习』之 逻辑回归分类的更多相关文章

随机推荐

热门专题

【scikit-learn基础】--『监督学习』之逻辑回归分类

【scikit-learn基础】--『监督学习』之逻辑回归分类的更多相关文章